首页> 中文学位 >基于KNN的缺失数据在线填补方法及其在信用评估中的应用研究
【6h】

基于KNN的缺失数据在线填补方法及其在信用评估中的应用研究

代理获取

目录

声明

第1章 绪论

1.1研究背景与意义

1.1.1研究背景

1.1.2研究意义

1.2国内外研究现状

1.2.1 信用评估相关研究

1.2.2 缺失数据处理相关研究

1.3 研究内容与组织结构

1.3.1 论文的研究内容

1.3.2 论文的组织结构

第2章 相关理论与方法

2.1 缺失值理论

2.1.1 数据缺失机制

2.1.2 数据缺失模式

2.2 K近邻算法概述

2.2.1 K近邻算法

2.2.1 K近邻填补算法

2.3 最大信息系数

2.4 在线层次聚类

第3章 在线KNN缺失数据填补算法

3.1 基本思想与算法框架

3.2 KNN的距离度量选择分析

3.3 基于最大信息系数的特征加权策略

3.3.1 加权策略的定义

3.3.2 动态赋权实例演示

3.4 基于聚类树的KNN填补算法

3.5 算法分析

第4章 信用缺失数据填补的应用实验设计与分析

4.1 信用数据集描述

4.2 填补有效性比较实验

4.2.1 数据集缺失设置

4.2.2 实验步骤

4.2.3 评价指标

4.2.4 实验结果与分析

4.3 稳定性比较实验

4.3.1 数据集的处理

4.3.2 实验步骤

4.3.3 实验结果与分析

结 论

参考文献

附录A 攻读学位期间发表学术论文目录

附录B 攻读学位期间参与的科研项目

附录C 本文主要实验代码

致谢

展开▼

摘要

随着云计算、物联网等技术的发展,我国的信贷业务规模越来越大。如何全面的地准确地评估客户的信用风险,展开个性化的授信金融服务,既是商业银行、小额贷款公司等传统金融机构风险控制的核心环节,也是新兴互联网金融机构业务经营的痛点,持续攀升的不良贷款率更是逼迫着各类金融机构不断提升其风险管理水平。过去针对信用评估的研究多集中于信用评估机器学习模型的设计,而忽视了对数据集中缺失值预处理的研究。事实上,研究人员在不断深入客户信用评估理论与实践研究的过程中发现客户数据常常拥有许多的缺失数据,这在很大程度上会影响到客户信用评估模型的效果。其次,当今众多的信用业务数据都是动态到达的流式数据,在面对这类数据时,数据仅能访问一次,如何利用有限的计算资源对实时的数据流信息进行快速的缺失数据处理是一个很值得研究的话题。  K近邻算法是一种在线技术,可以充分利用新数据带来的信息,但是在数据量较大的情况下,其近邻的搜索具有较高的时间复杂度。K近邻算法常用的距离度量指标——欧式距离认为所有属性都是同等重要的,这容易导致填补效果受到无关属性的误导。鉴于此,本文提出了一种结合层次聚类树、最大信息系数的K近邻缺失数据在线填补方法。该方法的核心过程有两个,一个是聚类树的构建,另一个是K近邻的应用。而这两个过程都依赖于样本间的相似性度量,本文采用一种近似的欧式距离,即用最小外接矩形的概念来表示聚类树中某个内部节点包含的所有数据点的空间范围,在保证一定精确度的情况下确保提高数据的处理效率。该方法在流数据点的接收过程和处理过程是同步进行的,可以实时地反馈填补结果,可以不需要等在线数据流中的全部数据都存储在本地内存中之后才进行缺失值的填补。同时,在对缺失数据进行填补的过程中考虑属性间的非线性相关关系,即使用最大信息系数来衡量属性间的相对权重,充分发挥与待填补变量相关性较强的变量的作用,降低相关度较弱的变量对缺失数据填补的影响,从而提高数据填补的准确度。  为了验证本文提出的填补方法在客户信用缺失数据填补方面的准确性,高效性和稳定性,本文通过四个信用数据集进行了对比实验。实验结果表明,本文所提出的算法在各个方面都要优于其他填补方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号