基于KNN的缺失数据在线填补方法及其在信用评估中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着云计算、物联网等技术的发展，我国的信贷业务规模越来越大。如何全面的地准确地评估客户的信用风险，展开个性化的授信金融服务，既是商业银行、小额贷款公司等传统金融机构风险控制的核心环节，也是新兴互联网金融机构业务经营的痛点，持续攀升的不良贷款率更是逼迫着各类金融机构不断提升其风险管理水平。过去针对信用评估的研究多集中于信用评估机器学习模型的设计，而忽视了对数据集中缺失值预处理的研究。事实上，研究人员在不断深入客户信用评估理论与实践研究的过程中发现客户数据常常拥有许多的缺失数据，这在很大程度上会影响到客户信用评估模型的效果。其次，当今众多的信用业务数据都是动态到达的流式数据，在面对这类数据时，数据仅能访问一次，如何利用有限的计算资源对实时的数据流信息进行快速的缺失数据处理是一个很值得研究的话题。　　K近邻算法是一种在线技术，可以充分利用新数据带来的信息，但是在数据量较大的情况下，其近邻的搜索具有较高的时间复杂度。K近邻算法常用的距离度量指标——欧式距离认为所有属性都是同等重要的，这容易导致填补效果受到无关属性的误导。鉴于此，本文提出了一种结合层次聚类树、最大信息系数的K近邻缺失数据在线填补方法。该方法的核心过程有两个，一个是聚类树的构建，另一个是K近邻的应用。而这两个过程都依赖于样本间的相似性度量，本文采用一种近似的欧式距离，即用最小外接矩形的概念来表示聚类树中某个内部节点包含的所有数据点的空间范围，在保证一定精确度的情况下确保提高数据的处理效率。该方法在流数据点的接收过程和处理过程是同步进行的，可以实时地反馈填补结果，可以不需要等在线数据流中的全部数据都存储在本地内存中之后才进行缺失值的填补。同时，在对缺失数据进行填补的过程中考虑属性间的非线性相关关系，即使用最大信息系数来衡量属性间的相对权重，充分发挥与待填补变量相关性较强的变量的作用，降低相关度较弱的变量对缺失数据填补的影响，从而提高数据填补的准确度。　　为了验证本文提出的填补方法在客户信用缺失数据填补方面的准确性，高效性和稳定性，本文通过四个信用数据集进行了对比实验。实验结果表明，本文所提出的算法在各个方面都要优于其他填补方法。

著录项

作者
邱仕琳;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科管理科学与工程
授予学位硕士
导师姓名马超群;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
KNN算法,层次聚类,最大信息系数,缺失值填补;

相似文献

中文文献
外文文献
专利

1. 基于MCMC的缺失数据填补方法在电价数据中的应用 [J] . 王曙 ,潘庭龙 . 计算机与数字工程 . 2020,第012期
2. 基于BP网络的银行信用风险评估数据的多视角填补方法 [J] . 冯玉雪 . 大众标准化 . 2021,第008期
3. 基于KNN算法及禁忌搜索算法的特征选择方法在入侵检测中的应用研究 [J] . 张昊 ,陶然 ,李志勇 . 电子学报 . 2009,第007期
4. 距离判别方法在我国上市公司信用风险评估中的应用研究 [J] . 胡胜 . 开发研究 . 2011,第003期
5. 一种基于粗糙集的风险控制模型在企业信用评估中的应用研究 [J] . 陈卫平 . 中国电子商务 . 2014,第018期
6. 基于结构方程模型的缺失数据填补方法比较 [C] . . 2016年中国生物统计学术年会 . -1
7. 基于贝叶斯网络的信用缺失数据填补模型研究 [A] . 许旭庆 . 2019

基于KNN的缺失数据在线填补方法及其在信用评估中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅