首页> 中国专利> 基于不平衡数据处理的信贷风险评估方法与系统

基于不平衡数据处理的信贷风险评估方法与系统

摘要

本发明公开了一种基于不平衡数据处理的信贷风险评估方法与系统,方法包括:在接收到用户通过客户端发起的申请信贷请求时,获取用户填写的客户信息;根据客户信息,获取用户的信用数据中的特征变量;将特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据信贷风险评估模型输出的预测结果,判断是否通过用户的信贷请求,并将判断结果返回至客户端。通过本发明的技术方案,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。

著录项

  • 公开/公告号CN112634022A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011565846.1

  • 申请日2020-12-25

  • 分类号G06Q40/02(20120101);G06N20/00(20190101);

  • 代理机构11335 北京汇信合知识产权代理有限公司;

  • 代理人林聪源

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及风险评估技术领域,尤其涉及一种基于不平衡数据处理的信贷风险评估方法和一种基于不平衡数据处理的信贷风险评估系统。

背景技术

信贷风险评估方法,是根据客户的信用属性等数据进行特征处理,然后采用特定的方法对客户进行信用评估,据此决定是否给予授信,从而识别和减少在金融交易中存在的风险。

在传统的信贷风险评估方法中,特征处理部分往往依靠专家的知识和经验为准,采用传统客户基本信息,结合一般性的统计方法进行较为主观的判断,对信贷风险评估能力较低,不能有效识别违约客户。

现行的基于机器学习的信贷风险评估方法:根据客户的信用属性等数据,利用数据预处理方法对样本数据进行数据清洗,将样本数据转换成可以建模的数据。然后,根据特征重要性进行特征选取,利用机器学习算法构建信贷风险评估分类器,对客户进行信用评估。传统分类问题基于两种假设:(1)各类别间数目大致均等;(2)各种类别错分的代价相同。但不平衡数据中的少数样本发生的概率低于多数类样本,且代价明显高于多数类样本,若采用传统分类器的以提高总体分类精度为目标,容易造成少数类的分类错误。

其中,不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,这种情况下的数据称为不平衡数据,在信贷数据集中,不平衡数据集往往表示违约数据集样本个数远远小于未违约数据集样本个数,而这种现象会导致机器学习分类效果下降,从而不能有效识别出违约客户。

现行的基于机器学习的信贷风险评估方法忽略了数据集类别的不平衡特性,清洗后的不平衡类别数据集输入到构建好的机器学习分类器中进行训练,造成少数类样本即违约客户的识别程度低的结果。

发明内容

针对上述问题,本发明提供了一种基于不平衡数据处理的信贷风险评估方法与系统,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。

为实现上述目的,本发明提供了一种基于不平衡数据处理的信贷风险评估方法,包括:在接收到用户通过客户端发起的申请信贷请求时,获取所述用户填写的客户信息;根据所述客户信息,获取所述用户的信用数据中的特征变量;将所述特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据所述信贷风险评估模型输出的预测结果,判断是否通过所述用户的信贷请求,并将判断结果返回至所述客户端。

在上述技术方案中,优选地,所述基于不平衡数据处理的信贷风险评估模型的训练方法包括:获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗;利用随机森林方法对数据清洗后的所述信用数据样本集进行特征筛选,获得特征数据集;利用不平衡数据处理方法对所述特征数据集进行类别平衡,得到训练数据集;基于逻辑回归算法和xgboost机器学习算法构建集成分类器;将所述训练数据集输入所述集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的所述信贷风险评估模型。

在上述技术方案中,优选地,所述利用不平衡数据处理方法对所述特征数据集进行类别平衡的具体过程包括:针对所述特征数据集计算多数类样本中心和少数类样本中心;为靠近所述多数类样本中心的父样本增加过采样权重;选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本;根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。

在上述技术方案中,优选地,所述计算多数类样本中心和少数类样本中心的具体过程包括:对所述特征数据集中的数据进行归一化处理;将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心。

在上述技术方案中,优选地,所述为靠近所述多数类样本中心的父样本增加过采样权重具体包括:选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量。

在上述技术方案中,优选地,所述选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本的具体过程包括:利用KNN算法获取所述父样本的少数类K近邻集合;遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本。

在上述技术方案中,优选地,所述信用数据集包括特征变量和目标变量,所述特征变量为信贷用户与信用相关的数据,所述目标变量为表征所述信贷用户是否违约的值。

本发明还提出一种基于不平衡数据处理的信贷风险评估系统,应用上述技术方案中任一项提出的基于不平衡数据处理的信贷风险评估方法,包括:客户端和服务器端,所述客户端包括信贷申请模块和结果输出模块,所述服务器端包括信息获取模块、信贷风险评估模型和结果预测模块;所述信贷申请模块用于接收用户的申请信贷请求和获取用户填写的客户信息,并将所述客户信息发送至所述服务器端;所述信息获取模块根据所述客户信息获取所述用户的信用数据中的特征变量,并将所述特征变量输入至所述信贷风险评估模型;所述信贷风险评估模型根据所述特征变量输出所述用户的信贷风险概率;所述结果预测模块根据所述信贷风险概率,判断是否通过所述用户的信贷请求,并将判断结果发送至所述结果输出模块。

在上述技术方案中,优选地,所述信贷风险评估模型的构建系统包括:数据清洗模块、特征筛选模块、不平衡分类处理模块和模型构建模块;所述数据清洗模块用于获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗,处理缺失值;所述特征筛选模块用于选取数据清洗后的所述信用数据样本集中的重要特征作为入模特征,得到特征数据集;所述不平衡分类处理模块对所述特征数据集利用不平衡数据处理方法进行类别平衡,得到训练数据集;所述模型构建模块基于逻辑回归算法和xgboost机器学习算法构造集成分类器,并将所述训练数据集输入所述集成分类器进行训练学习,得到所述信贷风险评估模型。

在上述技术方案中,优选地,所述不平衡分类处理模块具体用于:

对所述特征数据集中的数据进行归一化处理;将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心;

选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量;

利用KNN算法获取所述父样本的少数类K近邻集合;遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本;

根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。

与现有技术相比,本发明的有益效果为:通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。

附图说明

图1为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估方法的流程示意图;

图2为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估模型的训练方法流程图;

图3为本发明一种实施例公开的不平衡数据处理方法的流程示意图;

图4为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估模型的结构示意图;

图5为本发明一种实施例公开的信贷风险评估模型的训练系统的结构示意图。

图中,各组件与附图标记之间的对应关系为:

1、客户端;11、信贷申请模块;12、结果输出模块;2、服务器端;21、信息获取模块;22、信贷风险评估模型;23、结果预测模块;31、数据清洗模块;32、特征筛选模块;33、不平衡分类处理模块;34、模型构建模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述:

如图1所示,根据本发明提供的一种基于不平衡数据处理的信贷风险评估方法,包括:在接收到用户通过客户端发起的申请信贷请求时,获取用户填写的客户信息;根据客户信息,获取用户的信用数据中的特征变量;将特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据信贷风险评估模型输出的预测结果,判断是否通过用户的信贷请求,并将判断结果返回至客户端。

在该实施例中,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。

具体地,该方法基于数据挖掘技术和机器学习分类算法构建信贷风险评估模型,客户端向信贷风险评估模型发送客户信用数据,信贷风险评估模型返回给客户端该信贷客户贷款的违约概率。

如图2所示,在上述实施例中,优选地,基于不平衡数据处理的信贷风险评估模型的训练方法包括:获取客户信用数据样本集,并对信用数据样本集进行数据清洗;利用随机森林方法对数据清洗后的信用数据样本集进行特征筛选,获得特征数据集;利用不平衡数据处理方法对特征数据集进行类别平衡,得到训练数据集;基于逻辑回归算法和xgboost机器学习算法构建集成分类器;将训练数据集输入集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的信贷风险评估模型。

具体地,针对获取到的信贷数据集进行数据清洗,防止不干净的数据导致分析过程中的错误以及结果的错误。然后进行特征筛选过程,使用随机森林方法筛选出对模型预测结果具有显著性影响的特征。然后进行不平衡分类处理过程,采用基于样本空间中心的不平衡分类处理方法进行类别均衡,从而获取均衡后的数据集。构建基于逻辑回归和xgboost机器学习算法的集成分类器,将数据集作为训练数据输入到集成分类器进行学习,最后获得训练好的信贷风险评估模型。其中,将不平衡分类算法加入到信贷风险评估模型的数据预处理阶段提高了机器学习模型的准确度,在数据预处理阶段将数据类别进行均衡,使模型对于不同类别的数据具有相似的分类效果,从而避免出现对少数类样本预测精度较差的情况。此外,不平衡数据处理方法即基于样本空间中心的带权过采样算法,将少数类样本中心和多数类样本中心加入Smote不平衡分类算法,用于解决影响着Smote方法精度的少数类样本空间可能存在的类别重叠和小析取项等分布。

如图3所示,在上述实施例中,优选地,利用不平衡数据处理方法对特征数据集进行类别平衡的具体过程包括:基于Smote算法的改进,针对特征数据集计算多数类样本中心和少数类样本中心;为靠近多数类样本中心的父样本(Smote算法中用于合成新样本的少数类样本)增加过采样权重;选取靠近少数类样本中心的近邻样本(Smote算法中父样本的k近邻样本)作为辅助样本(Smote算法中用于与父样本合成新样本的少数类样本);根据每个父样本的过采样数量,在父样本和辅助样本之间插值生成相应数量的新样本,并将新样本与特征数据集进行融合,生成均衡后的数据集并输出。

具体地,首先,由于算法过程在避免样本减少的情况下生成新样本,避免了因删除样本导致的信息丢失。其次,由于边界样本识别难度大,因此,为靠近多数类样本中心的父样本赋予更大的过采样权重,增加边界少数类样本个数,可以增加对少数类样本的识别程度。然后,由于考虑少数类集群中的边界样本和小析取项样本作为辅助样本生成的新样本容易落在多数类样本区域中,并且少数类样本中边界样本和小析取项样本距离少数类样本中心距离相对其他少数类样本远,因此选取靠近少数类样本中心的近邻样本作为辅助样本,从而避免了选取边界样本和小析取项样本作为辅助样本的可能,避免合成噪声样本,提升了合成样本的质量。

在上述实施例中,优选地,计算多数类样本中心和少数类样本中心的具体过程包括:对特征数据集中的数据进行归一化处理;将归一化处理后的特征数据集划分为多数类数据集和少数类数据集;计算多数类数据集的样本数量、少数类数据集的样本数量以及待生成少数类样本的个数;根据多数类数据集和样本数量计算得到多数类样本中心,根据少数类数据集和样本数量计算得到少数类样本中心。

在上述实施例中,优选地,为靠近多数类样本中心的父样本增加过采样权重具体包括:选取少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历父样本集合,并计算得到每个父样本到多数类样本中心的欧氏距离;根据欧氏距离计算得到每个父样本的过采样权重,并添加至权重集合中;遍历权重集合,根据过采样权重与待生成少数类样本的个数的乘积计算每个父样本的过采样数量。

在上述实施例中,优选地,选取靠近少数类样本中心的近邻样本作为辅助样本的具体过程包括:利用KNN算法获取父样本的少数类K近邻集合;遍历K近邻集合,计算K近邻集合中每个样本达到少数类样本中心的欧氏距离,并添加至距离集合中;对距离集合进行由小到大排序,选取距离集合中最小的欧氏距离对应的样本作为辅助样本。

在上述实施例中,优选地,信贷数据集是信用样本的集合,以表格形式存在。每一行都对应于某一信贷客户的信贷样本,每一列代表一个特定变量。信用数据集包括特征变量和目标变量两种,特征变量为信贷用户与信用相关的各种数据,目标变量只有一个,即为表征信贷样本用户是否违约的值。根据目标变量样本是否违约可以将样本分为两种,目标变量的值为违约则样本是违约样本,目标变量的值为没有违约则样本是未违约样本。

如图4所示,本发明还提出一种基于不平衡数据处理的信贷风险评估系统,应用上述实施例中任一项提出的基于不平衡数据处理的信贷风险评估方法,包括:客户端1和服务器端2,客户端1包括信贷申请模块11和结果输出模块12,服务器端2包括信息获取模块21、信贷风险评估模型22和结果预测模块23;信贷申请模块11用于接收用户的申请信贷请求和获取用户填写的客户信息,并将客户信息发送至服务器端2;信息获取模块21根据客户信息获取用户的信用数据中的特征变量,并将特征变量输入至信贷风险评估模型22;信贷风险评估模型22根据特征变量输出用户的信贷风险概率;结果预测模块23根据信贷风险概率,判断是否通过用户的信贷请求,并将判断结果发送至结果输出模块12。

在该实施例中,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型22,基于该信贷风险评估模型22对用户的信用数据进行预测,提升了信贷风险评估模型22对违约客户的识别准确度。具体地,该系统基于数据挖掘技术和机器学习分类算法构建信贷风险评估模型22,客户端1向信贷风险评估模型22发送客户信用数据,信贷风险评估模型22返回给客户端1该信贷客户贷款的违约概率。

如图5所示,在上述实施例中,优选地,信贷风险评估模型22的构建系统包括:数据清洗模块31、特征筛选模块32、不平衡分类处理模块33和模型构建模块34;数据清洗模块31用于获取客户信用数据样本集,并对信用数据样本集进行数据清洗,处理缺失值;特征筛选模块32用于选取数据清洗后的信用数据样本集中的重要特征作为入模特征,得到特征数据集;不平衡分类处理模块33对特征数据集利用不平衡数据处理方法进行类别平衡,得到训练数据集;模型构建模块34基于逻辑回归算法和xgboost机器学习算法构造集成分类器,并将训练数据集输入集成分类器进行训练学习,得到信贷风险评估模型22。

具体地,针对获取到的信贷数据集进行数据清洗,防止不干净的数据导致分析过程中的错误以及结果的错误。然后进行特征筛选过程,使用随机森林方法筛选出对模型预测结果具有显著性影响的特征。然后进行不平衡分类处理过程,采用基于样本空间中心的不平衡分类处理方法进行类别均衡,从而获取均衡后的数据集。构建基于逻辑回归和xgboost机器学习算法的集成分类器,将数据集作为训练数据输入到集成分类器进行学习,最后获得训练好的信贷风险评估模型22。其中,将不平衡分类算法加入到信贷风险评估模型22的数据预处理阶段提高了机器学习模型的准确度,在数据预处理阶段将数据类别进行均衡,使模型对于不同类别的数据具有相似的分类效果,从而避免出现对少数类样本预测精度较差的情况。此外,不平衡数据处理方法即基于样本空间中心的带权过采样算法,将少数类样本中心和多数类样本中心加入Smote不平衡分类算法,用于解决影响着Smote方法精度的少数类样本空间可能存在的类别重叠和小析取项等分布。

在上述实施例中,优选地,不平衡分类处理模块33具体用于:

对特征数据集中的数据进行归一化处理;将归一化处理后的特征数据集划分为多数类数据集和少数类数据集;计算多数类数据集的样本数量、少数类数据集的样本数量以及待生成少数类样本的个数;根据多数类数据集和样本数量计算得到多数类样本中心,根据少数类数据集和样本数量计算得到少数类样本中心;

选取少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历父样本集合,并计算得到每个父样本到多数类样本中心的欧氏距离;根据欧氏距离计算得到每个父样本的过采样权重,并添加至权重集合中;遍历权重集合,根据过采样权重与待生成少数类样本的个数的乘积计算每个父样本的过采样数量;

利用KNN算法获取父样本的少数类K近邻集合;遍历K近邻集合,计算K近邻集合中每个样本达到少数类样本中心的欧氏距离,并添加至距离集合中;对距离集合进行由小到大排序,选取距离集合中最小的欧氏距离对应的样本作为辅助样本;

根据每个父样本的过采样数量,在父样本和辅助样本之间插值生成相应数量的新样本,并将新样本与特征数据集进行融合,生成均衡后的数据集并输出。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号