首页> 中国专利> 一种基于大数据的个人信用风险评估模型的设计方法

一种基于大数据的个人信用风险评估模型的设计方法

摘要

本发明公开了一种基于大数据的个人信用风险评估模型的设计方法,该方法包括:根据业务需要设置个人可能存在的信用风险种类,定义X在当下时刻T的基础风险为K维向量,计算个人X发生某种信用风险种类的可能性,通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;对于个人X,构造其基础风险模型:获取个人X的实际信用风险数据,定义个人X的损失函数,通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型;使得对个人信用风险评估更加准确。

著录项

  • 公开/公告号CN112734555A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 南京视察者智能科技有限公司;

    申请/专利号CN202011628913.X

  • 发明设计人 陈贵龙;周金明;

    申请日2020-12-31

  • 分类号G06Q40/02(20120101);G06F40/289(20200101);G06K9/62(20060101);

  • 代理机构

  • 代理人

  • 地址 210014 江苏省南京市秦淮区永智路6号南京白下高新技术产业园区四号楼A栋102室

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及大数据和风险评分领域研究领域,具体涉及一种基于大数据的个人信用风险评估模型的设计方法。

背景技术

个人信用风险是对个人信用的综合评估,广泛应用于信用卡办理、金融风控、个人信用评估等日常生活的方方面面,然而由于我国个人信用评估机制起步较晚、个人信用评估涉及因素及特征较多,使得个人信用风险难以准确评估。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目前的信用风险评分主要通过专家人工设计特征、权重以及阈值,严重依赖于设计人员的专业水平和经验积累,且特征一般选取如收入、负债等数值性指标,无法利用到个人更多的信息。通过人工制定特征权重、以及不同特征在不同风险类别中的权重难以准确刻画出人-特征-风险的关系。此外,目前的信用风险评分一般仅针对个人进行评估,无法准确反映不同人之间的关系。

发明内容

为了克服现有技术的不足,本公开实施例提供了一种基于大数据的个人信用风险评估模型的设计方法,随着大数据、自然语言技术的成熟,基于自然语言处理综合利用个人的更多信息和特征,并利用人与人之间的关系以及时间演变因素设计大数据模型,使得对个人信用风险评估更加准确。技术方案如下:

提供了一种基于大数据的个人信用风险评估模型的设计方法,包括如下步骤:

步骤1,计算个人基础风险

根据业务需要设置个人可能存在的信用风险种类(L

K维向量=(risk

其中risk

计算个人X发生某种信用风险种类L

通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;

对于个人X,构造其基础风险模型:

其中S是可设置的参数,P是N*S维矩阵,Q是S*K维矩阵,矩阵P,Q的元素是待训练的参数;F*P表示了个人X与其各个因子的关系,

获取个人X的实际信用风险数据,其实际的基础风险为(risk

通过采集历史的人群信用风险数据形成训练集,计算每个人的损失函数后求和作为基础风险模型的损失函数Loss;

通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型。

优选的,步骤1中个人信息的因子包括性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债等;将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(性别,年龄,学历等级,最近一年贷款金额,最近一个月贷款金额,平均月收入,家庭总负债,个人总负债,最近一个月消费总金额,最近一周消费总金额,过去一年平均每个月消费总金额,最近一周跨省市出行次数,过去一年平均每周跨省市出现次数),因子向量F的维度N即构造的因子个数。

进一步的,得到了基础风险模型后,后续对于任一新个人X′,通过信息采集、清洗得到因子、利用P、Q矩阵得到X′的基础风险,从而可以得到个人X′在时刻T各个信用风险类别发生风险时间的概率。

优选的,还包括步骤2,计算个人综合风险

采集个人X的相关人群信息,根据与个人X的亲密程度将相关人群分为A类,B类,C类:不同类别的人群对个人X的影响系数和相关度是不同的,

对于个人X以及相关人群的每个人,采集步骤1所述的f1,f2,f3,......fN因子信息,对于每个人,将采集的因子信息拼接形成一个文本文档作为个人信息文档。对信息文档进行中文分词,去除语气词、标点符号等停用词,并利用word2vec等词向量方法得到每个词的词向量,从而得到了个人信息文档的词向量矩阵,矩阵维度为分词后的词数*词向量维度;

设置参数G,对于个人X的个人信息文档,当分词后的词数>G时,则只取出现在X的个人信息文档频次最高的前G个词语,且相同频次优先选取名词、动词,从而个人信息文档的词向量矩阵大小为G*词向量维度;当分词后的次数<G时,则在词向量矩阵补齐0元素形成G*词向量维度的大小,通过处理后,使得每个人个人信息文档所形成的词向量矩阵都是相同大小;

对于所有的历史数据中的个人,得到每个人的信息文档后,统计出所有的词语作为词袋集合W=(词语1,词语2,词语3,...);对于个人X,构建全局信息向量VX=(V

对向量V进行降维,对于个人X及其全局信息向量VX,记其降维后的向量为

训练目标为降维前后d(X,Y)与

取H为个人信息文档中的词向量维度,则X降维后全局信息向量

对于给定的一串时间序列(T1,T2,...,TN),在起始点T1时刻,计算得到个人X以及其相关人群每个人的个人快照,利用步骤1计算得到个人X以及其相关人群每个人的基础风险;通过X的个人快照与相关人群中的个人Y的个人快照进行矩阵点乘运算计算得到X与Y的相似度M(X,Y,T1),相似度越高说明X与相关人群的信息文档背景信息越相似,从而说明两人的信用风险情况也高度相似;从而计算得到相关人群对个人X在T1时刻的影响为:

T1时刻相关人群风险

结合个人X自身在T1时刻的基础风险,得到T1时刻个人X的综合风险。

优选的,步骤2中对d(X,Y)与

优选的,综合风险为:α(T1)*T1时刻个人X基础风险+β(T1)*T1时刻相关人群风险,综合风险与基础风险维度相同为K维向量,每个维度元素分别代表个人X发生该类信用风险的风险事件的概率。

进一步的,在T2时刻,通过计算T2时刻相关人群风险、T2时刻个人X的基础风险,考虑上一时刻T1个人X的综合风险也会对当前产生影响,T2时刻个人X的综合风险为:α(T2)*T2时刻个人X基础风险+β(T2)*T2时刻相关人群风险+γ(T1)*T1时刻个人X综合风险。

进一步的,在TN时刻,计算TN时刻相关人群风险、TN时刻个人X的基础风险、上一时刻TN-1个人X的综合风险,得到TN时刻个人X的综合风险为:α(TN)*TN时刻个人X基础风险+β(TN)*TN时刻相关人群风险+γ(TN-1)*TN-1时刻个人X综合风险。

评估模型的参数包括了βA(X,T1)~βA(X,TN),α(T1)~α(TN),β(T1)~β(TN),γ(T1)~γ(TN-1),通过历史信用风险数据训练模型参数得到模型。

优选的,还包括步骤3,评估个人综合风险

通过步骤2计算得到个人的综合风险后,对任一个人X及时刻T,通过X在时刻T的综合风险(r

与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:与现有技术相比,本发明方法具有如下有益效果:通过采集个人的多维度信息,清洗后计算得到个人的结构化因子;通过对因子进行矩阵运算组合利用各个因子,并利用历史数据训练计算得到个人的基础风险模型;通过个人的相关人员、时间因素设计的模型计算得到个人的综合风险;通过对相关人员分类减少模型所要训练的参数;通过综合风险得到个人在各个信用风险种类发生风险事件的概率。通过综合采集个人的各个维度信息形成因子,训练得到风险模型,无需依赖人工设计权重,并能自动组合各个信息形成更有用、人工难以直接设计的特征。通过个人快照反映了人与人之间的相关度。通过考虑相关人群,可以综合利用周围人的信用风险,更早的识别出风险团体,通过对相关人群进行分类减少模型所要训练的参数。通过考虑个人过去的风险,使得对个人的评估更加准确,更能刻画出时间演变的趋势。此外,本方法通过对适用度高,可广泛应用于金融、公安等领域。

附图说明

图1为本公开实施例提供的一种综合风险模型示意图。

具体实施方式

为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

本申请的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

本公开实施例提供了一种基于大数据的个人信用风险评估模型的设计方法:

附图1为本公开实施例提供的一种综合风险模型示意图,结合该图,主要包括以下步骤:

步骤1,计算个人基础风险

根据业务需要设置个人可能存在的信用风险种类(L

K维向量=(risk

其中risk

计算个人X发生某种信用风险种类L

计算个人X发生某种信用风险种类L

优选的,个人信息的因子包括性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债等;这里通过采集出行记录从而可以提前感知出潜在的跑路风险,采集消费记录、收入、借贷记录等可以感知出其潜在的违约风险。将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(性别,年龄,学历等级,最近一年贷款金额,最近一个月贷款金额,平均月收入,家庭总负债,个人总负债,最近一个月消费总金额,最近一周消费总金额,过去一年平均每个月消费总金额,最近一周跨省市出行次数,过去一年平均每周跨省市出现次数),因子向量F的维度N即构造的因子个数。其中,性别可以用0表示男,1表示女,学历用1表示博士,2表示本科,3表示其他,其他类别数据均可做同样处理,通过对每个因子清洗处理后将个人信息转换为可计算的结构化数据;

通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;

对于个人X,构造其基础风险模型:

其中S是可设置的参数,P是N*S维矩阵,Q是S*K维矩阵,矩阵P,Q的元素是待训练的参数;F*P表示了个人X与其各个因子的关系,通过F*P矩阵运算后,个人X的因子被构造为新的特征(F*P1,F*P2,...,F*PS),P1,P2,...PS分别为矩阵的第1,2,...,S列,事实上F*Pi就是个人X因子的线性组合,最后通过乘以矩阵Q将新的特征进一步计算得到1*K维的向量,表示各个信用风险类别的可能性,通过softmax运算表示为发生K个信用风险类别各风险的概率;

获取个人X的实际信用风险数据,其实际的基础风险为(risk

通过采集历史的人群信用风险数据形成训练集,计算每个人的损失函数后求和作为基础风险模型的损失函数Loss;

通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型;

进一步的,后续对于任一新个人X′,通过信息采集、清洗得到因子、利用P、Q矩阵得到X′的基础风险,从而可以得到个人X′在时刻T各个信用风险类别发生风险时间的概率。

此模型自动训练得到参数,使得无需人工设计不同因子的权重,且通过因子F与矩阵P相乘,本质上是对因子进行了各种线性组合,即自动设计出了因子组合形成人工难以设计的新特征。

通过步骤1计算个人在时刻T的基础风险,但实际上个人的信用风险涉及因素较大,当下的各方面个人信息难以完全准确评估其信用风险。例如,家庭其他成员的信用风险情况、个人过去的信用风险情况都会对其信用风险产生影响。

优选的,还包括步骤2,计算个人综合风险

采集个人X的相关人群信息,根据与个人X的亲密程度将相关人群分为A类,B类,C类:A类为家人、亲戚、好朋友等,B类为工作上有所交流的人群、C类为普通仅存在相识关系的人群。不同类别的人群对个人X的影响系数和相关度是不同的,事实上每个相关人对X的影响系数都不同,但是若对每个人赋予不同的系数,则相关人数越多,模型参数就会越多,容易使得模型过于复杂,所以通过将相关人群分为三类,每个类别内的人对个人X的影响系数为相同参数,则可以大大减少参数同时也能反映出不同亲密关系的人对个人X的信用风险影响程度。

对于个人X以及相关人群的每个人,采集步骤1所述的f1,f2,f3,......fN因子信息,(比如采集个人X的性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债信息);对于每个人,将采集的因子信息拼接形成一个文本文档作为个人信息文档。对信息文档进行中文分词,去除语气词、标点符号等停用词,并利用word2vec等词向量方法得到每个词的词向量,从而得到了个人信息文档的词向量矩阵,矩阵维度为分词后的词数*词向量维度;

设置参数G,对于个人X的个人信息文档,当分词后的词数>G时,则只取出现在X的个人信息文档频次最高的前G个词语,且相同频次优先选取名词、动词,从而个人信息文档的词向量矩阵大小为G*词向量维度;当分词后的次数<G时,则在词向量矩阵补齐0元素形成G*词向量维度的大小,通过处理后,使得每个人个人信息文档所形成的词向量矩阵都是相同大小;事实上对于不同人以及同一人的不同时刻,个人信息文档所形成的矩阵也是不相同的。

个人信息文档所形成的矩阵反映了自身的重要信息,还需要进一步地刻画个人与整体群体信息的关系。具体的,对于所有的历史数据中的个人,得到每个人的信息文档后,统计出所有的词语作为词袋集合W=(词语1,词语2,词语3,...);通常来说,随着训练集的增加,词袋集合也会越来越大,词袋集合的词语越来越多。对于个人X,构建全局信息向量VX=(V

对向量V进行降维,对于个人X及其全局信息向量VX,记其降维后的向量为

在降维后达到的效果是原有的人与人之间的关系能够得到保留,即降维前距离接近的向量在降维后仍然距离接近,而降维前距离较远的向量在降维后仍然距离较远,所以是以d(X,Y)与

优选的,对d(X,Y)与

训练目标为降维前后d(X,Y)与

取H为个人信息文档中的词向量维度,则X降维后全局信息向量

对于给定的一串时间序列(T1,T2,...,TN),在起始点T1时刻,计算得到个人X以及其相关人群每个人的个人快照,利用步骤1计算得到个人X以及其相关人群每个人的基础风险;通过X的个人快照与相关人群中的个人Y的个人快照进行矩阵点乘运算计算得到X与Y的相似度M(X,Y,T1),相似度越高说明X与相关人群的信息文档背景信息越相似,从而说明两人的信用风险情况也高度相似;从而计算得到相关人群对个人X在T1时刻的影响为:

T1时刻相关人群风险

结合个人X自身在T1时刻的基础风险,得到T1时刻个人X的综合风险。

优选的,综合风险为:α(T1)*T1时刻个人X基础风险+β(T1)*T1时刻相关人群风险,综合风险与基础风险维度相同为K维向量,每个维度元素分别代表个人X发生该类信用风险的风险事件的概率。

进一步的,在T2时刻,通过计算T2时刻相关人群风险、T2时刻个人X的基础风险,考虑上一时刻T1个人X的综合风险也会对当前产生影响,T2时刻个人X的综合风险为:α(T2)*T2时刻个人X基础风险+β(T2)*T2时刻相关人群风险+γ(T1)*T1时刻个人X综合风险。

进一步的,在TN时刻,计算TN时刻相关人群风险、TN时刻个人X的基础风险、上一时刻TN-1个人X的综合风险,得到TN时刻个人X的综合风险为:α(TN)*TN时刻个人X基础风险+β(TN)*TN时刻相关人群风险+γ(TN-1)*TN-1时刻个人X综合风险。

优选的,该评估模型的参数包括了βA(X,T1)~βA(X,TN),α(T1)~α(TN),β(T1)~β(TN),γ(T1)~γ(TN-1),通过历史信用风险数据训练模型参数得到模型。

优选的,还包括步骤3,评估个人综合风险

通过步骤2计算得到个人的综合风险后,对任一个人X及时刻T,通过X在时刻T的综合风险(r

以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号