首页> 中国专利> 一种资金交易异常的存款账户识别方法及装置

一种资金交易异常的存款账户识别方法及装置

摘要

本发明属于机器学习技术领域,本发明提供了一种资金交易异常的存款账户识别方法及装置,所述资金交易异常的存款账户识别方法包括:获取多个存款账户的资金交易数据;根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。本发明采用基于LightGBM的机器学习方法,通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

著录项

  • 公开/公告号CN113807857A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 中国工商银行股份有限公司;

    申请/专利号CN202111112453.X

  • 发明设计人 张树诚;章涛;胡慧丽;徐琳玲;

    申请日2021-09-23

  • 分类号G06Q20/40(20120101);G06Q20/38(20120101);G06N5/00(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人刘熔;赵平

  • 地址 100140 北京市西城区复兴门内大街55号

  • 入库时间 2023-06-19 13:45:04

说明书

技术领域

本申请属于机器学习技术领域,具体涉及一种资金交易异常的存款账户识别方法及装置。

背景技术

随着金融领域中的企业账户管理体系改革,推动商业银行全面、独立承担企业银行账户合法合规主体责任,并完善新时期的账户风险监控体系就变得极为迫切。而当前对公账户资金交易异常的监控,均是通过对相关涉案账户在资金交易方面的特征分析,制定业务规则监控。该类模型也能较为准确的识别资金交易异常、涉嫌非法金融活动的高风险账户,但这种监控方法不具有前瞻性,无法在账户开立后,短时间内预测账户是否具有风险。因此需要提出一种基于机器学习的方案,尽快、尽早地对开户特征异常以及开户后有可疑资金交易的账户进行准确预警。

对于机器学习算法的选择,提升树是利用加模型与前向分布算法实现学习的优化过程,它有一些高效实现,如XGBoost,pGBRT,GBDT(Gradient Boosting Decision Tree)等。其中GBDT采用负梯度作为划分的指标(信息增益),XGBoost则利用到二阶导数。他们共同的不足是,计算信息增益需要扫描所有样本,从而找到最优划分点。可以理解的是,这是非常的耗时的。特别是在面对大量数据或者特征维度很高时,它们的效率和扩展性很难使人满意。

发明内容

本发明可用于机器学习在金融方面应用的技术领域,也可用于除金融领域之外的任意领域,本发明公开的资金交易异常的存款账户识别方法及装置的应用领域不做限定。本发明通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

为解决上述技术问题,本发明提供以下技术方案:

第一方面,本发明提供一种资金交易异常的存款账户识别方法,包括:

获取多个存款账户的资金交易数据;

根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

一实施例中,生成所述lightgbm预测模型包括以下步骤:

利用lightgbm算法,根据所述资金交易数据生成初始模型;

生长所述初始模型中具有最大信息增益的叶节点;

对生长后的叶节点做直方图差优化操作,以生成过渡模型;

根据梯度实例对所述过渡模型进行优化;

利用EFB方法减少优化后的过渡模型中的特征维度,以生成所述lightgbm预测模型。

一实施例中,在所述根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户之前,还包括:

根据所述多个存款账户性质,对所述资金交易数据进行标签;

剔除标签之后的资金交易数据中的异常数据;

对剔除异常数据后的资金交易数据进行标准化操作。

一实施例中,资金交易异常的存款账户识别方法,还包括:

提取进行标准化之后的资金交易数据的属性特征以及交易特征;

根据覆盖率以及IV值筛选所述属性特征以及所述交易特征。

第二方面,本发明提供一种资金交易异常的存款账户识别装置,该装置包括:

资金交易数据获取模块,用于获取多个存款账户的资金交易数据;

异常存款账户识别模块,用于根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

一实施例中,资金交易异常的存款账户识别装置还包括:预测模型生成模块,用于生成所述lightgbm预测模型,所述预测模型生成模块包括:

初始模型生成单元,用于利用lightgbm算法,根据所述资金交易数据生成初始模型;

叶节点生长单元,用于生长所述初始模型中具有最大信息增益的叶节点;

过渡模型生成单元,用于对生长后的叶节点做直方图差优化操作,以生成过渡模型;

梯度实例优化单元,用于根据梯度实例对所述过渡模型进行优化;

预测模型生成单元,用于利用EFB方法减少优化后的过渡模型中的特征维度,以生成所述lightgbm预测模型。

一实施例中,资金交易异常的存款账户识别装置还包括:

交易数据标签模块,用于根据所述多个存款账户性质,对所述资金交易数据进行标签;

异常数据剔除模块,用于剔除标签之后的资金交易数据中的异常数据;

交易数据标准化模块,用于对剔除异常数据后的资金交易数据进行标准化操作。

一实施例中,资金交易异常的存款账户识别装置还包括:

特征数据提取模块,用于提取进行标准化之后的资金交易数据的属性特征以及交易特征;

特征数据筛选模块,用于根据覆盖率以及IV值筛选所述属性特征以及所述交易特征。

第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现资金交易异常的存款账户识别方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现资金交易异常的存款账户识别方法的步骤。

从上述描述可知,本发明实施例提供一种资金交易异常的存款账户识别方法及装置,首先获取多个存款账户的资金交易数据;根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。本发明采用基于LightGBM的机器学习方法,通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的实施例中资金交易异常的存款账户识别方法的流程示意图一;

图2为本发明的实施例中资金交易异常的存款账户识别方法的流程示意图二;

图3为本发明的实施例中步骤300的流程示意图;

图4为本发明的实施例中资金交易异常的存款账户识别方法的流程示意图三;

图5为本发明的实施例中资金交易异常的存款账户识别方法的流程示意图四;

图6为本发明的具体实施方式中资金交易异常的存款账户识别系统的方块图;

图7为本发明的具体实施方式中数据处理模块的方块图;

图8为本发明的具体实施方式中资金交易异常的存款账户识别方法的流程示意图;

图9为本发明的具体实施方式中资金交易异常的存款账户识别方法中步骤S1的流程示意图;

图10为本发明的具体实施方式中资金交易异常的存款账户识别方法中步骤S2的流程示意图;

图11为本发明的实施例中资金交易异常的存款账户识别装置的方块图一;

图12为本发明的实施例中资金交易异常的存款账户识别装置的方块图二;

图13为本发明的实施例中预测模型生成模块30的方块;

图14为本发明的实施例中资金交易异常的存款账户识别装置的方块图三;

图15为本发明的实施例中资金交易异常的存款账户识别装置的方块图四;

图16为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的实施例提供一种资金交易异常的存款账户识别方法的具体实施方式,参见图1,该方法具体包括如下内容:

步骤100:获取多个存款账户的资金交易数据。

优选地,存款账户为基本存款账户,资金交易数据为短期资金交易数据。

步骤200:根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

可以理解的是,GBDT(Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

lightGBM在传统的GBDT算法上进行了如下优化:基于Histogram的决策树算法。

单边梯度采样Gradient-based One-Side Sampling(GOSS):使用GOSS可以减少大量只具有小梯度的数据实例,这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了,相比XGBoost遍历所有特征值节省了不少时间和空间上的开销。

互斥特征捆绑Exclusive Feature Bundling(EFB):使用EFB可以将许多互斥的特征绑定为一个特征,这样达到了降维的目的。

带深度限制的Leaf-wise的叶子生长策略:大多数GBDT工具使用低效的按层生长(level-wise)的决策树生长策略,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销。实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长(leaf-wise)算法。直接支持类别特征(Categorical Feature);支持高效并行以及Cache命中率优化。

从上述描述可知,本发明实施例提供一种资金交易异常的存款账户识别方法,首先获取多个存款账户的资金交易数据;根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。本发明采用基于LightGBM的机器学习方法,通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

一实施例中,参见图2,资金交易异常的存款账户识别方法还包括:

步骤300:生成所述lightgbm预测模型;进一步地,参见图3,步骤300进一步包括:

步骤301:利用lightgbm算法,根据所述资金交易数据生成初始模型;

步骤302:生长所述初始模型中具有最大信息增益的叶节点;

LightGBM通过leaf-wise(best-first)策略来生长树。它将选取具有最大信息增益最大的叶节点来生长。当生长相同的叶子时,leaf-wise算法可以减少更多的损失。

步骤303:对生长后的叶节点做直方图差优化操作,以生成过渡模型;

根据观察到一个叶子节点上的直方图,可以由它的父亲节点直方图减去它兄弟节点的直方图来得到。根据这一点构造出来数据量比较小的叶子节点上的直方图,然后用直方图做差来得到数据量比较大的叶子节点上的直方图,从而达到加速的效果。

步骤304:根据梯度实例对所述过渡模型进行优化;

具体地,利用GOSS算法对过渡模型进行优化,GOSS算法(基于梯度的one-side采样,Gradient-based One-Side Sampling)是通过区分不同梯度的实例,保留较大梯度实例同时对较小梯度随机采样的方式减少计算量,从而达到提升效率的目的。

步骤305:利用EFB方法减少优化后的过渡模型中的特征维度,以生成所述lightgbm预测模型。

具体地,EFB方法(Exclusive Feature Bundling)是通过特征捆绑的方式减少特征维度的方式,来提升计算效率。通常被捆绑的特征都是互斥的(一个特征值为零一个特征值不为零),这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥(部分情况下两个特征都是非零值),可以用一个指标对特征不互斥程度进行衡量,称之为冲突比率,当这个值较小时,我们可以选择把不完全互斥的两个特征捆绑,而不影响最后的精度。

一实施例中,参见图4,在步骤200之前,资金交易异常的存款账户识别方法还包括:

步骤400:根据所述多个存款账户性质,对所述资金交易数据进行标签;

步骤400实质上是对训练集打标签,具体地,对训练集中的账户,根据账户性质,对数据打上黑白标签,各标签含义为黑样本:1,白样本:0,开户特征无法确认为-1。其中训练集为实际已监控过,并确定账户性质的账户集。

步骤500:剔除标签之后的资金交易数据中的异常数据;

根据对不同资金交易的监控要求,对数据制定一定的清洗规则,保留所需数据。

步骤600:对剔除异常数据后的资金交易数据进行标准化操作。

因为各地上报的建模数据样本格式不一致,需要对样本数据统一处理成标准化的格式。如相关日期格式统一,核算账号位数统一等。

一实施例中,参见图5,资金交易异常的存款账户识别方法还包括:

步骤700:提取进行标准化之后的资金交易数据的属性特征以及交易特征;

具体地,首先通过专家规则分析总结,对以下六各方面提取了共27个属性特征指标:1.共享开户信息,例如对账地址,电话号码。2.开户信息存在不一致,例如注册地与开户地不同。3.账户开户网点异常,例如开户过于频繁。4.账户对账状态。5.地址偏远。6.法人年龄。

接着,通过专家规则分析总结,对以下十个维度,按照开户后15天,30天,60天,90天,120天,150天和180天七个时间窗口,提取了共608个交易特征指标:1.小额测试。2.全天候交易。3.夜间交易。4.分散、集中转入、转出。5.高频交易。6.频繁公转私。7.快捷支付相关交易。8.交易备注异常。9.金额为整数倍数。10.账户余额与交易金额。

步骤800:根据覆盖率以及IV值筛选所述属性特征以及所述交易特征。

对根据专家规则提取的所有属性特征以及交易特征进行特征覆盖率及IV值计算,保留特征的覆盖率大于5%,IV值大于0.005的特征。

在一种具体实施方式中,本发明提供资金交易异常的存款账户识别方法中的具体实施方式。

首先,参见图6,本发明具体实施方式还提供一种资金交易异常的存款账户识别系统,该系统包括:数据处理模块以及机器学习算法模块,具体地:

参见图7,数据处理模块进一步包括:

资金交易账户数据库预处理单元,进行模型数据清洗,格式标准化,特征提取,以实现监控账户有效、种类统一、多种类交易形式的数据完成特征提取。如针对数据清洗,需要进行:1、剔除账户属性为非基本账户数据,账户状态为销户数据,币种为非人民币账户数据。2、对账号统一到17位格式,开户时间统一到YYYYMMDD8位格式。3、对数据进行六个方面的属性特征及十个方面的交易特征进行统计提取。

资金交易账户数据库预处理单元,该单元对进行预处理后的交易关系数据,共后续梯度提升决策树模型(GBDT)进一步处理。

机器学习算法模块基于lightgbm的机器学习算法,该模块使用lightgbm算法进行模型训练及预测,其主要特点是支持分布式计算,单颗决策树以节点生长,相比于以层级生长的决策树,在损失极小精度的情况下,获得性能的巨大提升。其基本原理是:选择一种较弱的学习器,例如单颗决策树,对真实值进行初步拟合,再训练一个新的学习器,对损失函数在当前值的负梯度方向进行拟合,不断重复以上过程直到触发终止条件,例如设定迭代次数或者early stopping,最终叠加每次迭代中训练得到的学习器,获得一个强分类器。通过他预测的结果会为每个账户评分,最终账户风险程度会根据评分排序,评分越接近1,表示该账户风险越高。

本发明所要解决的问题是:如何在减少特征量和数据量而且不影响精确度的情况下,有部分工作根据数据权重采样来加速booisting的过程,但由于GBDT没有样本权重不能应用。为了解决这种在大样本高纬度数据的环境下耗时的问题,这里采用LightGBM算法,并且结合目前已存在的较为准备的专家规则,以及有着较好效率及精度的机器学习算法,通过评分得出更精准的得到风险账户。

参见图8,基于上述的资金交易异常的存款账户识别系统,本发明具体实施方式提供的资金交易异常的存款账户识别方法,包括:

步骤S1:对所需挖掘的数据进行相关预处理操作。

包含数据格式标准化,数据清洗,特征提取;参见图9,步骤S1进一步包括:

步骤S101,训练集打标签。对训练集中的账户,根据账户性质,对数据打上黑白标签,各标签含义为黑样本:1,白样本:0,开户特征无法确认为-1。其中训练集为实际已监控过,并确定账户性质的账户集。

步骤S102,剔除特殊数据。根据对不同资金交易的监控要求,对数据制定一定的清洗规则,保留所需数据。

步骤S103,数据标准化。因为各地上报的建模数据样本格式不一致,需要对样本数据统一处理成标准化的格式。如相关日期格式统一,核算账号位数统一等。

步骤S104,属性特征提取。通过专家规则分析总结,对以下六各方面提取了共27个属性特征指标:1.共享开户信息,例如对账地址,电话号码。2.开户信息存在不一致,例如注册地与开户地不同。3.账户开户网点异常,例如开户过于频繁。4.账户对账状态。5.地址偏远。6.法人年龄。

步骤S105,交易特征提取。通过专家规则分析总结,对以下十个维度,按照开户后15天,30天,60天,90天,120天,150天和180天七个时间窗口,提取了共608个交易特征指标:1.小额测试。2.全天候交易。3.夜间交易。4.分散、集中转入、转出。5.高频交易。6.频繁公转私。7.快捷支付相关交易。8.交易备注异常。9.金额为整数倍数。10.账户余额与交易金额。

步骤S106,特征筛选。对根据专家规则提取的所有特征进行特征覆盖率及IV值计算,保留特征的覆盖率大于5%,IV值大于0.005的特征。

步骤S2:数据预处理后作为输入,通过lightgbm的梯度提升决策树机器学习模型训练预测账号风险程度;

具体地,参见图10,步骤S2进一步包括:

步骤S201,树的生长策略优化。LightGBM通过leaf-wise(best-first)策略来生长树。它将选取具有最大信息增益最大的叶节点来生长。当生长相同的叶子时,leaf-wise算法可以减少更多的损失。

步骤S202,直方图做差优化。根据观察到一个叶子节点上的直方图,可以由它的父亲节点直方图减去它兄弟节点的直方图来得到。根据这一点构造出来数据量比较小的叶子节点上的直方图,然后用直方图做差来得到数据量比较大的叶子节点上的直方图,从而达到加速的效果。

步骤S203,基于梯度的单边采样(Gradient-based One-Side Sampling)。GOSS是通过区分不同梯度的实例,保留较大梯度实例同时对较小梯度随机采样的方式减少计算量,从而达到提升效率的目的。

GOSS的计算步骤如下:

(1)根据样本点的梯度的绝对值对它们进行降序排序;

(2)对排序后的结果选取前a×100%的样本生成一个大梯度样本点的子集;

(3)对剩下的样本集合(1-a)×100%的样本,随机的选取b×(1-a)×100%个样本点,生成一个小梯度样本点的集合;

(4)将大梯度样本和采样的小梯度样本合并;

(5)将小梯度样本乘上一个权重系数

(6)使用上述的采样的样本,学习一个新的弱学习器;

(7)不断地重复(1)~(6)步骤直到达到规定的迭代次数或者收敛为止。

其中,大梯度数据的采样率a,小梯度数据的采样率b。

步骤S204,特征捆绑(Exclusive Feature Bundling)。EFB是通过特征捆绑的方式减少特征维度的方式,来提升计算效率。通常被捆绑的特征都是互斥的(一个特征值为零一个特征值不为零),这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥(部分情况下两个特征都是非零值),可以用一个指标对特征不互斥程度进行衡量,称之为冲突比率,当这个值较小时,我们可以选择把不完全互斥的两个特征捆绑,而不影响最后的精度。

EBF的算法步骤如下:

将特征按照非零值的个数进行排序;

计算不同特征之间的冲突比率;

遍历每个特征并尝试合并特征,使冲突比率最小化。

步骤S3:输出高风险账号。

最终通过算法对数据集进行预测,最终输出含有风险程度数值的账户集,从而得出风险账户。

从上述描述可知,本发明实施例提供一种资金交易异常的存款账户识别方法,首先获取多个存款账户的资金交易数据;根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。本发明采用基于LightGBM的机器学习方法,通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

基于同一发明构思,本申请实施例还提供了一种资金交易异常的存款账户识别装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于资金交易异常的存款账户识别装置解决问题的原理与资金交易异常的存款账户识别方法相似,因此资金交易异常的存款账户识别装置的实施可以参见资金交易异常的存款账户识别方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现资金交易异常的存款账户识别方法的资金交易异常的存款账户识别装置的具体实施方式,参见图11,资金交易异常的存款账户识别装置具体包括如下内容:

资金交易数据获取模块10,用于获取多个存款账户的资金交易数据;

异常存款账户识别模块20,用于根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

一实施例中,参见图12,资金交易异常的存款账户识别装置还包括:预测模型生成模块30,用于生成所述lightgbm预测模型,参见图13,所述预测模型生成模块30包括:

初始模型生成单元301,用于利用lightgbm算法,根据所述资金交易数据生成初始模型;

叶节点生长单元302,用于生长所述初始模型中具有最大信息增益的叶节点;

过渡模型生成单元303,用于对生长后的叶节点做直方图差优化操作,以生成过渡模型;

梯度实例优化单元304,用于根据梯度实例对所述过渡模型进行优化;

预测模型生成单元305,用于利用EFB方法减少优化后的过渡模型中的特征维度,以生成所述lightgbm预测模型。

一实施例中,参见图14,资金交易异常的存款账户识别装置还包括:

交易数据标签模块40,用于根据所述多个存款账户性质,对所述资金交易数据进行标签;

异常数据剔除模块50,用于剔除标签之后的资金交易数据中的异常数据;

交易数据标准化模块60,用于对剔除异常数据后的资金交易数据进行标准化操作。

一实施例中,参见图15,资金交易异常的存款账户识别装置还包括:

特征数据提取模块70,用于提取进行标准化之后的资金交易数据的属性特征以及交易特征;

特征数据筛选模块80,用于根据覆盖率以及IV值筛选所述属性特征以及所述交易特征。

从上述描述可知,本发明实施例提供一种资金交易异常的存款账户识别装置,首先获取多个存款账户的资金交易数据;根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。本发明采用基于LightGBM的机器学习方法,通过对已确定账户性质的数据集进行训练,最后由账户开立短期内资金交易,预测账户风险程度,最终得出风险账户。相较于其他专家规则监控模型,可以更快的在账户开立短期内实现精准定位风险账户,通过机器学习模型预测,也能有效的避免部署上线后占用过多资源,以此满足输出风险账户的准确度,保证监控需求。

本申请的实施例还提供能够实现上述实施例中的资金交易异常的存款账户识别方法中全部步骤的一种电子设备的具体实施方式,参见图16,电子设备具体包括如下内容:

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;

其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输;

处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的资金交易异常的存款账户识别方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:

步骤100:获取多个存款账户的资金交易数据;

步骤200:根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

本申请的实施例还提供能够实现上述实施例中的资金交易异常的存款账户识别方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的资金交易异常的存款账户识别方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:

步骤100:获取多个存款账户的资金交易数据;

步骤200:根据所述资金交易数据以及预生成的lightgbm预测模型在所述多个存款账户中识别资金交易异常的存款账户。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号