首页> 中国专利> 一种基于社群划分和图卷积的反洗钱类罪识别方法

一种基于社群划分和图卷积的反洗钱类罪识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于社群划分和图卷积的反洗钱类罪识别方法，包括以下步骤：S1：抽取实体和关系，构建知识图谱；S2：使用连通子图算法构建子图，筛选出满足条件的连通子图；S3：对筛选出的连通子图打分，用来衡量群组洗钱风险；S4：挑选出群组风险分值大于一定阈值的群组或取前TOPN的群组。本发明通过Neo4j利用账户、设备、银行卡之间的关系构建知识图谱，能够更加直接、自然地展现实体间的关联关系、资金流向等；洗钱团伙无论通过多少个中转账户，通过任何方式洗钱，他们任意两者之间至少存在一条路径；采用连通图算法对网络进行划分，初步筛选符合满足条件的连通子图；可以使得洗钱团伙更容易被发现。

著录项

公开/公告号CN112463983A

专利类型发明专利
公开/公告日2021-03-09

原文格式PDF
申请/专利权人天翼电子商务有限公司;
展开▼

申请/专利号CN202011383730.6
发明设计人余杰潮;汤敏伟;徐德华;李真;
展开▼

申请日2020-12-01
分类号G06F16/36(20190101);G06Q20/40(20120101);G06Q40/02(20120101);G06Q40/04(20120101);
代理机构
代理人
地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内
入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及电子信息技术领域，特别涉及一种基于社群划分和图卷积的反洗钱类罪识别方法。

背景技术

随着我国经济、社会的发展和对外开放的不断扩大，在我国近年的经济犯罪中，洗钱动机增强，国外犯罪组织对我国的渗透也越来越多，社会中反洗钱反恐怖融资的呼声日益高涨。传统的洗钱类罪发现主要基于已知规则结合人工排查，这种方式效率低下，在面对大数据时无能为力。随着人工智能、知识图谱的兴起，人们开始更加关注数据和数据之间的联系，这是传统关系型数据库很难展现出来的，而图数据库能够更加直接、自然地展现这种关联。图计算就是面向图数据类型的计算模型。通过图计算模型可以将事物之间的关系体现出来，比如说用户之间的转账关系、用户与商户之间的消费关系、用户和设备之间的登录关系等。基于图数据库和图算法，可以使得异常交易行为更容易被发现。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于社群划分和图卷积的反洗钱类罪识别方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于社群划分和图卷积的反洗钱类罪识别方法，包括以下步骤：

S1：抽取实体和关系，构建知识图谱；

S2：使用连通子图算法构建子图，筛选出满足条件的连通子图；

S3：对筛选出的连通子图打分，用来衡量群组洗钱风险；

S4：挑选出群组风险分值大于一定阈值的群组或取前TOPN的群组。

作为本发明的一种优选技术方案，所述步骤S1中包含：

S1.1：根据业务场景抽取实体和关系，实体包括：账户、设备、银行卡，关系包括：登录、转账、提现等；

S1.2：根据步骤S1.1中得到的实体和关系，将数据导入Neo4j图数据库，构建知识图谱。

作为本发明的一种优选技术方案，所述步骤S2中包含：

S2.1：根据步骤S1.2中构建的知识图谱，利用连通子图算法划分连通图，筛选出满足条件的连通子图。

作为本发明的一种优选技术方案，所述步骤S3中包含：

S3.1：定义4种异常结构，统计每个账户、设备、银行卡在4种异常结构中出现的次数，定义为每个节点初始的风险分值；

S3.2：根据步骤S2.1中得到的连通子图和S3.1中得到的每个节点的风险分值，利用图卷积，更新每个节点的风险分值，群组风险分值用所有大于风险分阈值的节点分值的平均值来表示，记为score1；

S3.3：根据步骤S2.1中得到的连通子图，计算群组的资金折损率，得到群组的风险分值，记为score2；

S3.4：根据步骤S1.2构建的知识图谱和步骤S2.1筛选出的连通子图，分别统计全量数据和每个群组的交易时间分布和登录时间分布，映射为24维的向量，计算每个群组与全量数据的交易时间分布和登录时间分布的余弦相似度，记为score3；

S3.5：根据步骤S3.2、S3.3、S3.4中得到的3个分值，计算每个群组总的风险分值score＝score1*score2+score3*score3_param，其中 score3_param为修正系数。

作为本发明的一种优选技术方案，所述步骤S4中包含：

S4.1：根据步骤S3中得到的每个群组的风险分值score，挑选出群组风险分值大于一定阈值的群组或取前TOPN的群组，作为风险群组输出。

与现有技术相比，本发明的有益效果如下：

本发明根据洗钱的团伙性特征，通过Neo4j利用账户、设备、银行卡之间的关系构建知识图谱，能够更加直接、自然地展现实体间的关联关系、资金流向等；洗钱团伙无论通过多少个中转账户，通过任何方式洗钱，他们任意两者之间至少存在一条路径，即他们必定在一个连通图内；所以基于构建的知识图谱，采用连通图算法对网络进行划分，初步筛选符合满足条件的连通子图；相比于从单账户或单实体角度出发的研究技术，可以使得洗钱团伙更容易被发现。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的连通子图示意图；

图2是本发明的连通子图示意图；

图3是本发明的7种异常结构中a至d的4种异常结构的不同对比示意图；

图3.1是本发明的7种异常结构中e至g的另外3种异常结构的不同对比示意图；

图4是本发明的设备登录权重映射和交易权重映射对比示意图；

图5是本发明的图卷积过程示意图；

图6是本发明的社区源汇折损率函数图像示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明实施例提供的基于社群划分和图卷积的反洗钱类罪识别方法，首先根据业务场景在交易表和操作表中抽取出构图所需的实体，账户、设备、银行卡，以及他们之间的关系，利用Neo4j构建图谱，然后利用连通图算法对构建好的图谱进行子图划分，筛选出满足条件的子图。接着利用图卷积运算，源汇折损率和时间分布相似度指标对筛选出的连通子图进行打分，最后挑选风险分值TOP10的子图作为疑似洗钱的风险群组。

图1是根据实例的实施过程所展示的基于社群划分和图卷积的反洗钱类罪识别方法的流程图，参照图1所示，该方法包括如下步骤：

S1：抽取实体和关系，构建知识图谱；

S1.1：根据业务场景抽取实体和关系，实体包括：账户、设备、银行卡，关系包括：登录、转账、提现等；

具体的，分析发现一般洗钱类罪主要涉及账户、设备、银行卡，资金在多账户和银行卡之间周转，有时会有同设备登录等关系类型。所以在步骤S1.1 中，我们从操作表和交易表中抽取这3种实体，以及他们之间的关系。登录、转账、提现的时间窗口为7天，取连续7天的数据作为研究对象。

S1.2：根据步骤S1.1中得到的实体和关系，将数据导入Neo4j图数据库，构建知识图谱。

具体的，将步骤S1.1中准备好的数存成CSV文件，节点和关系分别存储。实施例中采用的是企业版Neo4j图数据库,在Neo4j中建立对应实体的索引(账户，设备，银行卡)，提高数据导入速度以及后续图计算的效率。分别导入节点文件和关系文件，构建关系图谱。

S2：使用连通子图算法构建子图，筛选出满足条件的连通子图；

S2.1：根据步骤S1.2中构建的知识图谱，利用连通子图算法划分连通图，筛选出满足条件的连通子图。

具体的，在图论中，连通图基于连通的概念。在一个无向图G中，若从顶点i到顶点j有路径相连(当然从j到i也一定有路径)，则称i和j是连通的。如果图中任意两点都是连通的，那么该图被称作连通图。

由于完整的交易网络过于庞大，直接从中发现洗钱团伙几乎无法实现。通过分析发现，洗钱团伙无论通过多少个中转账户，通过任何方式洗钱，他们任意两者之间至少存在一条路径，即他们必定在一个连通图内。因此，本发明采用连通图算法对关系网络进行初步划分。连通图算法将完整的交易网络划分为一系列连通子图，这些连通子图之间相对独立，且每个连通子图保留了该社区完整的交易结构，降低了后续异常交易行为发现的难度，如图2所示。计算每个连通图的大小(账户数)，过滤掉极小的连通图和极大的连通图，选取账户数在50～5000的子图作为下一步的研究对象。

S3：对筛选出的连通子图打分，用来衡量群组洗钱风险；

S3.1：定义4种异常结构，统计每个账户、设备、银行卡在4种异常结构中出现的次数，定义为每个节点初始的风险分值；

具体的，在定义社区基本异常结构前，首先定义交易度和交易折损率的概念。交易度分为交易入度和交易出度，交易入度指的是某实体涉及的转入金额的次数，交易出度指的是某实体涉及的转出金额的次数。交易折损率指的是在特定时间范围内，某实体转出金额总和与转入金额总和的比值。

定义了交易度和交易折损率的概念后，就可以定义社区中的异常结构。社区中的关系主要可以分为登录操作和交易两大类，针对这两大类关系及其涉及的节点，可以总结出以下几类基本异常结构：某账户交易度大于阈值(实施例中取10)、某银行卡交易度大于阈值(实施例中取10)、某设备上登录账户数目大于阈值(实施例中取5)、某账户交易折损率介于某区间内(实施例中取 0.8-1.2)，分别如图3以及图3.1的7种异常结构由(a)-(g)所示。

对于一个账户来说，如果存在大量提现至银行卡的交易、或大量银行卡充值交易、或大量其他账户转入交易、或交易折损率在1附近，则可以认为该账户可疑度比其他账户高，且符合以上基本模式得越多，可疑度越高。同理，对于某银行卡实体来说，如果存在大量账户提现至该银行卡的交易、或该银行卡存在大量向账户充值的交易记录，则认为该银行卡比其他银行卡的可疑度高；对某设备来说，如果登录过大量不同的账户，则认为该设备可能是可疑设备。对于每个账户、银行卡、设备，以它在4种异常结构中出现的次数作为节点初始风险分值。

以上可疑度信息可以用来初始化图卷积需要的每个节点的可疑度。而边权重的初始化则可以利用交易金额，交易金额越大，则认为该边的权重越大；反之，边的权重越小。具体映射方式如下：首先确定登录关系对应的权重为1，两个节点间交易总金额与某个参数的比值作为连结两节点的边的权重，在本实施例中参数设为500，过程如图4所示。

具体的，图卷积主要利用了某节点x的近邻节点的可疑度属性来更新x的属性值，某个节点图卷积的迭代公式如下：

其中N(x)是节点x的邻节点的集和，x

S3.3：根据步骤S2.1中得到的连通子图，计算群组的资金折损率，得到群组的风险分值，记为score2；

具体的，在S3.1中已定义了某账户实体的交易折损率为其转出金额总和与转入金额总和的比值，可以类似定义社区源汇折损率。社区的汇点为有提现操作的银行卡，社区的源点为有充值操作的银行卡和几乎没有资金转入的账户。计算源点的转出金额为money_in，汇点的转入金额为money_out。根据以下公式计算社区折损率分数：

其中，

S3.4：根据步骤S1.2构建的知识图谱和步骤S2.1筛选出的连通子图，分别统计全量数据和每个群组的交易时间分布和登录时间分布，以小时为单位映射为24维的向量，计算每个群组与全量数据的交易时间分布和登录时间分布的余弦相似度，记为score3；

具体的，时间是洗钱过程中另一个重要的维度。对于通过开设赌场洗钱的团伙，其交易时间主要集中于半夜；对于某些洗钱团伙，其交易时间具有全天候的特点，或者其交易时间集中于很小一个时间段。通过对某个社区交易时间的分析，可以获取该社区的交易异常信息。

该步骤实施的前提假设是7天的全量数据中，绝大部分的交易属于正常交易。基于此假设，数据库中全量的交易时间分布可以用作判断是否为异常的标准。实施例以1小时作为一个时间单位统计时间分布情况，因此全天的交易被划分为24个时间段。

通过统计交易和登录时间分布的方法，数据库中的交易时间可以被映射为具有一定维度数的向量(例如上图将一天的交易时间分布和登录时间分布分别映射为24维的向量)向量的每个维度表示该时间范围内登录操作的次数或交易发生的笔数，同理可以获得某个社区的时间分布向量。计算某社区与全量数据的时间分布向量的相似度，可以获得该社区在时间分布方面的异常度。实施例采用计算向量余弦相似度的方式获得两个时间分布向量的相似度。余弦相似度的计算公式如下：

若

其中eps是极小值项，防止分母为0,relu为激活函数。

S3.5：根据步骤S3.2、S3.3、S3.4中得到的3个分值，计算每个群组总的风险分值score＝score1*score2+score3*score3_param，其中 score3_param为修正系数。

具体的，S3.2至S3.4计算了某个社区三方面的可疑度评分。score1和 score2反映的是某社区交易的异常度，当score1与score2中任一项为零时，要求交易的异常度为零，因此score1和score2为相乘的关系。score3反映的是时间方面的异常度，与前两项独立，因此与前两项相加。由此得到社区的总评分：

score＝score1*score2+score3*score3_param

其中，score3_param为修正系数。

S4：挑选出群组风险分值大于一定阈值的群组或取前TOPN的群组；

S4.1：根据步骤S3中得到的每个群组的风险分值score，挑选出群组风险分值大于一定阈值的群组或取前TOPN的群组，作为风险群组输出。

具体的，根据步骤S3中得到的每个群组的风险分值score，从大到小排序，挑选群组风险分值TOP10的群组，作为风险群组输出。

具体的，本发明主要使用社群划分和图卷积识别洗钱团伙，其技术要点主要有如下两点：

1.本发明通过Neo4j利用账户、设备、银行卡之间的关系构建知识图谱，基于构建的知识图谱，采用连通图算法对网络进行划分，连通子图之间相对独立，且每个连通子图保留了该社区完整的交易结构，降低了后续异常交易行为发现的难度，是其它类似发明所不具备的；

2.本发明采用图卷积的方式更新每个社区节点的风险分值，图卷积可以同时利用节点的属性信息和图的结构信息，更新后的风险分值反映了节点自身及其邻域内的风险情况，这是本发明有别于其他类似发明的核心，也是本发明检测性能优于其他类似发明的根本所在。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于社群划分和图卷积的反洗钱类罪识别方法 [P] . 中国专利： CN112463983A . 2021-03-09
2. 一种基于双阶段卷积神经网络的数字类交通标志检测识别方法 [P] . 中国专利： CN113963329A . 2022-01-21
3. A method and learning device for learning a CNN-based object detector using 1x1 convolution used for hardware optimization, and a test method and test device using this {LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1 × 1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAMEM} [P] . JP6853592B2 . 2021-03-31

机译：一种方法和学习设备，用于使用用于硬件优化的1x1卷积的基于CNN的对象检测器，以及使用该测试方法和测试设备，使用1×1卷积的CNN基于CNN的对象检测器的学习方法和学习设备用于硬件优化，以及使用Samem的测试方法和测试设备}
4. Convolution Neural Network system for dividing and preforming registration retrieval and playback of images and picture by mobile devices and servers [P] . 韩国专利： KR101949881B1 . 2019-05-08

机译：卷积神经网络系统，用于划分和执行移动设备和服务器对图像和图片的配准检索和回放
5. CONVOLUTIONAL NEURAL NETWORK, IMAGE IDENTIFICATION APPARATUS AND IMAGE IDENTIFICATION METHOD USING THE SAME, AND LEARNING MEANS [P] . 日本专利： JP2020030480A . 2020-02-27

机译：卷积神经网络，使用相同方法的图像识别装置和图像识别方法以及学习方法