首页> 中国专利> 一种融合同质图与二分图的电信诈骗安全联邦检测方法

一种融合同质图与二分图的电信诈骗安全联邦检测方法

摘要

本发明涉及一种融合同质图与二分图的安全联邦电信诈骗检测方法,属于大数据分析与挖掘领域,S1:基于电信运营商的用户业务数据,提取并预处理用户的语音通话数据、短信通信数据以及手机应用访问数据;S2:构建电信用户社交网络同质图与用户手机应用二分图数据集;S3:针对社交网络同质图构建同质图嵌入网络,针对用户访问手机应用二分图构建二分图嵌入网络,对用户节点进行采样得到邻居节点共现序列,迭代训练得到各节点的嵌入表示,融合作为用户的嵌入表示;S4:不同参与方根据本地数据特点提取本地电信用户特征,采用安全联邦梯度提升树分类模型对不同机构的本地数据进行联合训练,输出诈骗号码的最终预测结果。

著录项

  • 公开/公告号CN114693317A

    专利类型发明专利

  • 公开/公告日2022-07-01

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN202210397973.8

  • 发明设计人 许国良;张林泉;

    申请日2022-04-08

  • 分类号G06Q30/00(2012.01);G06Q50/00(2012.01);G06K9/62(2022.01);H04W12/12(2021.01);H04W12/128(2021.01);

  • 代理机构北京同恒源知识产权代理有限公司 11275;

  • 代理人赵荣之

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-06-19 16:03:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-19

    实质审查的生效 IPC(主分类):G06Q30/00 专利申请号:2022103979738 申请日:20220408

    实质审查的生效

  • 2022-07-01

    公开

    发明专利申请公布

说明书

技术领域

本发明属于大数据分析与挖掘领域,涉及一种融合同质图与二分图的电信诈骗安全联邦检测方法。

背景技术

随着移动通信的发展以及各类网络应用的普及,全球电信网络诈骗形势愈演愈烈,且有逐步向高科技靠拢、向网络诈骗转变的趋势。在互联网技术飞速发展的今天,电信网络诈骗日益成为世界各国的社会“顽疾”之一。目前来看,全球电信网络诈骗的实施仍以电话联络为主,且日益呈现智能化、产业化、同质化等新特点新问题,诈骗对象也逐步从广撒网式向精准诈骗转变。诈骗方式也逐渐从电话、短信、电子邮件向社交网站、手机应用蔓延扩散,各种诈骗手段不断翻新,技术对抗性持续增强,诈骗脚本紧跟社会热点、紧贴个人隐私,诈骗模式也逐渐从境内诈骗向跨境诈骗转变。

目前,工业界中诈骗号码检测的方案主要有基于规则的专家系统和基于机器学习的模型系统两种方案。基于规则的专家系统需要反欺诈专家对大量的包括正常和异常的电信数据进行人工分析,准确地识别诈骗分子的欺诈行为方式,找到能够有效区分是否欺诈的重要特征,并编写专家规则进行欺诈行为的检测。因此基于规则的专家系统强烈依赖于反欺诈专家的专业知识和业务知识,如果专家不能及时敏锐地发现日益复杂的欺诈模式,那么就会造成巨大的损失。

伴随着数据规模不断扩大以及机器计算能力的不断増强,出现了基于机器学习的模型系统。基于机器学习的模型通常是根据历史交易数据进行特征分析,之后利用机器学习分类算法在特征数据集上训练和评估模型,然后应用于诈骗号码检测。不管是基于规则的专家系统还是基于机器学习的模型系统,都是从历史数据中发现交易欺诈时重复出现的个体行为模式。随着电信诈骗的专业化程度不断提高,诈骗分子可以通过改变自身欺诈手法来逃避欺诈检测,但是诈骗分子难以改变其全部的关联关系。当关联网络覆盖到一个较大范围时,诈骗分子即使再小心也会露出蛛丝马迹。因此,在大规模数据的背景下,如何挖掘有效特征来提高模型欺诈检测的效果是目前科研工作者探索的新方向。

在数据安全越来越受到重视的今天,直接使用电信大数据往往存在巨大的难度。各运营商及相关企业之间,甚至同一机构的不同业务部门之间都存在数据整合困难的问题,因此将不同部门提取到的电信用户特征数据进行联合训练也是当前的研究重点。

发明内容

有鉴于此,为了能够充分利用各运营商通信业务数据与公安部门的诈骗号码标签数据来识别诈骗号码,本发明在基于图嵌入学习基础上,提出一种基于语音短信社交图与手机应用访问二分图的诈骗号码特征提取与分类方法。

为达到上述目的,本发明提供如下技术方案:

一种融合同质图与二分图的电信诈骗安全联邦检测方法,包括以下步骤:

S1:基于电信运营商的用户业务数据,提取用户的语音通话数据、短信通信数据以及手机应用访问数据,并进行预处理;

S2:利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,图数据集中包括语音社交网络同质图、短信社交网络同质图及手机应用访问二分图三种类型的带权图,其中边的权重设置根据不同业务的特点进行统计特征提取与权值聚合;

S3:针对社交网络同质图构建同质图嵌入网络,针对用户访问手机应用二分图构建二分图嵌入网络,采用图嵌入学习方式对用户节点进行采样得到邻居节点共现序列,再通过重构嵌入函数与共现信息负采样迭代训练得到各节点的嵌入表示;将训练得到的嵌入特征进行融合作为用户的嵌入表示;

S4:不同参与方根据本地数据特点提取本地电信用户特征,并采用安全联邦梯度提升树分类模型对不同机构的本地数据进行联合训练;不同机构之间的样本数据通过可靠的第三方服务器进行加密数据样本对齐与加密模型参数交换,从而实现多方模型联合训练,在训练过程中采用二阶段训练法,其中第一阶段训练用于对特征进行筛选,第二阶段训练用于对筛选后的特征进行分类,并输出诈骗号码的最终预测结果。

进一步,步骤S1具体包括:利用从电信运营商处采集的用户不同业务数据构建诈骗号码检测数据集;按照不同业务数据特征将数据分为以下四类:用户基础信息数据、语音通话数据、短信通信数据以及手机应用访问数据;对采集的数据进行数据清洗操作,包括异常值处理、缺失值处理及规范化处理;同时根据已经掌握的电信诈骗报案信息对提取的电信用户进行标注,诈骗用户标注为1,非诈骗用户标注为0。

进一步,步骤S2中,对语音和短信社交网络同质图及用户访问手机应用二分图构建的过程包括:针对语音与短信数据,根据语音通话的主被叫关系提取电信用户语音社交图G

进一步,步骤S2中所述利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,具体包括:

语音社交网络图G

对于语音社交网络图G

其中α

对于短信社交网络图G

其中β

手机应用访问二分图G

其中γ

进一步,步骤S3具体包括以下步骤:

S31:根据所构建的社交网络同质图、短信社交网络同质图及手机应用访问二分图分别采用相应的图嵌入模型对用户节点进行图嵌入训练;

S32:根据同质图节点之间的一阶与二阶邻居相似性找出用户节点的邻居序列集合,根据二分图的显式关系与隐式关系找出用户节点的邻居序列集合;

S33:分别将一阶相似性训练得到的节点嵌入和二阶训练得到的节点嵌入进行拼接得到同质图用户节点的嵌入向量,将显式关系与隐式关系联合优化训练得到二分图用户节点嵌入向量。

进一步,步骤S3中,对于同质图,将用户节点从图域映射到嵌入域,即在给定用户节点索引i时,直接获得节点u

其中,e

对于二分图,由于原始的二分图G

提取用户节点在图域中的关键结构信息

利用嵌入域的嵌入表示重构所提取的图域共现信息

通过对基于共现信息

对于同质图而言,一阶相似度需要优化的目标函数为:

二阶相似度需要优化的目标函数为:

对于二分图G

隐式关系进行建模的优化目标函数为:

通过对基于共现信息

maximize O

其中,μ与η是要指定的超参数,用于组合联合优化中的不同组件。

进一步,步骤S4具体包括以下步骤:

S41:将同质图与二分图嵌入向量进行拼接得到的节点最终嵌入特征并结合用户基础特征和标签信:息输入安全联邦梯度提升树分类模型进行初次训练;

S42:将一阶段训练得到的特征按照重要性进行排序,筛选出排名前n的特征,分发给不同参与方对特征进行优选;

S43:不同参与方进行特征筛选后,再次进行二阶段联邦梯度提升树分类训练,并输出诈骗号码预测结果;

S44:将用户最终分类结果进行处理,输出可疑诈骗号码名单。

进一步,安全联邦梯度提升树模型的二阶段训练过程包括加密样本对齐与加密模型训练;训练过程中通过中心服务器对模型的中间计算结果与参数进行加密交换最终得到最优的模型参数组合;加密方式采用基于RSA算法与散列函数的方式进行;在训练过程中,本地数据只在本地进行计算,并将计算结果加密后传输给中心服务器,其他参与方无法获得本地数据详情。因此能够保证本地数据的安全。

本发明的有益效果在于:本发明解决了诈骗用户检测任务中针对电信用户历史话单与上网数据的交互性特征进行特征提取的问题,并结合特征工程采集的用户基本信息特征用于机器学习模型分类预测。为传统诈骗号码检测任务提供了一种更多元的数据特征提取方法。本发明可以与其他传统诈骗号码检测模型进行相互融合与补充,在诈骗号码检测任务中具有很好地泛化能力。并且本发明所需采集的数据可以以匿名化的加密数据形式进行处理,同样可以达到相同的特征提取效果,在一定程度上,对于用户隐私安全的保护有积极地现实意义。本发明能够结合不同电信运营商及其他相关机构的数据作为模型输入进行联合训练,并且所使用的安全联邦机器学习模型能够保证各参与方的数据不会泄露给彼此。能够保证数据安全的同时充分利用多方数据进行电信欺诈检测。对于当前隐私数据的使用越来越严格的场景,本方案能够很好解决数据隔离与数据碎片化问题。本发明在多方联合建模中采用二阶段训练方式,能够对多方数据特征进行特征筛选,在一定程度上能够提高模型的泛化能力。该方法属于模型优化的一种方式,可以应用到不同训练模型中。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1是本发明方法的步骤示意图;

图2是本发明方法的总流程示意图;

图3是本发明采用的语音短信社交图嵌入模块示意图;

图4是本发明采用的手机应用访问二分图嵌入模块示意图;

图5是本发明采用的本地机器学习分类模块示意图;

图6是本发明使用的安全联邦多方训练模型示意图;

图7是本发明中的安全联邦加密训练示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

本发明提出了一种融合同质图与二分图的电信诈骗安全联邦检测方法,如图1所示,具体包括以下步骤:

从电信运营商处采集的用户不同业务数据构建诈骗号码检测数据集。首先按照不同业务数据特征将数据分为以下四类:用户信息数据、语音通话数据、短信通信数据以及手机应用访问数据。对采集的多元数据进行异常值处理、缺失值处理及规范化处理等数据清洗操作,同时根据已经掌握的电信诈骗报案信息对提取的电信用户进行标注,诈骗用户标注为1,非诈骗用户标注为0。

利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,数据集中包含了用户的标签信息用来进行诈骗号码二分类训练与测试。具体构建过程如下:

语音社交网络图G

其中α

其中β

手机应用访问二分图G

其中γ

针对语音短信社交图构建同质图嵌入网络,针对手机应用访问二分图构建二分图嵌入网络,采用无监督学习的方式对用户节点进行采样得到邻居节点共现序列,再通过重构嵌入函数与共现信息负采样迭代训练得到各节点的嵌入表示。

将各嵌入模型输出的节点嵌入特征进行拼接操作,并筛选出其中具有标签数据的样本数据,按标签属性将其按比例分割为训练集与测试集作为分类模型的输入,通过模型在训练集与测试集上的迭代训练最终得到最优模型用于诈骗号码的分类预测。最终使用该模型对其他用户数据进行预测,并将预测结果输出到疑似诈骗号码数据库中供运营商作参考。

本发明还提供了一种融合同质图与二分图的电信诈骗安全联邦检测装置,如图2,具体包括:

原始数据采集模块,首先连接到运营商的数据仓库,周期性的通过HiveSQL提取用户通信数据与用户访问手机应用数据,按照时间周期将数据记录合并汇总得到三张用户通信表保存到存储模块中,三个表格分别为语音通话数据、短信通信数据及手机应用流量使用情况数据。

图数据预处理模块,周期性读取存储器中存储的语音通话数据表、短信通信数据表及手机应用流量使用情况数据表,通过合并汇总提取出各表中用户与用户及用户与手机应用之间的交互关系,并以邻接表形式的形式将三种交互图数据进行存储。

图嵌入特征提取模块,针对上述处理后的三种图结构数据,分为两种类型分别进行特征提取。第一种类型为基于语音与短信数据的电信用户社交网络同质图G

图3为同质图的特征嵌入网络示意图。对于同质图G

步骤一:节点嵌入映射模块,用于将用户节点从图域映射到嵌入域,即在给定用户节点索引i时,可直接获得节点u

其中,e

步骤二:图域共现信息提取模块,用于提取用户节点在图域中的关键结构信息

其中,一阶相似度指网络中用户节点之间的局部两两相似性,形式化描述为若节点u

在嵌入域,节点之间的经验分布定义如下:

其中,v

二阶相似度是指网络中用户节点的邻居节点所具有相似性。形式化定义为,令p

对于二阶相似性,需要对每个节点引入两个嵌入向量来表征,一个是表征节点自身的嵌入向量,即中心节点嵌入u

其中,w

而在嵌入域,节点之间的条件概率当u

其中,

步骤三:嵌入域信息重构模块,利用嵌入域的嵌入表示重构所提取的图域共现信息

步骤四:目标函数优化模块,通过对基于共现信息

其中,一阶相似度使用KL散度来衡量两个概率分布之间的差异。忽略常数项后得到一阶相似度的优化目标函数为:

二阶相似度同样采用KL散度来计算不同分布的差异,忽略常数项后得到二阶相似度的优化目标函数为:

图4是二分图嵌入的网络架构示意图。对于二分图G

步骤一:二分图重构模块,原始的二分图G

步骤二:节点嵌入映射模块,用于将二分图各节点从图域映射到嵌入域,分别用u

步骤三:图域共现信息提取模块,用于提取用户节点在图域中的关键结构信息

步骤四:嵌入域信息重构模块,利用嵌入域的嵌入表示重构所提取的图域共现信息

对于二分图G

而在嵌入域内节点的经验分布为:

对于显式关系而言,用KL散度衡量图域与嵌入域分布的差异,因此目标函数为:

忽略常数项后最终目标函数为:

对于二分图的隐式关系同质图G

步骤四:目标函数优化模块,通过对基于共现信息

maximize O

其中,O

通过上述图嵌入模块迭代优化,得到用户的三类嵌入向量特征表示X

图5是本发明所采用的诈骗用户检测本地分类模型架构,图6为联合多方本地模型进行安全联邦学习的联合训练模型架构。对于多个参与方的本地模型,首先通过诈骗用户检测模块,将数据处理模块整理的用户基础信息特征X

图7为安全联邦多方联合加密训练示意图。在训练过程中采用二次训练的方式,其中第一次训练用于进行特征筛选,各参与方特征在第一次训练完成后得到特征重要性权值,根据该数值对特征进行排序筛选出排名前50的特征。然后让拥有这些特征的参与方进行二次联合建模,并将二次训练的结果作为输出提供给标签拥有方运营商。运营商从预测结果中提取数可以诈骗号码名单作为参考。

在一个优选实施例中,当出现新的类型的电信诈骗方式时,对新的诈骗样本进行分类标注,选取正常用户和新型诈骗用户样本数据并输入到已训练好的模型中,通过对模型参数进行迭代优化使得模型能够适应新的诈骗类型的检测。

本发明实施例通过在不同过程中选择不同类型以及不同数量的数据集,能够实现基于语音短信社交图与手机应用访问二分图的电信用户欺诈检测方法,检测识别出电信用户中的欺诈用户。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号