首页> 中国专利> 分类信息网站中的基于机器学习的欺诈行为识别系统

分类信息网站中的基于机器学习的欺诈行为识别系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种用于分类信息网站中基于机器学习的欺诈行为识别系统的方法，所述方法包括如下步骤：a)基于已有的用户行为数据抽取样本数据，用于首次生成模型；b)针对不同业务类型的训练数据选择提取多种用户行为特征；c)基于所提取的用户行为特征，对所述样本训练数据进行向量化；d)利用向量化的样本训练数据产生预测模型；e)利用所产生的模型基于分类和聚类规则对线上数据进行检测；f)对所检测得到的异常用户数据进行处理。利用本发明能够从多个维度对用户的行为进行识别，高效地减少交易信息的虚假量。并且，即使在训练数据中含有噪音数据的情况下也能够很好的对劣质用户行为进行识别。

著录项

公开/公告号CN103793484A

专利类型发明专利
公开/公告日2014-05-14

原文格式PDF
申请/专利权人五八同城信息技术有限公司;
展开▼

申请/专利号CN201410022138.1
发明设计人张鹏;张爱华;张美琦;张朝阳;孙亚健;
展开▼

申请日2014-01-17
分类号G06F17/30(20060101);G06F15/18(20060101);
代理机构北京律恒立业知识产权代理事务所(特殊普通合伙);
代理人顾珊;严业福
地址 300457 天津市滨海新区第一大街79号泰达MSD-C区-C3座2801房间
入库时间 2024-02-20 00:07:10

法律信息

法律状态公告日

法律状态信息

法律状态
2017-03-15

授权

授权
2014-06-11

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140117

实质审查的生效
2014-05-14

公开

公开

说明书

技术领域

本发明涉及互联网技术，特别是一种分类信息网站中的基于机器学习的欺诈行为识别系统。

背景技术

分类信息网是互联网新兴起的一种涉及日常生活的方方面面信息资讯的网站类型。在这些网站里面用户可以获得免费、便利的信息发布服务，包括二手物品交易、二手车买卖、房屋租售、宠物、招聘、兼职、求职、交友活动、生活服务信息等。分类信息又称分类广告，人们日常在电视、报刊上所看到的广告，往往是不管观看者愿不愿意，它都会强加给观看者，这类广告为被动广告；而人们主动去查询招聘、租房、旅游等方面的信息，对这些信息，称它为主动广告。在信息社会逐步发展的今天，被动广告越来越引起人们的反感，而主动广告却受到人们的广泛青睐。几乎每个地方的晚报、日报、生活娱乐报都少不了分类信息的身影，而且办得越好的报纸，分类信息的篇幅往往越大。由此就产生了分类信息网。

在分类信息网站发布信息的用户中，常会出现一部分劣质用户，他们以发布虚假信息等方式欺诈用户来获取利益。因此，分类信息网站会设置一些对劣质信息的处理规则和过滤逻辑等。

现有的虚假信息识别的手段主要是基于规则的识别方式，外加一些人工的干预，例如通过统计一个ip在一段时间内发布地点数、信息内容内是否含有非法词、发布的商品或服务的价格区间是否不合理等等规则来判断一个用户是否为发布虚假信息的劣质用户，从而采取删除信息、警告、注销用户等处理手段。然而，常见的处理规则和过滤逻辑通常都是使用单一维度来进行劣质行为的识别，因此劣质用户总能想方设法地试探到规则的临界点从而绕开系统的对劣质信息的处理和过滤逻辑。

另外，随着各种规则的上线，可使用的规则会越来越少，因为规则都是会比较明显的特征。现有的方法中对规则的识别只能使用线性的分类面进行区分，从而导致多数的劣质信息都不会被系统识别并处理。

因此，需要一种分类信息网站中的基于机器学习的欺诈行为识别系统，来在多个维度对用户的行为进行识别，从而高效地减少交易信息的虚假量，提高交易信息的真实性。

发明内容

本发明的目的是提供一种分类信息网站中的基于机器学习的欺诈行为识别系统。

根据本发明的一个方面，提供了一种用于分类信息网站中基于机器学习的欺诈行为识别系统的方法，所述方法包括如下步骤：a)基于已有的用户行为数据抽取样本数据，用于首次生成模型；b)针对不同业务类型的训练数据选择提取多种用户行为特征；c)基于所提取的用户行为特征，对所述样本训练数据进行向量化；d)利用向量化的样本训练数据产生预测模型；e)利用所产生的模型基于分类和聚类规则对线上数据进行检测；f)对所检测得到的异常用户数据进行处理。

优选地，所述步骤a中的样本数据包括正样本数据和负样本数据，分别对应于优质行为的用户和劣质行为的用户。

优选地，所述步骤b中用户行为特征包括对于同一cookie的用户行为数据以及用户各维度的统计数量。

优选地，所述步骤b中通过计算信息熵和模型交叉数据验证的方式来选择对不同业务类型提取的用户特征。

优选地，所述步骤d中使用概率型的分类器进行决策。

优选地，所述步骤e中利用模型计算表示用户行为数据的异常概率的概率点。

优选地，计算所述概率点的方法为，多个模型分别对用户行为数据的多组特征进行检测，并分别得出一个分概率点，然后对各分概率点进行乘积和转化操作，得出用户行为数据的概率点。

优选地，所述步骤e中基于分类规则的用户异常行为检测方法包括设定一条概率线用于判断用户行为数据是否为坏数据。

优选地，所述步骤e中基于聚类规则的用户异常行为检测方法包括如下：e1)对概率点进行聚类现象监测；e2)将概率点聚类到一定数量的用户行为进行检测，以判断聚类至相同概率点的用户行为是否为劣质用户行为；e3)根据检测结果，异常用户行为判别模型对该类用户行为的概率点进行更新；e4)将经过检测发现的新的坏数据作为训练数据加入样本库；e5)利用新的训练数据训练模型。

优选地，所述步骤e5中对于概率点不准确的用户行为数据进行离线分析，寻找新的用户行为特征并选择合适的特征。

利用本发明的一种分类信息网站中的基于机器学习的欺诈行为识别系统，能够从多个维度对用户的行为进行识别，从而高效地减少交易信息的虚假量，提高交易信息的真实性。并且，即使在训练数据中含有噪音数据的情况下也能够很好的对劣质用户行为进行识别。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了本发明的分类信息网站中的基于机器学习的欺诈行为识别系统的方法流程图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

本发明的欺诈信息识别方法使用了基于用户行为产生的数据，可以即时地对用户发布的信息数据进行识别。本发明采用的机器学习的模型识别，可以在多个维度对用户的行为进行识别，使得发布信息特别是劣质信息的用户很难知道识别的维度是什么，从而无法通过绕开规则而进行规避。本发明可以在少量样本和高噪音的环境下，对数据进行预测，并且准确率极高。在对用户的各种行为进行收集建模，从而达到对异常用户进行识别。

图1示意性示出了本发明的分类信息网站中的基于机器学习的欺诈行为识别系统的方法流程图。如图1所示：

步骤110，基于已有的用户行为数据抽取样本数据，用于首次生成模型。该抽取的样本数据可以从已有的已审核过的用户行为数据库中抽取，主要用于将用户区分为优质用户和劣质用户，分别对应于正样本数据和负样本数据，其中，正样本是经审核通过的优质行为用户的用户行为数据，而负样本是经审核识别的劣质行为用户的行为数据，例如触犯了一些较为严重的规则（例如发布虚假交易信息）的用户行为数据。已有的审核库中的样本数据为通过一些常用的用户行为识别方法对用户行为分类而建立的数据库。所述方法例如：检测用户发布的文本信息中是否含有非法词、检测用户发布的图片信息中是否含有非法内容等。

在生成模型之后的下一次模型迭代的过程中，根据本发明的方法可以直接使用所抽取的正、负样本库，而无需再使用原始的审核库信息。

步骤120，针对不同业务类型的训练数据选择提取多种用户行为特征。通过实验效果，判断在不同业务线中使用哪些用户行为特征。

用户的特征行为通常非常多，鉴于同时计算精度和计算效率的要求，根据本发明的用户行为特征概括是对优劣用户有区分度的特征，因此并不要求有很多的特征，模型越小越好，目的是在最后的识别时候可以使用多个模型对数据进行检测。

用户行为特征是通过一些离线分析发现的行为特征，一般不会和线上其他规则重复，可以理解为后台审核人员找不到的特征，例如是对于同一cookie的用户行为数据，包括：跨城市发帖数、使用手机数、时间间隔、及鼠标点击行为、用户注册到发帖的时间间隔分、还有用户的登录行为，用户浏览行为等维度的数据、以及用户各维度的统计数量如：ip 跨城市N天计数，cookie计数等。

优选地，对于不同的业务类型的训练数据，系统提取不同的特征。例如二手车业务线使用的特征可以仅包括：注册到发帖时间，发帖用户填写数据时间，用户的鼠标轨迹，30天ip相关计数等。二手业务线可以仅包括如下特征：用户注册登录时间，用户对应ip前N天的浏览页面的次数。

更优选地，通过计算信息熵和模型交叉数据验证的方式来选择对不同业务线提取的特征。

根据本发明的方法所建立的模型仅选择了较少维度的特征，即模型使用的每一个维度都是通过数据分析产生的对分类效果很好的维度，因此每一个维度产生的数据都不是稀疏的。本发明的方法克服了现有技术中维度过多导致计算过于复杂的缺点，现有技术通常是通过对文本进行分词区分用户从而产生大量维度，每个词作为一个维度，从而导致训练样本过多，计算复杂，对样本数据的准确性要求也会过高。

步骤130，根据步骤120中选用的用户行为特征，对样本训练数据进行向量化。训练数据的向量化的结果可以保存到文件中。训练数据的每个维度的分量是一个选用的特征。下面以用户填写帖子的时间这一维度的向量化过程为例，来说明训练数据的向量化过程：

1.在样本数据中获取每一个帖子填写时间的数据。

2.对这些数据进行数据清洗，其目的是对离群点进行归位。

3.对连续值的属性进行离散化处理，使用K均值聚类100次，是有误差最小的聚类中心点作为离散化分割区。

4.然后对数据进行最后的修正。

5.向量化完成。

步骤140，利用向量化的样本训练数据产生预测模型。训练模型时，优选使用概率型的分类器进行决策。概率型分类器用于计算用户行为数据的概率点。

使用概率型的分类器进行决策的原因是，由于最后模型产生的目的是识别并删除一些异常行为信息，所以此模型需要具有很高的准确率，由于神经网络或决策树等分类器会有误杀的情况，所以使用概率型的分类器进行决策。

使用的模型优选为采用贝叶斯网络模型。贝叶斯网络(Bayesian network)是基于概率推理的数学模型，其具有较强的泛化能力，并且能够坚固逻辑的分层和概率的输出，所以很适合行为识别的场景。

优选地，采用开源程序WEKA进行模型的训练，WEKA（Waikato Environment for Knowledge Analysis）作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

步骤150，利用所产生的多个模型基于分类和聚类规则对线上数据进行检测，并对劣质用户进行处理。利用异常用户行为识别模型对线上的用户行为数据进行检测时，会对每条用户行为数据进行计算，生成一个概率点，概率点表示该数据为坏数据的概率值，这个概率点越高则该数据更倾向于坏数据。其中，以如下方法生成用户行为数据的概率点：各个模型分别对用户行为数据的多组特征（多组不同维度的特征）进行检测，每个模型分别得出一个表示数据为好坏倾向的概率的概率值（以下称为分概率点），最后对各个分概率点进行乘积和转化操作，得出用户行为数据的概率点。

检测用户异常行为的方法包括以下两种：

基于分类规则的用户异常行为检测方法。设定一条概率线（即概率阈值），用于判断用户行为数据是否为坏数据。若某用户行为数据的概率点超过概率阈值，则将该用户行为数据判定为坏数据，即将该用户判定为劣质用户。反之则将该用户行为数据判定为正常数据，将该用户判定为优质用户。其中，概率线是通过人为验证的方式得到。

基于聚类规则对线上数据进行检测。具体步骤如下：

步骤a，对概率点进行聚类现象监测。

步骤b，将概率点聚类到一定数量的用户行为数据移交操作人员检测，判断聚类至相同概率点的用户行为是否为劣质用户行为，即检测线上其他的具有该概率点的用户行为数据是否都为坏数据。聚类至相同概率点的用户行为数据同一类行为或相似行为的用户行为数据，它们可能只有较少维度的特征存在区别。检测方法优选为，检测具有该概率点的用户行为数据是否都被其他规则处理掉了。其中，其他规则是发明外的识别坏数据的方式。例如：用户发布的文本信息中含有非法词、用户发布的图片信息含有非法内容等。

步骤c，根据操作人员检测结果，异常用户行为判别模型对该类用户行为的概率点进行更新。即，若发现此行为是劣质用户的行为，则将该用户行为数据判定为坏数据，提高该用户行为的概率点至某较高的概率值，例如将概率点提高至0.999。

步骤d，将经过检测发现的新的坏数据作为训练数据加入样本库。即，将被判定为时坏数据的用户行为数据加入样本库中，作为下一次模型的训练数据，从而为模型的更新提供新的训练数据。

步骤e，利用新的训练数据训练模型。

优选地，在步骤e中，对于概率点不准确的用户行为数据进行离线分析，寻找新的用户行为特征并选择合适的特征。并对新产生的模型做交叉验证判断模型是否具有更好的性能。

利用上述基于聚类规则对线上数据的检测方法，能够实现在样本数据不够准确的情况下对用户行为数据的检测。并且，利用上述步骤a至步骤e，能够实现以半监督的机器学习方式进行对模型的更新。并且，通过本机制，能够避免由于作为训练数据的样本数据中含有噪音数据等原因所引起的模型对数据的概率点计算的不准确的问题，所以即使在样本数据不准确的情况下也能够很好的对劣质用户行为进行识别。

步骤160，对异常用户数据进行处理。在确定某用户行为是异常行为之后，系统会对劣质用户进行处理，例如将用户在网上发布的信息进行删除等。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 分类信息网站中的基于机器学习的欺诈行为识别系统 [P] . 中国专利： CN103793484B . 2017.03.15
2. 分类信息网站中的基于机器学习的欺诈行为识别系统 [P] . 中国专利： CN103793484A . 2014-05-14
3. SPEECH RECOGNITION SYSTEM USING MACHINE LEARNING TO CLASSIFY PHONE POSTERIOR CONTEXT INFORMATION AND ESTIMATE BOUNDARIES IN SPEECH FROM COMBINED BOUNDARY POSTERIORS [P] . 美国专利： US2019005943A1 . 2019-01-03

机译：基于机器学习的语音识别系统，用于分类语音后境信息和组合边界后语音中的边界
4. GENERATION OF TEST MODELS FROM BEHAVIOR DRIVEN DEVELOPMENT SCENARIOS BASED ON BEHAVIOR DRIVEN DEVELOPMENT STEP DEFINITIONS AND SIMILARITY ANALYSIS USING NEURO LINGUISTIC PROGRAMMING AND MACHINE LEARNING MECHANISMS [P] . 世界知识产权组织专利： WO2020160810A1 . 2020-08-13

机译：基于行为驱动的开发步骤定义和基于神经语言编程和机器学习机制的相似度分析的行为驱动的开发场景中的测试模型的生成
5. GENERATION OF TEST MODELS FROM BEHAVIOR DRIVEN DEVELOPMENT SCENARIOS BASED ON BEHAVIOR DRIVEN DEVELOPMENT STEP DEFINITIONS AND SIMILARITY ANALYSIS USING NEURO LINGUISTIC PROGRAMMING AND MACHINE LEARNING MECHANISMS [P] . 欧洲知识产权局专利： EP3693860A1 . 2020-08-12

机译：基于行为驱动的开发步骤定义和基于神经语言编程和机器学习机制的相似度分析的行为驱动的开发场景中的测试模型的生成