首页> 中国专利> 分类信息网站中的基于机器学习的欺诈行为识别系统

分类信息网站中的基于机器学习的欺诈行为识别系统

摘要

本发明提供了一种用于分类信息网站中基于机器学习的欺诈行为识别系统的方法,所述方法包括如下步骤:a)基于已有的用户行为数据抽取样本数据,用于首次生成模型;b)针对不同业务类型的训练数据选择提取多种用户行为特征;c)基于所提取的用户行为特征,对所述样本训练数据进行向量化;d)利用向量化的样本训练数据产生预测模型;e)利用所产生的模型基于分类和聚类规则对线上数据进行检测;f)对所检测得到的异常用户数据进行处理。利用本发明能够从多个维度对用户的行为进行识别,高效地减少交易信息的虚假量。并且,即使在训练数据中含有噪音数据的情况下也能够很好的对劣质用户行为进行识别。

著录项

  • 公开/公告号CN103793484A

    专利类型发明专利

  • 公开/公告日2014-05-14

    原文格式PDF

  • 申请/专利权人 五八同城信息技术有限公司;

    申请/专利号CN201410022138.1

  • 申请日2014-01-17

  • 分类号G06F17/30(20060101);G06F15/18(20060101);

  • 代理机构北京律恒立业知识产权代理事务所(特殊普通合伙);

  • 代理人顾珊;严业福

  • 地址 300457 天津市滨海新区第一大街79号泰达MSD-C区-C3座2801房间

  • 入库时间 2024-02-20 00:07:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    授权

    授权

  • 2014-06-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140117

    实质审查的生效

  • 2014-05-14

    公开

    公开

说明书

技术领域

本发明涉及互联网技术,特别是一种分类信息网站中的基于机器学 习的欺诈行为识别系统。

背景技术

分类信息网是互联网新兴起的一种涉及日常生活的方方面面信息资 讯的网站类型。在这些网站里面用户可以获得免费、便利的信息发布服 务,包括二手物品交易、二手车买卖、房屋租售、宠物、招聘、兼职、求 职、交友活动、生活服务信息等。分类信息又称分类广告,人们日常在 电视、报刊上所看到的广告,往往是不管观看者愿不愿意,它都会强加 给观看者,这类广告为被动广告;而人们主动去查询招聘、租房、旅游 等方面的信息,对这些信息,称它为主动广告。在信息社会逐步发展的 今天,被动广告越来越引起人们的反感,而主动广告却受到人们的广泛 青睐。几乎每个地方的晚报、日报、生活娱乐报都少不了分类信息的身 影,而且办得越好的报纸,分类信息的篇幅往往越大。由此就产生了分 类信息网。

在分类信息网站发布信息的用户中,常会出现一部分劣质用户,他 们以发布虚假信息等方式欺诈用户来获取利益。因此,分类信息网站会 设置一些对劣质信息的处理规则和过滤逻辑等。

现有的虚假信息识别的手段主要是基于规则的识别方式,外加一些 人工的干预,例如通过统计一个ip在一段时间内发布地点数、信息内容 内是否含有非法词、发布的商品或服务的价格区间是否不合理等等规则 来判断一个用户是否为发布虚假信息的劣质用户,从而采取删除信息、 警告、注销用户等处理手段。然而,常见的处理规则和过滤逻辑通常都 是使用单一维度来进行劣质行为的识别,因此劣质用户总能想方设法地 试探到规则的临界点从而绕开系统的对劣质信息的处理和过滤逻辑。

另外,随着各种规则的上线,可使用的规则会越来越少,因为规则 都是会比较明显的特征。现有的方法中对规则的识别只能使用线性的分 类面进行区分,从而导致多数的劣质信息都不会被系统识别并处理。

因此,需要一种分类信息网站中的基于机器学习的欺诈行为识别系 统,来在多个维度对用户的行为进行识别,从而高效地减少交易信息的 虚假量,提高交易信息的真实性。

发明内容

本发明的目的是提供一种分类信息网站中的基于机器学习的欺诈行 为识别系统。

根据本发明的一个方面,提供了一种用于分类信息网站中基于机器 学习的欺诈行为识别系统的方法,所述方法包括如下步骤:a)基于已有 的用户行为数据抽取样本数据,用于首次生成模型;b)针对不同业务类 型的训练数据选择提取多种用户行为特征;c)基于所提取的用户行为特 征,对所述样本训练数据进行向量化;d)利用向量化的样本训练数据产 生预测模型;e)利用所产生的模型基于分类和聚类规则对线上数据进行 检测;f)对所检测得到的异常用户数据进行处理。

优选地,所述步骤a中的样本数据包括正样本数据和负样本数据, 分别对应于优质行为的用户和劣质行为的用户。

优选地,所述步骤b中用户行为特征包括对于同一cookie的用户行 为数据以及用户各维度的统计数量。

优选地,所述步骤b中通过计算信息熵和模型交叉数据验证的方式 来选择对不同业务类型提取的用户特征。

优选地,所述步骤d中使用概率型的分类器进行决策。

优选地,所述步骤e中利用模型计算表示用户行为数据的异常概率 的概率点。

优选地,计算所述概率点的方法为,多个模型分别对用户行为数据 的多组特征进行检测,并分别得出一个分概率点,然后对各分概率点进 行乘积和转化操作,得出用户行为数据的概率点。

优选地,所述步骤e中基于分类规则的用户异常行为检测方法包括 设定一条概率线用于判断用户行为数据是否为坏数据。

优选地,所述步骤e中基于聚类规则的用户异常行为检测方法包括 如下:e1)对概率点进行聚类现象监测;e2)将概率点聚类到一定数量的 用户行为进行检测,以判断聚类至相同概率点的用户行为是否为劣质用 户行为;e3)根据检测结果,异常用户行为判别模型对该类用户行为的概 率点进行更新;e4)将经过检测发现的新的坏数据作为训练数据加入样本 库;e5)利用新的训练数据训练模型。

优选地,所述步骤e5中对于概率点不准确的用户行为数据进行离线 分析,寻找新的用户行为特征并选择合适的特征。

利用本发明的一种分类信息网站中的基于机器学习的欺诈行为识别 系统,能够从多个维度对用户的行为进行识别,从而高效地减少交易信 息的虚假量,提高交易信息的真实性。并且,即使在训练数据中含有噪 音数据的情况下也能够很好的对劣质用户行为进行识别。

附图说明

参考随附的附图,本发明更多的目的、功能和优点将通过本发明实 施方式的如下描述得以阐明,其中:

图1示意性示出了本发明的分类信息网站中的基于机器学习的欺诈 行为识别系统的方法流程图。

具体实施方式

通过参考示范性实施例,本发明的目的和功能以及用于实现这些目 的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示 范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是 帮助相关领域技术人员综合理解本发明的具体细节。

在下文中,将参考附图描述本发明的实施例。在附图中,相同的附 图标记代表相同或类似的部件,或者相同或类似的步骤。

本发明的欺诈信息识别方法使用了基于用户行为产生的数据,可以 即时地对用户发布的信息数据进行识别。本发明采用的机器学习的模型 识别,可以在多个维度对用户的行为进行识别,使得发布信息特别是劣 质信息的用户很难知道识别的维度是什么,从而无法通过绕开规则而进 行规避。本发明可以在少量样本和高噪音的环境下,对数据进行预测, 并且准确率极高。在对用户的各种行为进行收集建模,从而达到对异常 用户进行识别。

图1示意性示出了本发明的分类信息网站中的基于机器学习的欺诈 行为识别系统的方法流程图。如图1所示:

步骤110,基于已有的用户行为数据抽取样本数据,用于首次生成模 型。该抽取的样本数据可以从已有的已审核过的用户行为数据库中抽取, 主要用于将用户区分为优质用户和劣质用户,分别对应于正样本数据和 负样本数据,其中,正样本是经审核通过的优质行为用户的用户行为数 据,而负样本是经审核识别的劣质行为用户的行为数据,例如触犯了一 些较为严重的规则(例如发布虚假交易信息)的用户行为数据。已有的 审核库中的样本数据为通过一些常用的用户行为识别方法对用户行为分 类而建立的数据库。所述方法例如:检测用户发布的文本信息中是否含 有非法词、检测用户发布的图片信息中是否含有非法内容等。

在生成模型之后的下一次模型迭代的过程中,根据本发明的方法可 以直接使用所抽取的正、负样本库,而无需再使用原始的审核库信息。

步骤120,针对不同业务类型的训练数据选择提取多种用户行为特 征。通过实验效果,判断在不同业务线中使用哪些用户行为特征。

用户的特征行为通常非常多,鉴于同时计算精度和计算效率的要求, 根据本发明的用户行为特征概括是对优劣用户有区分度的特征,因此并 不要求有很多的特征,模型越小越好,目的是在最后的识别时候可以使 用多个模型对数据进行检测。

用户行为特征是通过一些离线分析发现的行为特征,一般不会和线 上其他规则重复,可以理解为后台审核人员找不到的特征,例如是对于 同一cookie的用户行为数据,包括:跨城市发帖数、使用手机数、时间 间隔、及鼠标点击行为、用户注册到发帖的时间间隔分、还有用户的登 录行为,用户浏览行为等维度的数据、以及用户各维度的统计数量如:ip 跨城市N天计数,cookie计数等。

优选地,对于不同的业务类型的训练数据,系统提取不同的特征。 例如二手车业务线使用的特征可以仅包括:注册到发帖时间,发帖用户 填写数据时间,用户的鼠标轨迹,30天ip相关计数等。二手业务线可以 仅包括如下特征:用户注册登录时间,用户对应ip前N天的浏览页面的 次数。

更优选地,通过计算信息熵和模型交叉数据验证的方式来选择对不 同业务线提取的特征。

根据本发明的方法所建立的模型仅选择了较少维度的特征,即模型 使用的每一个维度都是通过数据分析产生的对分类效果很好的维度,因 此每一个维度产生的数据都不是稀疏的。本发明的方法克服了现有技术 中维度过多导致计算过于复杂的缺点,现有技术通常是通过对文本进行 分词区分用户从而产生大量维度,每个词作为一个维度,从而导致训练 样本过多,计算复杂,对样本数据的准确性要求也会过高。

步骤130,根据步骤120中选用的用户行为特征,对样本训练数据进 行向量化。训练数据的向量化的结果可以保存到文件中。训练数据的每 个维度的分量是一个选用的特征。下面以用户填写帖子的时间这一维度 的向量化过程为例,来说明训练数据的向量化过程:

1.在样本数据中获取每一个帖子填写时间的数据。

2.对这些数据进行数据清洗,其目的是对离群点进行归位。

3.对连续值的属性进行离散化处理,使用K均值聚类100次,是有 误差最小的聚类中心点作为离散化分割区。

4.然后对数据进行最后的修正。

5.向量化完成。

步骤140,利用向量化的样本训练数据产生预测模型。训练模型时, 优选使用概率型的分类器进行决策。概率型分类器用于计算用户行为数 据的概率点。

使用概率型的分类器进行决策的原因是,由于最后模型产生的目的 是识别并删除一些异常行为信息,所以此模型需要具有很高的准确率, 由于神经网络或决策树等分类器会有误杀的情况,所以使用概率型的分 类器进行决策。

使用的模型优选为采用贝叶斯网络模型。贝叶斯网络(Bayesian  network)是基于概率推理的数学模型,其具有较强的泛化能力,并且能够 坚固逻辑的分层和概率的输出,所以很适合行为识别的场景。

优选地,采用开源程序WEKA进行模型的训练,WEKA(Waikato  Environment for Knowledge Analysis)作为一个公开的数据挖掘工作平台, 集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处 理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

步骤150,利用所产生的多个模型基于分类和聚类规则对线上数据进 行检测,并对劣质用户进行处理。利用异常用户行为识别模型对线上的 用户行为数据进行检测时,会对每条用户行为数据进行计算,生成一个 概率点,概率点表示该数据为坏数据的概率值,这个概率点越高则该数 据更倾向于坏数据。其中,以如下方法生成用户行为数据的概率点:各 个模型分别对用户行为数据的多组特征(多组不同维度的特征)进行检 测,每个模型分别得出一个表示数据为好坏倾向的概率的概率值(以下 称为分概率点),最后对各个分概率点进行乘积和转化操作,得出用户行 为数据的概率点。

检测用户异常行为的方法包括以下两种:

基于分类规则的用户异常行为检测方法。设定一条概率线(即概率 阈值),用于判断用户行为数据是否为坏数据。若某用户行为数据的概率 点超过概率阈值,则将该用户行为数据判定为坏数据,即将该用户判定 为劣质用户。反之则将该用户行为数据判定为正常数据,将该用户判定 为优质用户。其中,概率线是通过人为验证的方式得到。

基于聚类规则对线上数据进行检测。具体步骤如下:

步骤a,对概率点进行聚类现象监测。

步骤b,将概率点聚类到一定数量的用户行为数据移交操作人员检 测,判断聚类至相同概率点的用户行为是否为劣质用户行为,即检测线 上其他的具有该概率点的用户行为数据是否都为坏数据。聚类至相同概 率点的用户行为数据同一类行为或相似行为的用户行为数据,它们可能 只有较少维度的特征存在区别。检测方法优选为,检测具有该概率点的 用户行为数据是否都被其他规则处理掉了。其中,其他规则是发明外的 识别坏数据的方式。例如:用户发布的文本信息中含有非法词、用户发 布的图片信息含有非法内容等。

步骤c,根据操作人员检测结果,异常用户行为判别模型对该类用户 行为的概率点进行更新。即,若发现此行为是劣质用户的行为,则将该 用户行为数据判定为坏数据,提高该用户行为的概率点至某较高的概率 值,例如将概率点提高至0.999。

步骤d,将经过检测发现的新的坏数据作为训练数据加入样本库。即, 将被判定为时坏数据的用户行为数据加入样本库中,作为下一次模型的 训练数据,从而为模型的更新提供新的训练数据。

步骤e,利用新的训练数据训练模型。

优选地,在步骤e中,对于概率点不准确的用户行为数据进行离线 分析,寻找新的用户行为特征并选择合适的特征。并对新产生的模型做 交叉验证判断模型是否具有更好的性能。

利用上述基于聚类规则对线上数据的检测方法,能够实现在样本数 据不够准确的情况下对用户行为数据的检测。并且,利用上述步骤a至 步骤e,能够实现以半监督的机器学习方式进行对模型的更新。并且,通 过本机制,能够避免由于作为训练数据的样本数据中含有噪音数据等原 因所引起的模型对数据的概率点计算的不准确的问题,所以即使在样本 数据不准确的情况下也能够很好的对劣质用户行为进行识别。

步骤160,对异常用户数据进行处理。在确定某用户行为是异常行为 之后,系统会对劣质用户进行处理,例如将用户在网上发布的信息进行 删除等。

利用本发明的一种分类信息网站中的基于机器学习的欺诈行为识别 系统,能够从多个维度对用户的行为进行识别,从而高效地减少交易信 息的虚假量,提高交易信息的真实性。并且,即使在训练数据中含有噪 音数据的情况下也能够很好的对劣质用户行为进行识别。

结合这里披露的本发明的说明和实践,本发明的其他实施例对于本 领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性 的,本发明的真正范围和主旨均由权利要求所限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号