法律状态公告日
法律状态信息
法律状态
2016-10-05
授权
授权
2014-05-21
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140124
实质审查的生效
2014-04-23
公开
公开
技术领域
本发明涉及垃圾评论者识别技术领域,更具体地,涉及一种产品垃圾评论者检测系统。
背景技术
当前,有很多技术方法可用于产品垃圾评论者检测。传统的垃圾评论者检测采用检测评论 者行为的方法,该方法能够准确地检测出具有特定类型的垃圾评论者,如发表重复评论的垃圾 评论者。但是对于发表非重复评论的垃圾评论者,则无法检测。另一方面,现在的大部分的垃 圾评论者为了避免被识别,不会写大量的重复评论。
在现有技术中,还存在着一些新式的垃圾评论者检测技术方法。新式的垃圾评论者检测方 法利用评论者、评论、商店的关系检测垃圾评论者。新式的垃圾评论者检测方法迭代计算每个 评论者的可信度,评论者可信度与他所发表的评论真实度有关,真实度越高其可信度就越高; 真实度与商店可靠性有关,而商店可靠度和评论者可信度有关。
然而,新式垃圾评论者检测有其自身的特点,与传统垃圾评论者检测有所不同。新式的垃 圾评论者检测方法典型地使用评论数据的内部关系,不仅能检测出写重复评论的垃圾评论者, 而且能检测出发表非重复的垃圾评论者。
目前的垃圾评论者检测方法没有充分考虑新式垃圾评论者检测的结构特点,而且只能适用 于特定类型的垃圾评论者检测。随着近年来互联网的高速发展,在利益驱使下,产品评论中已 经出现了大量垃圾评论者,需要对垃圾评论者进行检测,这就对垃圾评论者检测技术提出了一 个挑战:如何构建一个统一有效的产品垃圾评论者原型系统来检测出不同类型的垃圾评论者。 因此,人们迫切希望有一种高效准确的垃圾评论者检测方法,该方法能够检测出不同类型的垃 圾评论者。
发明内容
本发明的目的在于提供一种产品垃圾评论者检测系统,该系统检测速度快,准确度度高, 通用性强。
为实现上述目的,本发明的技术方案是:一种产品垃圾评论者检测系统,包括:
预处理及数据输入模块,用于对回复数据集进行预处理,过滤无效的回复,得到新的回复 数据集,然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输 入模型计算模块;
模型计算模块,包括评论者可信度模型、评论真实度模型和商店可靠性模型,用于迭代计 算评论者可信度、评论真实度和商店可靠性;以及
结果输出模块,用于输出计算得到的评论者可信度,得到最终的检测结果。
进一步的,所述预处理及数据输入模块按如下方法过滤无效的回复:
a)如果回复者在评论数据集中没有评论,则判定该回复者是不可信的回复者,删除该回复 者的回复;
b)删除重复的回复,即删除同一个回复者针对同一个评论者且针对同一个产品的多次回 复,只计一次回复;
c)删除评论者对自己评论的回复。
进一步的,所述评论者可信度模型为:
其中,T(r)为评论者r的评论者可信度,若T(r)>0,表示评论者r为可信评论者;Hr为评 论真实度总和,即评论真实度总和等于评论者r发表的所有评论的评论真实 度之和,nr表示评论者r发表的所有评论的总数,表示评论者r发表的第i条评论的评论 真实度;
所述评论真实度模型,即评论真实度的计算方法为:
其中,H(v)为评论v的评论真实度,R(Γv)为商店Γv的商店可靠性,Γv为评论v评论的商店 id;An(v,Δt)表示在时间间隔Δt内评论v的周围评论的一致性分数,其 中,T(κj),κi、κj分别表示评论i和评论j对应的评论者T(κj)分别表示评论i和评论j对应的评论者的评论者可信度,Sv,a表示与评论v评分一致的评 论的集合,Sv,d表示与评论v评分不一致的评论的集合;α为一参数;U(v)为评论v的回复分数, 用于反映可信回复者的回复对评论的影响,避免垃圾评论者利用回复提高评论的真实度, 其中,rev为认为评论v有用的回复者;Tr(rev)表示回复者rev的回复 者可信度,由于经过预处理后的回复者都可以在评论数据集中找到其相应的评论,因此回复者 即为评论者,回复者可信度即等于评论者可信度,表示所有认为评论v有用的可 信回复者的回复者可信度总和;
所述商店可靠性通过产品满意度反映,所述商店可靠性模型,即商店可靠性的计算方法为:
其中,R(s)为商店s的商店可靠性,PS(i)为商店s第i个产品的产品满意度, m为商店s的总产品数;
所述产品满意度的计算公式为:
其中,u为整个评分系统的评分中间值;n1为评分大于等于评分中间值的可信评论者的数 量,n2为评分小于评分中间值的可信评论者的数量,Us1为评分大于等于评分中间值的评论的集 合,Us2为评分小于评分中间值的评论的集合;ψv为评论v的评分;κv为评论v对应的评论者 id。
进一步的,所述模型计算模块根据输入的评论数据集、回复数据集、评论者集合、回复者 集合、商店集合和产品集合,按如下步骤迭代计算评论者可信度、评论真实度和商店可靠性:
步骤(1)初始化商店s的商店可靠性R(s)=1,评论者r的评论者可信度T(r)=1;
步骤(2)计算评论v的评论真实度H(v);
步骤(3)根据步骤(2)得到的评论真实度,计算评论者r所有评论的评论真实度总和Hr;
步骤(4)根据步骤(3)得到的结果,计算评论者r的评论者可信度T(r);
步骤(5)根据步骤(2)和步骤(4)得到的评论真实度和评论者可信度,计算产品i的产品满意 度PS;
步骤(6)根据步骤(5)得到的产品满意度,计算商店可靠性R(s);
步骤(7)利用步骤(4)和步骤(6)更新的评论者可信度T(r)和商店可靠性R(s)返回步骤(2),重 复步骤(2)-(5)进行迭代,直至第i次迭代和第i+1次迭代得到的评论者可信度的向量ζi和ζi+1满 足1-cos(ζi,ζi+1)<ε,ε为一设定阈值,输出评论者r的评论者可信度。
本发明的有益效果是能够高效准确地检测出垃圾评论者,该系统通用性强,能够检测出不 同类型的垃圾评论者,从而克服了现有的垃圾评论者检测方法存在的问题,具有很强的实用性 和广阔的应用前景。
附图说明
图1是本发明实施例的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明产品垃圾评论者检测系统,如图1所示,包括:预处理及数据输入模块、模型计算 模块和结果输出模块。
预处理及数据输入模块,用于对回复数据集进行预处理,过滤无效的回复,得到新的回复 数据集,然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输 入模型计算模块。所述商店集合是指网上购物平台中所有商店的集合,所述产品集合是指所述 商店集合中商店售卖的所有产品的集合,所述评论数据集是指针对产品集合中产品发表的所有 评论的集合,所有评论的发表者构成评论者集合,所述回复数据集是指针对评论数据集中评论 发表的所有回复的集合,所有回复的发表者构成回复者集合。
所述预处理及数据输入模块按如下方法过滤无效的回复:
a)如果回复者在评论数据集中没有评论,则判定该回复者是不可信的回复者,删除该回复 者的回复;
b)删除重复的回复,即删除同一个回复者针对同一个评论者且针对同一个产品的多次回 复,只计一次回复;
c)删除评论者对自己评论的回复,因为这种回复可能是评论者对自己评论内容的补充。
模型计算模块,包括评论者可信度模型、评论真实度模型和商店可靠性模型,用于迭代计 算评论者可信度、评论真实度和商店可靠性。
评论者可信度模型构建的主要思想是:一个评论者的可信度不是依赖于其评论数量多少, 而是和其所有评论的真实度的总和有关系。如果评论者所写的评论的真实度越高,则其评论者 可信度就越高。所述评论者可信度模型为:
其中,T(r)为评论者r的评论者可信度,若T(r)>0,表示评论者r为可信评论者;Hr为评 论真实度总和,即评论真实度总和等于评论者r发表的所有评论的评论真实 度之和,nr表示评论者r发表的所有评论的总数,表示评论者r发表的第i条评论的评论 真实度。
评论真实度模型构建的主要思想是:评论真实度受周围评论的一致性分数、回复者的回复 分数、商店的可靠性三个因素的影响。所述评论真实度模型,即评论真实度的计算方法为:
其中,H(v)为评论v的评论真实度,R(Γv)为商店Γv的商店可靠性,Γv为评论v评论的商店 id;An(v,Δt)表示在时间间隔Δt内评论v的周围评论的一致性分数;α为一参数;U(v)为评论v 的回复分数,用于反映可信回复者的回复对评论的影响,避免垃圾评论者利用回复提高评论的 真实度。
计算评论周围一致性分数时做了如下假设:评论的评分可以反映评论的观点信息,即两条 评论关于同一家商店有相似的评分,(例如,评分5和评分4相似,评分2和评分1相似。)则 认为这样的两条评论对于这家商店有相似的观点。如果一条评论和周围评论大部分一致,则其 周围一致性就越高,反之,周围一致性就越低。同时,还考虑了周围评论的评论者可信度。周 围评论的一致性分数的表达式为:
其中,κi、κj分别表示评论i和评论j对应的评论者 id,T(κi)、T(κj)分别表示评论i和评论j对应的评论者的评论者可信度,Sv,a表示与评论v评 分一致(如果|ψi-ψv|<δ,其中,ψi是评论i的评分,ψv是评论v的评分,δ是阈值,则认为 评论i与评论v评分一致)的评论的集合,Sv,d表示与评论v评分不一致(如果|ψi-ψv|>δ,则 认为评论i与评论v评分不一致)的评论的集合。
计算回复分数时做了如下假设:回复者对评论的回复可反应其他人对这条评论的认可程度, 从而间接反应出评论的书写者是否是可信的。如果一条评论有越多的可信度高的回复者对其回 复,并且认为这条评论有用,则这条评论的真实度越高。反之,如果越多可信度高的回复者认 为这条评论没有用,则认为这条评论是不真实的。回复分数的表达式为:
其中,rev为认为评论v有用的回复者;Tr(rev)表示回复者rev的回复者可信度,由于回复者 是对评论进行评论,因此回复者也是一个评论者;同时,经过预处理后的回复者都可以在评论 数据集中找到其相应的评论,因此回复者即为评论者,回复者可信度即等于评论者可信度,回 复者可信度的计算方法与评论者可信度的计算方法完全相同。表示所有认为评论 v有用的可信回复者的回复者可信度总和。
所述商店可靠性通过产品满意度反映,如果产品满意度越高,商店可靠性就越高,反之, 则商店可靠性就越低。所述商店可靠性模型,即商店可靠性的计算方法为:
其中,R(s)为商店s的商店可靠性,PS(i)为商店s第i个产品的产品满意度, m为商店s的总产品数。
产品满意度的假设:对于一个商店,如果书写正面评论的可信评论者比例高,并且这些正 面评论的真实度也是高的,则其商店可靠性会更高;相反,如果书写负面评论的可信评论者比 例高,并且这些正面评论的真实度也很高,则其商店可靠性会降低。所述产品满意度的计算公 式为:
其中,u为整个评分系统的评分中间值;n1为评分大于等于评分中间值的可信评论者的数 量,n2为评分小于评分中间值的可信评论者的数量,Us1为评分大于等于评分中间值的评论的集 合,Us2为评分小于评分中间值的评论的集合;ψv为评论v的评分;κv为评论v对应的评论者 id。
结果输出模块,用于输出计算得到的评论者可信度,得到最终的检测结果。
所述模型计算模块根据输入的评论数据集、回复数据集、评论者集合、回复者集合、商店 集合和产品集合,按如下步骤迭代计算评论者可信度、评论真实度和商店可靠性:
步骤(1)初始化商店s的商店可靠性R(s)=1,评论者r的评论者可信度T(r)=1;
步骤(2)计算评论v的评论真实度H(v);
步骤(3)根据步骤(2)得到的评论真实度,计算评论者r所有评论的评论真实度总和Hr;
步骤(4)根据步骤(3)得到的结果,计算评论者r的评论者可信度T(r);
步骤(5)根据步骤(2)和步骤(4)得到的评论真实度和评论者可信度,计算产品i的产品满意 度PS;
步骤(6)根据步骤(5)得到的产品满意度,计算商店可靠性R(s);
步骤(7)利用步骤(4)和步骤(6)更新的评论者可信度T(r)和商店可靠性R(s)返回步骤(2),重 复步骤(2)-(5)进行迭代,直至第i次迭代和第i+1次迭代得到的评论者可信度的向量ζi和ζi+1满 足1-cos(ζi,ζi+1)<ε,输出评论者r的评论者可信度。其中,ε为一设定阈值,在本实施例中, ε=5×10-4。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出 本发明技术方案的范围时,均属于本发明的保护范围。
机译: 密封条带有一种具有可复制特性的产品,以及带有或不带有天然和/或化学杀虫剂和/或杀幼虫剂的产品,从而限制了污垢的出现以及在组合垃圾桶和垃圾桶时产生的污垢
机译: 一种用于有选择地收集存储在容器中,例如特别是垃圾箱中的产品的车辆,所述产品例如尤其是家用的废料
机译: 一种将垃圾焚烧产品加工成环保产品的方法,特别是对于建筑应用