首页> 中国专利> 一种产品垃圾评论者检测系统

一种产品垃圾评论者检测系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种产品垃圾评论者检测系统，包括：预处理及数据输入模块，用于对回复数据集进行预处理，过滤无效的回复，得到新的回复数据集，然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输入模型计算模块；模型计算模块，包括评论者可信度模型、评论真实度模型和商店可靠性模型，用于迭代计算评论者可信度、评论真实度和商店可靠性；以及结果输出模块，用于输出计算得到的评论者可信度，得到最终的检测结果。该系统检测速度快，准确度高，通用性强。

著录项

公开/公告号CN103745001A

专利类型发明专利
公开/公告日2014-04-23

原文格式PDF
申请/专利权人福州大学;
展开▼

申请/专利号CN201410034998.7
发明设计人陈国龙;廖祥文;林秀娇;刘月;魏晶晶;
展开▼

申请日2014-01-24
分类号G06F17/30(20060101);
代理机构35100 福州元创专利商标代理有限公司;
代理人蔡学俊
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区
入库时间 2024-02-19 23:15:09

法律信息

法律状态公告日

法律状态信息

法律状态
2016-10-05

授权

授权
2014-05-21

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140124

实质审查的生效
2014-04-23

公开

公开

说明书

技术领域

本发明涉及垃圾评论者识别技术领域，更具体地，涉及一种产品垃圾评论者检测系统。

背景技术

当前，有很多技术方法可用于产品垃圾评论者检测。传统的垃圾评论者检测采用检测评论者行为的方法，该方法能够准确地检测出具有特定类型的垃圾评论者，如发表重复评论的垃圾评论者。但是对于发表非重复评论的垃圾评论者，则无法检测。另一方面，现在的大部分的垃圾评论者为了避免被识别，不会写大量的重复评论。

在现有技术中，还存在着一些新式的垃圾评论者检测技术方法。新式的垃圾评论者检测方法利用评论者、评论、商店的关系检测垃圾评论者。新式的垃圾评论者检测方法迭代计算每个评论者的可信度，评论者可信度与他所发表的评论真实度有关，真实度越高其可信度就越高；真实度与商店可靠性有关，而商店可靠度和评论者可信度有关。

然而，新式垃圾评论者检测有其自身的特点，与传统垃圾评论者检测有所不同。新式的垃圾评论者检测方法典型地使用评论数据的内部关系，不仅能检测出写重复评论的垃圾评论者，而且能检测出发表非重复的垃圾评论者。

目前的垃圾评论者检测方法没有充分考虑新式垃圾评论者检测的结构特点，而且只能适用于特定类型的垃圾评论者检测。随着近年来互联网的高速发展，在利益驱使下，产品评论中已经出现了大量垃圾评论者，需要对垃圾评论者进行检测，这就对垃圾评论者检测技术提出了一个挑战：如何构建一个统一有效的产品垃圾评论者原型系统来检测出不同类型的垃圾评论者。因此，人们迫切希望有一种高效准确的垃圾评论者检测方法，该方法能够检测出不同类型的垃圾评论者。

发明内容

本发明的目的在于提供一种产品垃圾评论者检测系统，该系统检测速度快，准确度度高，通用性强。

为实现上述目的，本发明的技术方案是：一种产品垃圾评论者检测系统，包括：

预处理及数据输入模块，用于对回复数据集进行预处理，过滤无效的回复，得到新的回复数据集，然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输入模型计算模块；

模型计算模块，包括评论者可信度模型、评论真实度模型和商店可靠性模型，用于迭代计算评论者可信度、评论真实度和商店可靠性；以及

结果输出模块，用于输出计算得到的评论者可信度，得到最终的检测结果。

进一步的，所述预处理及数据输入模块按如下方法过滤无效的回复：

a)如果回复者在评论数据集中没有评论，则判定该回复者是不可信的回复者，删除该回复者的回复；

b)删除重复的回复，即删除同一个回复者针对同一个评论者且针对同一个产品的多次回复，只计一次回复；

c)删除评论者对自己评论的回复。

进一步的，所述评论者可信度模型为：

$T (r) = \frac{2}{1 + e^{{- H}_{r}}} - 1$

其中，T(r)为评论者r的评论者可信度，若T(r)＞0，表示评论者r为可信评论者；H_r为评论真实度总和，即评论真实度总和等于评论者r发表的所有评论的评论真实度之和，n_r表示评论者r发表的所有评论的总数，表示评论者r发表的第i条评论的评论真实度；

所述评论真实度模型，即评论真实度的计算方法为：

$H (v) = \frac{| R (Γ_{v}) | A_{n} (v, Δt) + αU (v)}{1 + α}$

其中，H(v)为评论v的评论真实度，R(Γ_v)为商店Γ_v的商店可靠性，Γ_v为评论v评论的商店 id；A_n(v,Δt)表示在时间间隔Δt内评论v的周围评论的一致性分数，其中，T(κ_j)，κ_i、κ_j分别表示评论i和评论j对应的评论者T(κ_j)分别表示评论i和评论j对应的评论者的评论者可信度，S_v,a表示与评论v评分一致的评论的集合，S_v,d表示与评论v评分不一致的评论的集合；α为一参数；U(v)为评论v的回复分数，用于反映可信回复者的回复对评论的影响，避免垃圾评论者利用回复提高评论的真实度，其中，re_v为认为评论v有用的回复者；Tr(re_v)表示回复者re_v的回复者可信度，由于经过预处理后的回复者都可以在评论数据集中找到其相应的评论，因此回复者即为评论者，回复者可信度即等于评论者可信度，表示所有认为评论v有用的可信回复者的回复者可信度总和；

所述商店可靠性通过产品满意度反映，所述商店可靠性模型，即商店可靠性的计算方法为：

$R (s) = \frac{2}{1 + e^{- θ}} - 1$

其中，R(s)为商店s的商店可靠性，PS(i)为商店s第i个产品的产品满意度， m为商店s的总产品数；

所述产品满意度的计算公式为：

$PS (i) = \frac{n_{1} Σ_{v \in U_{s 1}, T (κ_{v}) > 0} T (κ_{v}) (ψ_{v} - u) | H (v) | + n_{2} Σ_{v \in U_{s 2}, T (κ_{v}) > 0} T (κ_{v}) (ψ_{v} - u) | H (v) |}{n_{1} + n_{2}}$

其中，u为整个评分系统的评分中间值；n₁为评分大于等于评分中间值的可信评论者的数量，n₂为评分小于评分中间值的可信评论者的数量，U_s1为评分大于等于评分中间值的评论的集合，U_s2为评分小于评分中间值的评论的集合；ψ_v为评论v的评分；κ_v为评论v对应的评论者 id。

进一步的，所述模型计算模块根据输入的评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合，按如下步骤迭代计算评论者可信度、评论真实度和商店可靠性：

步骤(1)初始化商店s的商店可靠性R(s)=1，评论者r的评论者可信度T(r)=1；

步骤(2)计算评论v的评论真实度H(v)；

步骤(3)根据步骤(2)得到的评论真实度，计算评论者r所有评论的评论真实度总和H_r；

步骤(4)根据步骤(3)得到的结果，计算评论者r的评论者可信度T(r)；

步骤(5)根据步骤(2)和步骤(4)得到的评论真实度和评论者可信度，计算产品i的产品满意度PS；

步骤(6)根据步骤(5)得到的产品满意度，计算商店可靠性R(s)；

步骤(7)利用步骤(4)和步骤(6)更新的评论者可信度T(r)和商店可靠性R(s)返回步骤(2)，重复步骤(2)-(5)进行迭代，直至第i次迭代和第i+1次迭代得到的评论者可信度的向量ζ_i和ζ_i+1满足1-cos(ζ_i,ζ_i+1)<ε，ε为一设定阈值，输出评论者r的评论者可信度。

本发明的有益效果是能够高效准确地检测出垃圾评论者，该系统通用性强，能够检测出不同类型的垃圾评论者，从而克服了现有的垃圾评论者检测方法存在的问题，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明产品垃圾评论者检测系统，如图1所示，包括：预处理及数据输入模块、模型计算模块和结果输出模块。

预处理及数据输入模块，用于对回复数据集进行预处理，过滤无效的回复，得到新的回复数据集，然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输入模型计算模块。所述商店集合是指网上购物平台中所有商店的集合，所述产品集合是指所述商店集合中商店售卖的所有产品的集合，所述评论数据集是指针对产品集合中产品发表的所有评论的集合，所有评论的发表者构成评论者集合，所述回复数据集是指针对评论数据集中评论发表的所有回复的集合，所有回复的发表者构成回复者集合。

所述预处理及数据输入模块按如下方法过滤无效的回复：

a)如果回复者在评论数据集中没有评论，则判定该回复者是不可信的回复者，删除该回复者的回复；

b)删除重复的回复，即删除同一个回复者针对同一个评论者且针对同一个产品的多次回复，只计一次回复；

c)删除评论者对自己评论的回复，因为这种回复可能是评论者对自己评论内容的补充。

模型计算模块，包括评论者可信度模型、评论真实度模型和商店可靠性模型，用于迭代计算评论者可信度、评论真实度和商店可靠性。

评论者可信度模型构建的主要思想是：一个评论者的可信度不是依赖于其评论数量多少，而是和其所有评论的真实度的总和有关系。如果评论者所写的评论的真实度越高，则其评论者可信度就越高。所述评论者可信度模型为：

$T (r) = \frac{2}{1 + e^{{- H}_{r}}} - 1$

其中，T(r)为评论者r的评论者可信度，若T(r)＞0，表示评论者r为可信评论者；H_r为评论真实度总和，即评论真实度总和等于评论者r发表的所有评论的评论真实度之和，n_r表示评论者r发表的所有评论的总数，表示评论者r发表的第i条评论的评论真实度。

评论真实度模型构建的主要思想是：评论真实度受周围评论的一致性分数、回复者的回复分数、商店的可靠性三个因素的影响。所述评论真实度模型，即评论真实度的计算方法为：

$H (v) = \frac{| R (Γ_{v}) | A_{n} (v, Δt) + αU (v)}{1 + α}$

其中，H(v)为评论v的评论真实度，R(Γ_v)为商店Γ_v的商店可靠性，Γ_v为评论v评论的商店 id；A_n(v,Δt)表示在时间间隔Δt内评论v的周围评论的一致性分数；α为一参数；U(v)为评论v 的回复分数，用于反映可信回复者的回复对评论的影响，避免垃圾评论者利用回复提高评论的真实度。

计算评论周围一致性分数时做了如下假设：评论的评分可以反映评论的观点信息，即两条评论关于同一家商店有相似的评分，（例如，评分5和评分4相似，评分2和评分1相似。）则认为这样的两条评论对于这家商店有相似的观点。如果一条评论和周围评论大部分一致，则其周围一致性就越高，反之，周围一致性就越低。同时，还考虑了周围评论的评论者可信度。周围评论的一致性分数的表达式为：

$A_{n} (v, Δt) = \frac{2}{1 + e^{- A (v, Δt)}} - 1$

其中，κ_i、κ_j分别表示评论i和评论j对应的评论者 id，T(κ_i)、T(κ_j)分别表示评论i和评论j对应的评论者的评论者可信度，S_v,a表示与评论v评分一致（如果|ψ_i-ψ_v|＜δ，其中，ψ_i是评论i的评分，ψ_v是评论v的评分，δ是阈值，则认为评论i与评论v评分一致）的评论的集合，S_v,d表示与评论v评分不一致（如果|ψ_i-ψ_v|＞δ，则认为评论i与评论v评分不一致）的评论的集合。

计算回复分数时做了如下假设：回复者对评论的回复可反应其他人对这条评论的认可程度，从而间接反应出评论的书写者是否是可信的。如果一条评论有越多的可信度高的回复者对其回复，并且认为这条评论有用，则这条评论的真实度越高。反之，如果越多可信度高的回复者认为这条评论没有用，则认为这条评论是不真实的。回复分数的表达式为：

$U (v) = \frac{2}{1 + e^{{- Σ}_{Tr ({re}_{v}) > 0} Tr ({re}_{v})}} - 1$

其中，re_v为认为评论v有用的回复者；Tr(re_v)表示回复者re_v的回复者可信度，由于回复者是对评论进行评论，因此回复者也是一个评论者；同时，经过预处理后的回复者都可以在评论数据集中找到其相应的评论，因此回复者即为评论者，回复者可信度即等于评论者可信度，回复者可信度的计算方法与评论者可信度的计算方法完全相同。表示所有认为评论 v有用的可信回复者的回复者可信度总和。

所述商店可靠性通过产品满意度反映，如果产品满意度越高，商店可靠性就越高，反之，则商店可靠性就越低。所述商店可靠性模型，即商店可靠性的计算方法为：

$R (s) = \frac{2}{1 + e^{- θ}} - 1$

其中，R(s)为商店s的商店可靠性，PS(i)为商店s第i个产品的产品满意度， m为商店s的总产品数。

产品满意度的假设：对于一个商店，如果书写正面评论的可信评论者比例高，并且这些正面评论的真实度也是高的，则其商店可靠性会更高；相反，如果书写负面评论的可信评论者比例高，并且这些正面评论的真实度也很高，则其商店可靠性会降低。所述产品满意度的计算公式为：

$PS (i) = \frac{n_{1} Σ_{v \in U_{s 1}, T (κ_{v}) > 0} T (κ_{v}) (ψ_{v} - u) | H (v) | + n_{2} Σ_{v \in U_{s 2}, T (κ_{v}) > 0} T (κ_{v}) (ψ_{v} - u) | H (v) |}{n_{1} + n_{2}}$

结果输出模块，用于输出计算得到的评论者可信度，得到最终的检测结果。

所述模型计算模块根据输入的评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合，按如下步骤迭代计算评论者可信度、评论真实度和商店可靠性：

步骤(1)初始化商店s的商店可靠性R(s)=1，评论者r的评论者可信度T(r)=1；

步骤(2)计算评论v的评论真实度H(v)；

步骤(3)根据步骤(2)得到的评论真实度，计算评论者r所有评论的评论真实度总和H_r；

步骤(4)根据步骤(3)得到的结果，计算评论者r的评论者可信度T(r)；

步骤(5)根据步骤(2)和步骤(4)得到的评论真实度和评论者可信度，计算产品i的产品满意度PS；

步骤(6)根据步骤(5)得到的产品满意度，计算商店可靠性R(s)；

步骤(7)利用步骤(4)和步骤(6)更新的评论者可信度T(r)和商店可靠性R(s)返回步骤(2)，重复步骤(2)-(5)进行迭代，直至第i次迭代和第i+1次迭代得到的评论者可信度的向量ζ_i和ζ_i+1满足1-cos(ζ_i,ζ_i+1)<ε，输出评论者r的评论者可信度。其中，ε为一设定阈值，在本实施例中， ε=5×10^-4。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种产品垃圾评论者检测系统 [P] . 中国专利： CN103745001B . 2016.10.05
2. 一种产品垃圾评论者检测系统 [P] . 中国专利： CN103745001A . 2014-04-23
3. SEALING STRIP SCENTED WITH A PRODUCT WITH REPULSIVE PROPERTIES, AND WITH OR WITHOUT NATURAL AND/OR CHEMICAL INSECTICIDE AND/OR LARVICIDE, LIMITING THE PRESENCE OF BUGS AND THE OCCURENCE OF GRUBS IN COMPOSTING BINS AND GARBAGE CANS [P] . CA2829528A1 . 2014-01-24

机译：密封条带有一种具有可复制特性的产品，以及带有或不带有天然和/或化学杀虫剂和/或杀幼虫剂的产品，从而限制了污垢的出现以及在组合垃圾桶和垃圾桶时产生的污垢
4. A vehicle for selective collection of products, such as, in particular waste materials household, stored in containers, such as, in particular of the dustbin [P] . 法国专利： FR2881408B1 . 2008-11-14

机译：一种用于有选择地收集存储在容器中，例如特别是垃圾箱中的产品的车辆，所述产品例如尤其是家用的废料
5. A method of processing the products of waste incineration into products that are environmentally acceptable, especially for architectural applications [P] . 日本专利： JP3261416B2 . 2002-03-04

机译：一种将垃圾焚烧产品加工成环保产品的方法，特别是对于建筑应用