首页> 中国专利> 一种基于注意力机制与双向GRU网络的水军评论检测系统及方法

一种基于注意力机制与双向GRU网络的水军评论检测系统及方法

摘要

本发明涉及一种基于注意力机制与双向GRU网络的水军评论检测系统及方法,包括步骤:将输入的评论数据分为文本信息评论、用户‑产品关系信息评论和用户交互行为信息评论;对用户交互行为信息评论进行特征抽取获得行为特征,对用户‑产品关系信息评论进行特征抽取得到用户‑产品关系特征,对文本信息评论进行特征抽取获得文本特征;将得到的行为特征、用户‑产品关系特征以及文本特征进行拼接得到评论的最终表示向量,并将该向量输入至集成学习模块中,用分类函数得到评论最终的分类结果。本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。

著录项

  • 公开/公告号CN112200638A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN202011188943.3

  • 申请日2020-10-30

  • 分类号G06Q30/06(20120101);G06F16/35(20190101);G06F40/30(20200101);G06N3/04(20060101);G06N3/00(20060101);

  • 代理机构35100 福州元创专利商标代理有限公司;

  • 代理人钱莉;蔡学俊

  • 地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明涉及数据处理技术领域,特别是一种基于注意力机制与双向GRU网络的水军评论检测系统及方法。

背景技术

随着互联网的飞速发展,人们在电子商务、社交网站等平台发表对各领域的观点评论,消费者和企业以在线评论为参考进行购买、产品设计和制定营销策略等,而水军评论是指评论者发布带有欺骗性信息或者恶意贬低商品的评论。网络水军评论检测任务旨在检测出互联网平台上水军发布的这种带有倾向性的虚假评论,可以广泛的应用于营销事件分析、用户粘性分析等领域,提升互联网信息的利用率。

目前,网络水军评论检测的研究方法主要分为三大类:(1)基于文本特征的方法。该方法通常利用传统方法进行文本特征提取,然后利用分类器对评论文本进行分类。传统的文本特征提取方法是通过计算文本相似度或者提取常用特征词、上下文语义等特征,使用朴素贝叶斯、支持向量机等分类器对评论文本进行分类。该类方法对于特征的提取和构造需要大量的计算资源,同时特征的好坏也决定了分类性能的好坏;(2)基于行为特征的方法。由于网络水军的行为是一种异常用户行为,因此该类方法通常利用可疑用户的交互数据、用户的可信度等行为特征,同时结合张量分解、马尔科夫算法、时间序列特征[等方法提取用户的行为特征,最后构造朴素贝叶斯模型、支持向量机或者softmax分类器进行分类。该类方法的用户行为特征依赖于人工观察分析,需要耗费大量资源且在数据量较少的情况下性能不佳;(3)融合内容特征和行为特征的方法。该类方法是同时考虑了用户行为特征和评论文本数量信息,利用知识图谱中的TransE、半监督模型等方法从用户和目标产品中的关系提取用户特征表示和文本特征表示,将整体特征进行分类。该类方法对于大数据集而言,时间复杂度较大。

随着深度学习的快速发展,基于注意力机制的表示学习模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这些模型用于水军评论的分类。这类方法首先将文本特征提取出来,然后构建一个注意力机制模块,定义不同单词的权重值,将各个带有权重的特征向量进行拼接,最后利用支持向量机对所样本进行训练建模。注意机制可以为每个训练样本学习文本和行为特征的动态权重,大幅度提升了信息的利用率。

但上述方法缺乏对用户交互行为中隐藏的信息特征的考虑,同时未充分考虑到网络文本的空间结构、单词位置关系等特征。

发明内容

有鉴于此,本发明的目的是提出一种基于注意力机制与双向GRU网络的水军评论检测系统及方法,能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。

本发明采用以下方案实现:一种基于注意力机制与双向GRU网络的水军评论检测方法,具体包括以下步骤:

将输入的评论数据分为文本信息评论、用户-产品关系信息评论和用户交互行为信息评论;对用户交互行为信息评论进行特征抽取获得行为特征,对用户-产品关系信息评论进行特征抽取得到用户-产品关系特征,对文本信息评论进行特征抽取获得文本特征;

将得到的行为特征、用户-产品关系特征以及文本特征进行拼接得到评论的最终表示向量,并将该向量输入至集成学习模块中,用分类函数得到评论最终的分类结果。

进一步地,所述对用户交互行为信息评论进行特征抽取获得行为特征具体为:

步骤S11:对每个评论,计算其与其他所有用户对此商品评论的平均等级差rank_diff:

rank_diff=Review_rank–avg(Review_rank(others));

式中,Review_rank表示当前评论对当前商品的评论等级,Review_rank表示其他所有用户对当前商品的平均评论等级;

步骤S12:定义评论中的等级分布信息熵,用每个用户对商品评论中的打分情况,判断该用户的打分是否分布集中,计算等级分布信息熵H(U):

式中,p

步骤S13:将每个评论进行one-hot编码后得到评论序列S1与S2:

S1={x1,x2,x3…xi},S2={y1,y2,y3…yi}

其中S1表示评论集合,xi表示单条评论,S2表示共同商品评论集合,yi表示xi的共同商品评论;利用得到的评论的one-hot序列,应用余弦相似度计算的方法,检测评论x与其他同商品评论y的文本相似度cos(θ):

式中,n表示评论总数。

步骤S14:使用concatenate将离散的rank_diff、H(U)以及cos(θ)用户行为特征拼接得到最终的行为特征表示。

进一步地,所述对用户-产品关系信息评论进行特征抽取得到用户-产品关系特征具体为:

将用户-产品关系信息评论先进行归一化得到用户关系三元组(评论-用户-产品),然后经过两次主成分分析算法提取主元,并将其作为用户-产品关系特征。

进一步地,所述对文本信息评论进行特征抽取获得文本特征具体为:

利用Glove词向量表将文本信息评论进行预处理,得到词向量表示w

进一步地,所述集成学习模块包括一个以上的分类器以及一个融合层,所述一个以上的分类器用以对输入的评论的最终表示向量分别进行分类预测,所述融合层用以对各分类器输出的结果进行融合,得到最终的分类结果。

本发明还提供了一种基于注意力机制与双向GRU网络的水军评论检测系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。

与现有技术相比,本发明有以下有益效果:本发明提出的系统及方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出分类结果。

附图说明

图1为本发明实施例的原理框图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供了一种基于注意力机制与双向GRU网络的水军评论检测方法,具体包括以下步骤:

步骤A:将输入的评论数据分为文本信息评论、用户-产品关系信息评论和用户交互行为信息评论;对用户交互行为信息评论进行特征抽取获得行为特征,对用户-产品关系信息评论进行特征抽取得到用户-产品关系特征,对文本信息评论进行特征抽取获得文本特征;

步骤B:将得到的行为特征、用户-产品关系特征以及文本特征进行Concatenate拼接得到评论的最终表示向量,并将该向量输入至集成学习模块中,用分类函数得到评论最终的分类结果。

在本实施例中,所述对用户交互行为信息评论(例如用户之间的评论互相点赞或转发关系,用户评论总数等)进行特征抽取获得行为特征具体为:

步骤S11:对每个评论,计算其与其他所有用户对此商品评论的平均等级差rank_diff,水军评论往往会与大部分正常用户的打分相差较大:

rank_diff=Review_rank–avg(Review_rank(others));

式中,Review_rank表示当前评论对当前商品的评论等级,Review_rank表示其他所有用户对当前商品的平均评论等级;

步骤S12:定义评论中的等级分布信息熵,用每个用户对商品评论中的打分情况,判断该用户的打分是否分布集中,计算等级分布信息熵H(U):

式中,p

步骤S13:将每个评论进行one-hot编码后得到评论序列S1与S2:

S1={x1,x2,x3…xi},S2={y1,y2,y3…yi}

其中S1表示评论集合,xi表示单条评论,S2表示共同评论集合,yi表示xi的共同商品评论;利用得到的评论的one-hot序列,应用余弦相似度计算的方法,检测评论x与其他同商品评论y的文本相似度cos(θ),相似度越高越有可能是水军评论:

式中,n表示评论总数。

步骤S14:使用concatenate将离散的rank_diff、H(U)以及cos(θ)用户行为特征拼接得到最终的行为特征表示。

在本实施例中,所述对用户-产品关系信息评论进行特征抽取得到用户-产品关系特征具体为:

将用户-产品关系信息评论先进行归一化得到用户关系三元组(评论-用户-产品),然后经过两次主成分分析算法提取主元,并将其作为用户-产品关系特征。

在本实施例中,所述对文本信息评论进行特征抽取获得文本特征具体为:

利用Glove词向量表将文本信息评论进行预处理,得到词向量表示w

在本实施例中,所述集成学习模块包括一个以上的分类器以及一个融合层,所述一个以上的分类器用以对输入的评论的最终表示向量分别进行分类预测,所述融合层用以对各分类器输出的结果进行融合,得到最终的分类结果。本实施例分别采用随机森林、KNN和GBDT进行学习和拟合提取的特征,然后将预测结果映射成新的数据集,将新的数据集输入到XGBoost分类器(融合层)中进行预测分类。

在本实施例中,在训练阶段,权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数:

实验中每一步增加一个基分类器f

本实施例还提供了一种基于注意力机制与双向GRU网络的水军评论检测系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号