首页> 中国专利> 一种基于归纳意识的虚假新闻可解释性检测系统及方法

一种基于归纳意识的虚假新闻可解释性检测系统及方法

摘要

本发明公开了一种基于归纳意识的虚假新闻可解释性检测系统及方法,通过探索评论线程中立场的演化规律和层次性结构特征,以发现有价值的质疑新闻的评论子链,克服了现有技术在评论之间关联性挖掘以及相互影响缺失的不足。本发明以跨学科知识与神经网络模型相结合,探索假新闻评论树中评论节点间的语义关联挖掘与相互影响性挖掘;自底向上进化树网络考虑了两种社会心理学理论来研究评论线索中立场的进化规律,以强化质疑新闻的有价值的评论;本发明提出的自顶向下协调树网络协调了父节点和兄弟节点之间的信息吸收,增强了评论的层次结构,并将其与进化树网络特征融合得到有价值的评论,凸显评论子链,增强验证结果的可解释性。

著录项

  • 公开/公告号CN112711951A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202110008758.X

  • 申请日2021-01-05

  • 分类号G06F40/30(20200101);G06F40/216(20200101);G06F16/9536(20190101);G06Q50/00(20120101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人朱海临

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明涉及一种基于归纳意识的感知演化与协调树网络的虚假新闻可解释性检测系统及方法。

背景技术

社交媒体的发展为虚假新闻的生产和传播打开了便利之门。与真实可靠的新闻内容相比,经过策划和包装的虚假新闻更容易吸引受众的关注与消费。世卫组织总干事将这一问题定义为信息疫情,称假新闻比病毒本身传播地更快、更容易。因此,如何检测和分析假新闻,并采取干预措施来减少假新闻的传播成为当前社交媒体领域迫切解决的问题之一。

典型的假新闻检测方法通常围绕新闻内容提取其文本特征,如语义、情感、文体风格等特征,并采用监督学习(如CNN、RNN)进行二值化分类。由于社交媒体中信息内容的丰富,出现了图像、视频等多模态语义信息,以及各种上下文信息。研究者还研究了用户画像特征和转发传播特征。此外,用户评论作为补充语义已经被证明有助于提高假新闻检测的性能,特别是评论中的立场被广泛利用。目前,通用的方法是在假新闻检测和评论立场检测之间构建多任务学习模型以捕捉两个任务之间的共同特征,从而提高模型性能。然而,基于评论立场检测假新闻的多任务学习方法虽然有效,但往往将评论树中的评论视为独立的个体,缺乏对评论之间相关性进行有效地探索,因为后续的评论语义和姿态可能会受到当前或以前评论的影响或干扰。具体来说,它们忽略了评论对话线程中评论之间的关系,包括评论的层次和评论中立场的演变过程。

发明内容

本发明的目的在于解决现有技术中的问题,提供一种基于归纳意识的虚假新闻可解释性检测系统及方法,本发明以探索评论线程中立场的演化规律和层次结构,发现有价值的评论子链质疑新闻,用来解释假新闻检测的效果。本发明不仅提高了假新闻检测性能,还提供了检测过程的透明性以及检测结果的可解释性。

为达到上述目的,本发明采用以下技术方案予以实现:

一种基于归纳意识的虚假新闻可解释性检测方法,包括以下步骤:

步骤1,利用Bi-GRU学习每个推文t

步骤2,建立自底向上的演化树递归网络,逐步合并子节点到父节点,最终形成一个代表整个评论线程的向量;以倒序的时间顺序从下到上遍历整个评论对话线程,从而获得一个包含许多评论子链的评论序列;

步骤3,考虑单个评论立场与其所在的评论子链之间的关联性,借助社会心理学知识,即利用性叠加理论和保守性偏差理论来评价当前节点与之前节点之间的关系;

步骤4,构建显著性打分函数s(·)和合成向量p(·)来计算在一个评论子链中第i个节点以及之前(i-1)个节点之间合并程度;打分函数s(·)用于衡量评论子链中第 i个节点需要加强的程度,合成向量p(·)表示两个节点的融合程度;

步骤5,基于两种社会心理学理论,对显著性得分进行细化:

1)两个相邻节点合并的概率τ:

τ(a

2)节点及其子链的语义差异

其中,

3)评论立场间的差异φ:

其中,φ(·)表示第i个节点和前(i-1)个节点的评论立场之间的差异;d

4)节点的时效性ψ:

ψ(t

其中,t

步骤6,显著性得分:

步骤7,计算合成向量p(·):

p(i,i-1)=s(i,i-1)m(i,i-1) (7)

步骤8,合并整个评论子链中所有节点为:

步骤9,利用TreeLSTM实现复合函数m(·);TreeLSTM产生一个隐藏状态向量h′以及在给定两个输入向量a

c′=c′

h′=o′+tanh(c′) (11)

其中,U和b是可训练的参数,⊙表示点乘操作;

步骤10,遍历包含多个评论子链的整个评论序列,经过演化合并后,演化树网络将在评论线程中凸显出质疑新闻的有价值评论,最终的可学习表示记为BE。

步骤11,构建自上而下的协调树网络来协调父节点和兄弟节点之间的信息吸收;

步骤12,对协调树网络进行更新:

其中,下标in、fo、hf、c和o分别用于输入门、暂时遗忘门、分层遗忘门、细胞单元和输出;向量in

步骤13,经过遍历之后,得到整个会话线程的表示,记为TC;

步骤14,将演化树网络获取的质疑新闻的评论与协调树网络获取的评论的层次结构信息进行整合,得到有价值的质疑新闻的评论子链:

F=[BE;TC] (15)。

本发明进一步的改进在于:

所述步骤11的具体方法如下:

按时间顺序从上到下遍历整个注释树,假设π(t)代表t的父节点,k(t)表示其子节点,p(t)是在时间上的同一层次的之前的兄弟节点,s(t)表示其同一层次的后继者。

一种基于归纳意识的虚假新闻可解释性检测系统,包括:

输入嵌入模块,所述输入嵌入模块用于学习对话的上下文语义隐层表示;

演化树网络,所述演化树网络用于捕捉对新闻提出质疑的有价值的评论;

协调树网络,所述协调树网络用于放大评论子链,解释验证结果;

任务学习模块,所述任务学习模块将演化树获得的立场演化语义与协调树网络捕获的评论层次结构语义进行整合,并输入到Softmax中进行概率分布的预测。

一种基于归纳意识的虚假新闻可解释性检测终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比,本发明具有以下有益效果:

本发明公开了一种基于归纳意识感知演化与协调树网络的虚假新闻可解释性检测方法,通过探索评论线程中立场的演化规律和层次性结构特征,以发现有价值的质疑新闻的评论子链,克服了现有技术在评论之间关联性挖掘以及相互影响缺失的不足。

本发明首次提出了一种跨学科知识与神经网络模型相结合的方式,探索假新闻评论树中评论节点间的语义关联挖掘与相互影响性挖掘,有效提供了可解释性假新闻检测的理论支撑;自底向上进化树网络考虑了两种社会心理学理论来研究评论线索中立场的进化规律,以强化质疑新闻的有价值的评论;本发明提出的自顶向下协调树网络协调了父节点和兄弟节点之间的信息吸收,增强了评论的层次结构,并将其与进化树网络特征融合得到有价值的评论,凸显评论子链,增强验证结果的可解释性;在两个真实数据集上进行的广泛实验证实了与最先进的模型相比本发明具有更加良好的性能。

附图说明

为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明的架构图;

图2为本发明在RumourEval和PHEME两个数据集下的实验性能图;

图3为本发明的不同模块在RumourEval和PHEME两个数据集下的分离性能对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。

在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述:

参见图1,本发明实施例公开了一种基于归纳意识的虚假新闻可解释性检测系统,包括:

输入嵌入模块:考虑到一个真实的Twitter对话树形进程的嵌入表示,采用对该序列按时间顺序展开并采用Bi-GRU学习其上下文语义隐层表示。

自底向上演化树网络:为了探索评论立场的演变规律,建立自低向上的进化树网络,整合两种社会心理学理论,包括可利用性叠加与保守主义偏见,以捕捉对新闻提出质疑的有价值的评论。

自顶向下协调树网络:为了加强评论线程的层次关系,提出了一种自上而下的协调树网络来调整父节点和兄弟节点之间信息语义的吸收,用以放大评论子链,解释验证结果。

任务学习模块:将演化树获得的立场演化语义与协调树网络捕获的评论层次结构语义进行整合,并输入到Softmax中进行概率分布的预测。

本发明实施例公开了一种基于归纳意识的虚假新闻可解释性检测方法,包括以下步骤:

阶段0:数据初始化

步骤0:考虑到一个Twitter对话进程C,其包含一个源推文t

步骤1:利用Bi-GRU来学习每个推文t

阶段1:自底向上演化树网络

步骤2:为了凸显有价值的质疑新闻的评论从而更好地表达评论线程中新闻的语义,建立一个自底向上的演化树递归网络(BETN)逐步合并子节点到父节点,最终形成一个向量来代表整个评论线程。首先,以倒序的时间顺序从下到上遍历整个评论对话线程,从而获得一个包含许多评论子链的评论序列。

步骤3:注意到第i个评论立场的产生可能会受到评论子链中以前的i-1评论立场的影响。本发明深层次地考虑了单个评论立场与其所在的评论子链之间的关联性,借助社会心理学知识,即可利用性叠加理论和保守性偏差理论来评价当前节点(第i条评论)与之前节点之间的关系。

步骤4:本发明构建了一个显著性打分函数s(·)和合成向量p(·)来计算在一个评论子链中第i个节点以及之前(i-1)个节点之间合并程度。s(·)负责衡量评论子链中第i个节点需要加强的程度,p(·)表示两个节点的融合程度。

步骤5:基于这两种社会心理学理论,显著性得分主要从以下几个方面细化:

1)两个相邻节点合并的概率。利用一个可学习的参数矩阵S,本发明借助一个双线性函数实现两个相邻节点的合并概率,从而评估节点语义的增强程度。

τ(a

2)节点及其子链的语义差异。

其中,

3)评论立场间的差异。φ(·)用来调查第i个节点和前(i-1)个节点的评论立场之间的差异。差异越大,第i条评论的立场就越明显。

其中,d

4)节点的时效性。本发明运用幂律定律对最新评论进行轻微强化,以突出最新可能的谣言辟谣的声音。

ψ(t

5)其中,t

步骤6:最后,显著性得分可以描述为:

步骤7:合成向量p(·)可被计算为:

p(i,i-1)=s(i,i-1)m(i,i-1) (7)

步骤8:整个评论子链中所有节点的合并结果表示为:

步骤9:本发明利用TreeLSTM来实现复合函数m(·)。TreeLSTM产生一个隐藏状态向量h′以及在给定两个输入向量a

c′=c′

h′=o′+tanh(c′) (11)

其中,U和b是可训练的参数,⊙表示点乘操作。特别地,这里的h代表着本发明架构图中的

步骤10:以上述方式遍历包含多个评论子链的整个评论序列,经过演化合并后,演化树网络将在评论线程中凸显出质疑新闻的有价值评论,最终的可学习表示记为BE(也就是

阶段2:自顶向下协调树网络

步骤11:考虑到自底向上演化树网络并没有有效地考虑评论结构的层次性,因此本发明构建了自上而下的协调树网络(TCTN)来协调父节点和兄弟节点之间的信息吸收,加强层次性关系。具体来说,首先按时间顺序从上到下遍历整个注释树,假设π(t)代表t的父节点,k(t)表示其子节点,p(t)是在时间上的同一层次的之前的兄弟节点,s(t)表示其同一层次的后继者。在本架构图的自顶向下协调树网络中,以节点t

步骤12:下面本发明提供自顶向下协调树网络的更新过程,使用下标in、fo、 hf、c和o分别用于输入门、暂时遗忘门、分层遗忘门、细胞单元和输出。向量 in

步骤13:最终,经过遍历之后,我们得到了整个会话线程的表示记为TC(也就是h

步骤14:本发明将自底向上演化树网络获取的质疑新闻的评论与自顶向下协调树网络获取的评论的层次结构信息进行整合,从而得到有价值的质疑新闻的评论子链。

F=[BE;TC] (15)

·阶段3:任务学习

步骤15:在两个网络的TreeLSTM单元的顶部,将自底向上和自顶向下的状态向量连接并传递到softmax层,以预测概率分布,并对具有真实标签y的训练样本进行交叉熵误差最小化:

p=softmax(W

loss=-∑ylogp (17)

本发明方法适用于社交网络环境,且能够具有丰富的层次性评论特征的社交媒体网络环境中。

本发明一实施例提供的装置。该实施例包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块 /单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。

所终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号