首页> 中国专利> 一种基于语法依赖类型和方面间关联的情感分析方法

一种基于语法依赖类型和方面间关联的情感分析方法

摘要

本发明公开了一种基于语法依赖类型和方面间关联的情感分析方法,包括S1获取需要分析的文本,并通过预训练模型将其转化为词向量表示;S2将特定方面与句子表示的每一个单词进行拼接,并引入语法依赖类型,赋予语法依赖树中重要的依赖类型更大的权重;S3将带有方面感知和语法依赖类型的句子表示作为模型的输入;S4引入方面间关联矩阵,并经由图卷积网络获取到含有方面间关联的句子表示;S5将含有方面间关联的句子表示和含有方面特征的句子表示融合起来;S6得到同时含有方面信息和方面间关联的句子表示后,结合查询向量来判断目标方面的情感极性。本发明提升了模型识别方面间信息以及语法依赖关系的能力。

著录项

  • 公开/公告号CN114781352A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN202210373785.1

  • 发明设计人 刘辉;马祥;

    申请日2022-04-07

  • 分类号G06F40/205;G06F40/253;G06F40/284;G06F16/35;G06N3/04;

  • 代理机构重庆忠言智汇专利代理事务所(普通合伙);

  • 代理人何君苹

  • 地址 400065 重庆市南岸区南山街道崇文路2号

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于语法依赖类型和方面间关联的情感分析方法,主要涉及自然语言处理领域。

背景技术

电子商务的发展产生了大量带有情感极性的评论文本,这些评论文本有着重要的商业价值,吸引着研究人员进行情感分析的研究。通常,一个句子包含几个不同的方面,这些不同的方面之间可能存在着相同或不同的情感。以往的方面级情感分析普遍将各个方面单独考虑,割裂了方面之间的情感联系,具有局限性,甚至有些情况下,目标方面的情感判断,需要借助其他方面的情感才能分析出来。如句子“Themenuisverylimited-Ithinkwecounted4or5entries.”中,方面词“entries”没有明确的情感词,仅考虑后半子句无法判断其情感,而借助方面词“menu”的负向情感则可以判断出方面“entries”的情感为负向。近年来,方面级情感分析研究发展迅速。韩虎等人提出利用知识图谱将背景知识融入到文本中,为句子提供大量的语境信息。李攀等人提出一种基于BERT的记忆网络模型,将记忆网络的输出与方面词的[CLS]向量的注意力充分交互,避免了重要信息的丢失。胡艳丽等人提出使用自注意力机制筛选出最初获取到的特征,再将筛选后的特征采用不同的卷积核送入CNN以提取不同的局部特征,最后再经过自注意力机制筛选出重要信息。Lin等人提出利用位置信息对深度记忆网络的特征进行选择,并设计了跨方面模块来获取方面间的情感关联。Liang等人对语法依赖树进行了修正,以方面词为中心来增强依赖关系图,同时构建方面间关联图来获取方面间的情感依赖。然而现有的大多数研究只关注句子某个方面的情感,而忽略了方面之间的关系。同时大多数研究使用原始的语法依赖树,没有考虑到不同依赖类型对情感极性的影响。

发明内容

针对以上现有技术的不足,本发明提出一种基于语法依赖类型和方面间关联的情感分析方法,解决了传统方法未能考虑不同方面之间的情感关联问题,同时,通过引入语法依赖类型,能够赋予对于目标方面情感判断更重要的语法依赖类型更大的权重,有效地结合了方面间的情感信息和语法信息,提高了在不同数据集上的方面级情感分析的准确性和稳定性。

为达到上述目的,本发明的技术方案是:一种基于语法依赖类型和方面间关联的情感分析方法,其特征在于,该方法具体包括以下步骤:

S1获取需要分析的文本,并通过预训练模型将其转化为词向量表示;

S2将特定方面与句子表示的每一个单词进行拼接,使得句子表示每次只关注特定方面的情感,并引入语法依赖类型,赋予语法依赖树中重要的依赖类型更大的权重,并经由图卷积网络获得包含更多语法信息的句子表示,接着采用注意力层,改善带有方面感知和语法依赖类型的句子表示;

S3将带有方面感知和语法依赖类型的句子表示作为模型的输入,将目标方面作为查询向量,非目标方面通过Bi-GRU使得方面特征在句子表示中进一步传播,然后将所得到含有更多方面特征的句子表示与查询向量之间计算方面间注意力;

S4引入方面间关联矩阵,并经由图卷积网络获取到含有方面间关联的句子表示;

S5将含有方面间关联的句子表示和含有方面特征的句子表示融合起来,并用方面间关联系数控制引入方面间关联特征的多少;

S6得到同时含有方面信息和方面间关联的句子表示后,用方面间注意力控制非目标方面对于目标方面的影响,得到最终的句子表示,结合查询向量来判断目标方面的情感极性。

优选地,步骤S2赋予语法依赖树中重要的依赖类型更大的权重具体为:使用Bi-GRU获取含有方面信息的句子表示,然后引入语法依赖类型,并通过图卷积网络得到含有语法特征的句子表示,并采用注意力层以扩大对于特定方面情感判断有重要作用的单词的影响。

优选地,含有方面信息的句子表示具体过程为:

将方面词a

经过Bi-GRU,将其命名为GRU

聚焦语法依赖类型的图卷积网络具体构造流程分以下几个步骤:首先使用SpaCy获取语法依赖信息,可以用一个依赖元组列表(w

将关系依赖类型矩阵中的元素c

其中,

最终单词w

其中,W

在表示方面感知的句子表示时,引入注意力层来改善方面感知的句子表示

具体操作如下公式所示:

α=softmax(z),

其中

优选地,步骤S3计算方面间注意力具体为:将含有方面间关联和语法依赖类型的句子表示作为输入,将其通过Bi-GRU,使得方面信息进一步在句子表示中传播,得到含有更多方面特征的句子表示,并将目标方面作为查询向量,计算目标方面与非目标方面的方面间注意力。

优选地,计算方面间注意力具体流程:首先将

其中

为得到查询向量与其他方面向量之间的相关性,采用如下方式计算:

β=softm ax(z

其中,

β

基于目标方面的方面间注意力模块,具体流程为:

其中

为得到查询向量与其他方面向量之间的相关性,采用如下方式计算:

β=so ftm ax(z

其中,

β

优选地,步骤S4关联的句子表示具体为:先得到方面间的关联矩阵,然后与方面特征的句子表示一起作为图卷积网络的输入,经由图卷积网络得到方面间关联的句子表示。

优选地,方面间关联的句子表示,具体计算过程为:

首先构建了方面间的邻接矩阵,用于获取方面之间的上下文相关性,具体构造方法如下式所示:

其中,

构造了无方向的邻接矩阵,即

在获取方面间的邻接矩阵之后,将方面间邻接矩阵

其中,ReLU表示激活函数,

最终经过图卷积网络得到的带有方面间关联信息的隐藏表示为:

优选地,步骤S5同时含有方面特征和方面间关联的句子表示具体为:将含有方面特征的句子表示和方面间关联的句子表示融合起来,并引入方面间关联系数,以控制引入的方面间关联信息的多少,最终得到同时含有方面特征和方面间关联的句子表示;

同时含有方面特征和方面间关联的句子表示,具体为:

由上述过程可以得到带有丰富方面信息的句子表示

其中,系数γ∈[0,1]来表示引入方面间特征的多少。

优选地,步骤S6最终的句子表示具体为:将同时含有方面特征和方面间关联的句子表示与方面间注意力相乘,以控制不同的非目标方面对于目标方面的影响,得到最终的句子表示,并与目标方面的查询向量相加后输入到softmax层得到情感分析的最终表示。

优选地,用于情感分析的最终表示,具体表现为:

首先将带有方面间关联的句子表示Q

ρ=softmax((q+o)W

其中,权重矩阵W

其中

本发明的技术原理及有益效果如下:

(1)本发明通过语法依赖类型,赋予更重要的语法依赖关系更大的权重,使得模型能够聚焦于对于目标方面情感分析有益的语法特征,丰富了目标方面的语法特征。

(2)本发明将非目标方面的句子表示进一步通过Bi-GRU,使得方面信息进一步在句子表示中传播后,将目标方面作为查询向量来与非目标方面之间计算方面间注意力,使得与目标方面之间情感关联更大的非目标方面的句子表示可以发挥更重要的作用。

(3)本发明引入方面间关联矩阵,通过图卷积得到方面间关联的句子表示后,又引入方面间关联系数,以控制引入的方面间关联信息的多少,使得引入的方面间信息有益于提升目标方面的情感分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的其中三幅,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基于语法依赖类型和方面间关联的情感分析模型;

图2为带有方面信息和语法依赖类型的特定方面句子表示;

图3为邻接矩阵及语法依赖类型矩阵的构建。

具体实施方式

下面将结合附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的较佳实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

如图1所示,本发明实施例本公开提供了一种基于语法依赖类型和方面间关联的情感分析方法,包括:

S1获取需要分析的文本,并通过预训练模型将其转化为词向量表示,将待分析的文本表示为词向量,具体为:使用GloVe预训练模型将文本转化为计算机可以识别的词向量;

S2将特定方面与句子表示的每一个单词进行拼接,使得句子表示每次只关注特定方面的情感,并引入语法依赖类型,赋予语法依赖树中重要的依赖类型更大的权重,并经由图卷积网络获得包含更多语法信息的句子表示,接着采用注意力层,改善带有方面感知和语法依赖类型的句子表示;

S3将该句子表示作为模型的输入,将目标方面作为查询向量,非目标方面通过Bi-GRU使得方面特征在句子表示中进一步传播,然后将所得到含有更多方面特征的句子表示与查询向量之间计算方面间注意力;

S4引入方面间关联矩阵,并经由图卷积网络获取到含有方面间关联的句子表示;

S5将含有方面间关联的句子表示和含有方面特征的句子表示融合起来,并用方面间关联系数控制引入方面间关联特征的多少;

S6得到同时含有方面信息和方面间关联的句子表示后,用方面间注意力控制非目标方面对于目标方面的影响,得到最终的句子表示,结合查询向量来判断目标方面的情感极性。

进一步的,利用语法依赖类型为语法依赖树中的重要依赖类型赋予更大的权重,具体表现为:使用Bi-GRU获取含有方面信息的句子表示,然后引入语法依赖类型,并通过图卷积网络得到含有语法特征的句子表示,并采用注意力层以扩大对于特定方面情感判断有重要作用的单词的影响。

所述的基于目标方面的方面间注意力模块,具体为:将同时含有方面间关联和语法依赖类型的句子表示作为输入,将其通过Bi-GRU,使得方面信息进一步在句子表示中传播,得到含有更多方面特征的句子表示,并将目标方面作为查询向量,计算目标方面与非目标方面的方面间注意力。

方面间关联的句子表示,具体表现为:先得到方面间的关联矩阵,然后与方面特征的句子表示一起作为图卷积网络的输入,经由图卷积网络得到方面间关联的句子表示。

所述的同时含有方面特征和方面间关联的句子表示,具体为:将含有方面特征的句子表示和方面间关联的句子表示融合起来,并引入方面间关联系数,以控制引入的方面间关联信息的多少,最终得到同时含有方面特征和方面间关联的句子表示。

用于情感分析的最终表示,具体表现为:同时含有方面特征和方面间关联的句子表示与方面间注意力相乘,以控制不同的非目标方面对于目标方面的影响,得到最终的句子表示,并与目标方面的查询向量相加后输入到softmax层得到情感分析的最终表示。

进一步的,获取含有方面信息的句子表示具体过程为:

将方面词a

然后经过Bi-GRU,将其命名为GRU

然后聚焦语法依赖类型的图卷积网络具体构造流程分以下几个步骤:首先使用SpaCy获取语法依赖信息,可以用一个依赖元组列表(w

为了充分利用依赖关系类型,将关系依赖类型矩阵中的元素c

其中,

最终单词w

其中,W

然后,为扩大对于特定方面a

α=softmax(z),

其中

进一步的,所述的基于目标方面的方面间注意力模块,具体流程为:

首先将

其中

为得到查询向量与其他方面向量之间的相关性,采用如下方式计算:

β=softm ax(z

其中,

进一步的,所述的方面间关联的句子表示,具体计算过程为:

首先构建了方面间的邻接矩阵,用于获取方面之间的上下文相关性,具体构造方法如下式所示:

其中,

在获取方面间的邻接矩阵之后,将方面间邻接矩阵

其中,ReLU表示激活函数,

最终经过图卷积网络得到的带有方面间关联信息的隐藏表示为

进一步的,所述的同时含有方面特征和方面间关联的句子表示,具体为:

由上述过程可以得到带有丰富方面信息的句子表示

其中,系数γ∈[0,1]来表示引入方面间特征的多少。

进一步的,所述的用于情感分析的最终表示,具体表现为:

为了引入方面间关联以进一步进行情感分析,更准确地建模目标方面的句子表示,首先将带有方面间关联的句子表示Q

ρ=softmax((q+o)W

其中,权重矩阵W

得到最终表示后,情感极性的预测如下公式所示。

其中

解决了传统方法未能考虑不同方面之间的情感关联问题,同时,通过引入语法依赖类型,能够赋予对于目标方面情感判断更重要的语法依赖类型更大的权重,有效地结合了方面间的情感信息和语法信息,提高了在不同数据集上的方面级情感分析的准确性和稳定性。

为了验证本发明实施例提供的模型在解决方面级情感分析任务中的有效性,采用三种公开数据集进行实验:

包括REST14和LAP14两个数据集。此外,也采用了从社交网站上构建的TWITTER数据集。每个数据集事先打好标签,并分成训练集和测试集,训练集数据用来训练出合适的模型,测试集则用来评判所训练模型的泛化能力。每个数据集均包含三种类别,分别为积极、中性和消极。

实验参数设置:分别采用了GloVe词向量与BERT词向量得到句子和方面词的初始表示,一般GloVe词向量的输入维度为300,而BERT词向量的输入维度为768。如果模型的损失函数连续5个epoch没有下降,则采用early-stop机制终止训练。对于权重矩阵和偏置矩阵,采用均匀分布U(-0.01,0.01)随机初始化,图卷积网络的层数设置为2。其他超参数的设置如表1所示。

表1超参数的设置

采用方面级情感分析中广泛使用的准确率(Accuracy,Acc)和Macro-F1(简称F1值)作为模型的评价指标。准确率是指正确预测的样本占样本总数的比例。Macro-F1将所有类别F1的平均值作为整体样本的F1值。指标的值越大表示分类效果越好。

准确率Acc和F1值的计算如下式所示。

其中,TN表示真负样本,FN表示假负样本,FP表示假正样本,TP表示真正样本。P表示精确率,R表示召回率。

第一,为了验证本文模型的优越性,在三个数据集上进行了对比实验,结果如表2所示。

表2 TWITTER数据集上各模型的准确率与F1值

表3不同模型在REST14和LAP14上的准确率(%)

表4不同模型在REST14和LAP14上的F1值(%)

注:TF-IAGCN为本发明所提模型,加粗数据表示效果最佳。

第二,为进一步验证本发明所提模型对于包含多个方面的句子的情感分析优越性,进一步将REST14和LAP14数据集按照句子中含有单一方面(singleaspect,SA)和多个方面(multipleaspect,MA)划分,如表5所示。各模型在REST14和LAP14数据集中的单一方面和多个方面的准确率如表6所示。

表5 LAP14和REST14中各情感类别中单一方面和多个方面的分布

表6不同方面数目下各模型的准确率(%)

第三,为了验证本发明所提几个模块的有效性,进行了如下几组消融实验,结果如表7所示。

1.w/oTFGCN,TFGCN表示聚焦语法类型的图卷积网络,w/oTFGCN表示在构建嵌入方面的句子表示时,直接用GRU得到的隐藏表示,输入到注意力层,得到嵌入某个方面的句子表示。

2.w/oIaatt,IAatt表示方面间注意力,w/oIAatt表示不计算方面间注意力,直接将含有特定方面的句子表示和方面间关联的句子表示融合起来,与目标方面的查询向量拼接起来用于预测情感。

3.w/oIAGCN,IAGCN表示带有方面间关联的图卷积网络,w/oIAGCN表示不通过方面间关联的图卷积网络提取带有方面间关联的句子表示,仅使用含有特定方面的句子表示,以及方面间注意力生成最终表示。

消融实验的最终结果如表7所示。

表7消融实验结果(%)

上述实施例提供了一种基于语法依赖类型和方面间关联的情感分析模型,并经过实施例验证了所提模型的优越性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号