首页> 中国专利> 一种基于词汇语义和句法依存的情感关键句识别方法

一种基于词汇语义和句法依存的情感关键句识别方法

摘要

本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

著录项

  • 公开/公告号CN104281645A

    专利类型发明专利

  • 公开/公告日2015-01-14

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201410425148.X

  • 发明设计人 冯冲;廖纯;刘至润;黄河燕;

    申请日2014-08-27

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-17 03:00:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-16

    授权

    授权

  • 2015-02-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140827

    实质审查的生效

  • 2015-01-14

    公开

    公开

说明书

技术领域

本发明涉及一种情感关键句识别方法,特别涉及一种基于词汇语 义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领 域。

背景技术

随着我国互联网事业的迅速发展,网络作为一种新型媒体不但成 为各种社会思潮、利益诉求和意识形态较量的场所,而且也成为民众 评议时政、谈论是非、交流观点的集散地。有关网络舆情监测和分析 的研究由此引起研究人员的重视。抽取出一篇文章的情感关键句,对 了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代, 海量信息层出不穷,同时处理这么多信息无疑是件费时费力的事情。 因此,我们需要一种情感关键句抽取技术来帮助我们自动从海量信息 中抽取出与主题相关的情感关键句,这是一项既有学术意义又有实用 意义的研究课题。

情感关键句又叫主题情感句,情感关键句需要包含两个要素:主 题关键词和情感关键词。主题关键词用来概括篇章的主题;情感关键 词用来概括情感倾向。目前,关于情感关键句抽取方面的研究并不多。 总的来说,情感关键句抽取的研究尚不系统和成熟,目前还处于起步 阶段。而中文语言的灵活性及表达的多样性,也使情感关键句抽取的 研究相对更加困难。目前情感关键句抽取的方法大多是基于规则或基 于统计的,鲜有两者结合的方法。而且在抽取过程中只进行了浅层语 义分析,没有挖掘句子的深层信息。

发明内容

本发明的目的是为解决以往在情感关键句识别中不能有效利用 词汇语义和句法依存信息的问题,尽可能发挥不同层级的语义、句法 信息特征,提出一种基于词汇语义和句法依存的情感关键句识别方法。

为实现上述目的,本发明所采用的技术方案如下:

本发明技术方案的思想是首先对语料及其分词结果进行规范化 处理,然后基于一定规则扩展情感词典、创建关键词词典和提取依存 结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键 句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依 存特征,利用这四种特征构造SVM分类器,找到使性能达到最优的 特征形式完成情感关键句的识别。

本发明的具体技术方案如下:

一种基于词汇语义和句法依存的中文情感关键句识别方法,该方 法包括以下步骤:

步骤一、语料预处理:对语料集S的每一个句子进行分词、词性 标注得到带有词性标注的语料集合T;分词以及词性标注可以手工进 行,也可以使用现有的工具,本发明使用中科院的分词工具ICTCLAS 对S自动分词以及词性标注;

步骤二、情感词典扩建:通过分别计算基础情感词典与候选词集 合之间的点间互信息PMI,为每个基础情感词典中的词语选取至多5 个PMI最高的候选词作为扩展词,加入基础情感词典,用这些词加上 其在语料集合中的出现概率生成最终的领域相关的情感词典DEL;

步骤三、关键词词典构建:对于语料集S中的每一篇文章,通过 LDA与textrank相结合的方法,同时采用一种全新的加权方法PCFO为 该文章在各主题建立对应的图模型,最后利用textrank为图中每个节 点,即词语打分,选择得分较高的词语作为本篇文章的关键词,加入 关键词词典KL;

步骤四、依存知识库构建:对语料集S中的每一个句子进行依存 分析,然后通过依存模板提取算法获取依存模板,加入依存知识库 DB;

步骤五、候选情感关键句生成:分别将语料集T中的每一个句子 与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行 匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句, 记候选情感关键句的集合为A;

步骤六、SVM分类:将集合A置于经过训练的SVM分类器中进行 分类,得到情感关键句集合Y和非情感关键句集合N,SVM分类器的 训练特征为:情感词特征(emotional feature),关键词特征(key-word  feature),依存模板特征(dependency feature)和位置特征(position  feature)这四种;

步骤七、识别完成:输出识别结果Y。

有益效果

本发明对比现有技术,通过采用规则与统计相结合的策略,先通 过DEL和KL筛选出候选情感关键句,然后再利用SVM分类器进行分 类,这样就弥补了基于概率统计的机器学习方法导致的错判,两种方 法相互补充,能够有效利用不同层级词汇语义和句法依存信息进行识 别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键 句,提高中文情感关键句的识别率。

附图说明

图1为本发明方法的处理流程图。

具体实施方式

在介绍实施例以前,先做如下定义:

情感关键句是指一篇文章中既能表现文章主题又能表现情感倾 向的句子,需要包含两个要素:主题关键词和情感关键词。主题关键 词用来彰显篇章主题;情感关键词用来表明情感倾向。

下面结合实施例对本发明做进一步说明。

本实施例首先介绍情感词典的扩展方法,关键词词典的构建方法, 依存知识库的形成方法以及SVM分类器的特征选择方法,最后介绍 中文情感关键句的识别方法。

本实施例选取第六届中文倾向性分析评测(The Sixth Chinese  Opinion Analysis Evaluation,简称COAE2014)任务一:面向新闻的 情感关键句抽取与判定提供的数据集作为实验语料集,用于情感词典 的扩展,关键词词典的构建,依存知识库的形成以及SVM分类器的 训练。该语料集含有多篇文章,每篇文章由多个句子组成,每个句子 含有类别标注(Y:表示是情感关键句/N:表示不是情感关键句)。

以下文档为语料集S中的一篇文章:

一、情感词典的扩展方法,实现步骤如下:

(1)采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、 负面情感词语、正面评价词语、负面评价词语加上由台湾大学整 理和发布的简体中文的NTUSD构成基础情感词典(Basic  Emotion Lexicon);

(2)在预处理过的语料集合T中,按词性筛选出名词、动词和形容词 作为候选词;

(3)分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选 词之间的点间互信息,关于两个词语w1和w2之间的点间互信息 PMI(w1,w2)的计算公式如下(计算过程中过滤掉P(w1&w2), P(w1),P(w2)为零的情况):

其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率, P(w1)和P(w2)分别表示两个词语单独出现的概率;P(w1&w2)、 P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式 如下:

P(w1&w2)=numsen(w1&w2)/N

P(w1)=numsen(w1)/N

P(w2)=numsen(w2)/N

其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数, numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句 子数,N表示语料集合T的全部句子数;

(4)对于Basic Emotion Lexicon中的每个词,选取至多前5个与之点 间互信息最高的候选词作为扩展词,与其在语料集合T中的出现 频率一起加入Basic Emotion Lexicon,并对B asic Emotion Lexicon 中的每个情感词也分别计算其在语料集合T中的出现概率,生成 最终的领域相关的情感词典DEL;

因此,以以上文档为例,生成的最终领域相关的情感词及其出现 频率如下表:

二、关键词词典KL的构建方法,实现步骤如下:

(1)设置语料集合T的主题个数为n,某个主题用zt表示, 其中t∈{1,2,3......,n},通过LDA模型求出文档-主题分布P(zt|d)(即 每篇文挡属于某一主题的概率)和主题-词分布P(w|zt)(即每个主题 下出现某一个词的概率);分别计算随机跳转概率P(zt|w),即每个词 属于一个主题的概率,计算公式如下:

P(zt|w)=P(w,zt)P(w)=P(w|zt)×Σi=1mP(zt|di)P(di)Σt=1nP(w,zt)

其中,m表示语料集合T中的文档个数,w表示一个词,di表示第i 篇文章,i∈{1,2,3......,m},P(di)表示文章di在语料集合T中的出现 概率;t∈{1,2,3......,n}

(2)针对每一篇文章按词性选择名词和形容词作为候选关

键词,并以这些词为节点,分别在每一个主题下构建图模型:

图G=(V,E),节点集合V={v1,v2,v3......vk},连接从节点vi到 节点vj两节点的边(vi,vj)∈E,其中k表示候选关键词的个数, i,j∈{1,2,3......,k},i≠j;

确定两个节点之间是否存在边以及边的方向的方法如下:

在原文中设置一个大小为window的滑动窗口,我们分别按照顺 序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同 的其他词性为名词或形容词的词语,至此,我们就得到了边集E,依 次遍历集合E中的每条边,按以下方法对每条边设置权重:

权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性 的影响力、频度重要性的影响力和共现重要性的影响力;对于任意两 个结点vi和vj,结点vi对vj的影响力通过其有向边e=<vi,vj>传递,边 的权重wij决定了vj最终所获得vi部分的分值大小,令wij表示结点vi和 vj的整体影响力权重,α,β,γ,δ分别表示这四类不同的影响力所 占的比重,且α+β+γ+δ=1,则两节点之间的权值wij可以根据下式计 算:

wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)

+δwco-occur(vi,vj)

a)wpos(vi,vj)表示节点vi的位置影响力传递到vj的权重,计算公 式如下:

wpos(vi,vj)=P(vj)ΣvtOut(vi)P(vt)

其中,Out(vi)表示以vi为起点所指向的节点的集合,P(vj)表示节 点vj的位置重要性得分,根据不同的情况可以设置不同的打分策略, 考虑到标题信息对词语重要性的影响,本文设定只要是在标题中出现 过的词语就给予更高的得分;具体赋值方式如下:

其中,λ是一个比1大的数字,实验中,经多次验证选择λ=1.5;

b)wcov(vi,vj)表示节点vi的覆盖影响力传递到vj的权重,计算公 式如下:

wcov(vi,vj)=1|Out(vi)|

其中,|Out(vi)|表示节点vi的出度,即由vi出发所指向的节点的 数目;此公式说明节点vi的覆盖影响力将被均匀的传递到相邻节点;

c)wfreq(vi,vj)表示节点vi的频度影响力传递到vj的权重,计算 公式如下:

wfreq(vi,vj)=f(vj)ΣvtOut(vi)f(vt)

其中,Out(vi)表示以vi为起点所指向的节点的集合,f(vj)表示节 点vj所代表的词语在文章中出现的次数,以上公式体现出出现次数较 高的词语将从连接节点处获得更高的影响力权重;

d)wco-occur(vi,vj)表示节点vi的共现影响力传递到vj的权重,计 算公式如下:

wco-occur(vi,vj)=Co(vi,vj)ΣvtOut(vi)Co(vi,vt)

其中,Co(vi,vj)表示节点vi,vj所代表的词语在一定窗口内共现的 次数,以上公式则体现出共现次数较高的词语将从连接节点处获得更 高的影响力权重,也即这两个词语之间联系更加紧密;

(3)图模型建立完毕之后,利用textrank的思想对各节点进 行打分排序,用以下公式迭代计算每一个节点在特定主题下的得分:

Rzt(vi)=λΣj:vjviw(vj,vi)|Out(vj)|Rzt(vj)+(1-λ)P(zt|vi)

其中,w(vj,vi)即为上文求得的节点vj,vi之间的权值wji

P(zt|vi)即为上文求得的P(zt|w);λ为阻尼因子,实验中,根据经验选 择为0.75;j:vj→vi表示节点vj在以节点vi由为终点的节点集合内遍 历;由于最终得分与初值设置无关,所以设置所有节点得分初值 为1;当连续两次迭代,所有节点得分误差都在0.0001范围之 内时,迭代终止,将此时的得分作为每一个节点在特定主题下的得分。

(4)求得每一个节点在特定主题下的得分之后,按照下述公 式计算每一个节点在一篇文章下的最终得分:

R(vi)=Σt=1nRzt(vi)×P(zt|d)

选取排名靠前的节点,将节点所代表的候选关键词与此节点的最终得 分R(vi)一块加入关键词词典KL,依此方法生成对应于语料集合T中所 有文章的最终的关键词词典KL。

同样以该文档为例,得到的对应本文章的关键词词典及其最终得 分如下表:

三、依存知识库的形成方法,实现步骤如下:

(1)使用哈工大LTP的依存句法分析模块来分析语料集S中的所有句 子得到依存分析结果D;例如句子“这位叙反对派领导人还宣称, 叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚。”分析 结果如下:

(2)对依存分析结果D进行分析,找到句子的中心词(即依存分析结 果中relate值为HED对应的词),与在DEL或hownet提供的情 感分析用词语集中的主张词中出现的词一起作为中心特征词 (CoreWord),以这些词为起点,对附属或依存于该词的词汇进 行关系提取,并统计它们相互之间的关系,根据统计数据提取出 符合要求的依存关系模板,形成最终的依存知识库DB;具体依存 模板提取算法如下:

输入:经过预处理得到的语料集合T,依存分析结果D;

输出:依存知识库DB;

处理流程:

Step 1:遍历语料集合T中每条情感关键句中的所有词语,如果 该词语在上文构建的DEL或hownet提供的情感分析用词语集中的主 张词中出现,或者依存分析结果中relate=“HED”,则把它作为 CoreWord;

Step 2:将与CoreWord有依存关系,parent等于CoreWord的id 的词语存入依存词的集合dpWords;

Step 3:遍历dpWords中的每个词与CoreWord的关系,如果其 依存关系为COO(即relate=″COO″),则将它作为CoreWord重复Step2; 如果其依存关系为WP,则将其从dpWords中删除;

Step 4:将情感关键句中的所有包括CoreWord、dpWords以及 dpWords中的每一个词与其父节点CoreWord相互之间的依存关系存 入情感关键句的模板集合中,并且不改变其出现顺序,如“领导人 (SBV)还(ADV)宣称(HED)受到(VOB)”。

Step 5:从Step4中得出的情感关键句的模板集合中的模板按“一 个前面的词与中心词的关系+中心词+一个后面的词与中心词的关系”、 “一个前面的词与中心词的关系+中心词”、“中心词+一个后面的词与 中心词的关系”三种方式作为候选模板进行提取,对于同一个中心词 取最长模板,即如果按以上三种方式提取出的模板中心词相同,则选 择长度最长的模板,并统计其各自在情感关键句、非情感关键句中出 现的概率;例如以上句子,按上述三种方式提取出模板为:“SBV+ 宣称+VOB”、“SBV+宣称”、“宣称+VOB”、“ADV+宣称+VOB”、 “ADV+宣称”,取最长模板后得到模板“SBV+宣称+VOB”、“ADV+ 宣称+VOB”,在情感关键句中出现的概率分别是0.244127982245, 0.197151840207;在非情感关键句中出现的概率是0.000529906603961、 0.000485747720298;

Step 6:将由Step 5得到的候选模板集合中在情感关键句中出现 的概率大于在非情感关键句中出现概率的模板提取出来,与它在情感 关键句中的出现概率一起加入依存关系知识库DB中;对于上述例句 即将SBV+宣称+VOB与0.244127982245、ADV+宣称+VOB与 0.197151840207加入到依存关系知识库DB中,直至处理完语料集合 T的所有语句。

同理,以以上文档为例,提取出的依存模板及其出现频率如下表:

四、SVM分类器的特征向量生成方法:

SVM的特征向量,主要包含情感词特征,关键词特征,依存模 板特征和位置特征四部分;关于情感词特征、关键词特征、依存模板 特征,分别由对应句子中包含领域相关情感词典DEL、关键词词典 KL和依存知识库DB中词的数目与得分构成。位置特征则采用抛物 线Parabola的形式为文章中的句子打分,打分函数如下:

scoresen(pos(sen))=a×pos(sen)2+b×pos(Sen)+c

其中,n表示文章中句子的总数,a>0,b<0,pos(sen)表 示句子在文章中的位置,sen表示句子序号。经多次试验,设b=-1。

情感词特征的特征向量维度为9,第一维分量表示每个句子中出 现在DEL中情感词的个数,后八维分量分别表示这些情感词出现的 概率,如果每个句子中出现在DEL中情感词的个数不足8个,不足 的部分其概率设置为0;如果每个句子中出现在DEL中情感词的个 数多于8个,按概率由大到小的顺序取前8个,如对于句子:这位叙 反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将 受到惩罚,我们得到情感词部分的特征向量为(20.029411765 0.029411765000000)其中2表示句子中有两个词在领域相关情感 词典DEL中出现;之后0.029411765、0.029411765分别表示出现在 DEL中的两个情感词的相应得分,即其出现在语料集合S中的频率; 剩余6维分量补0。

关键词特征的特征向量维度为9,第一维分量表示每个句子中出 现在KL中关键词的个数,后八维分量分别表示这些关键词在KL中 对应的得分;如果句子中出现在KL中关键词的个数不足8个,不足 的部分其对应的分量概率设置为0;如果句子中出现在KL中关键词 的个数多于8个,按得分由大到小的顺序取前8个;如对于句子:这 位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器 必将受到惩罚,我们得到关键词部分的特征向量为(6 0.100989099886599920.047429903922990540.039688981584292536 0.02927543170089680.0021877676421553760.0013390309787093070 0),其中第一维分量6表示句中包含的关键词个数,中间不为0的六 维分量表示的是按由大到小顺序排列的六个关键词在关键词词典KL 中的得分,具体如下:反对派=0.10098909988659992叙利亚 =0.04742990392299054总统=0.039688981584292536领导人 =0.0292754317008968巴沙尔阿萨德=0.002187767642155376机器 =0.001339030978709307,剩余不足8维的部分补0。

依存模板特征的特征向量维度为9,第一维分量表示从每个句子 中提取的依存模板出现在DB中的个数,后八维分量分别表示这些依 存模板在DB中对应的出现概率;如果从每个句子中提取的依存模板 出现在DB中的个数不足8个,不足的部分其对应的分量的出现概率 设置为0;如果从每个句子中提取的依存模板出现在DB中的个数多 于8个,按出现概率由大到小顺序取前8个;如对于句子:这位叙反 对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受 到惩罚,我们得到依存模板部分的特征向量为(20.244127982245 0.197151840207000000),其中第一维分量2表示句中包含的依存 模板个数,中间两维不为零的数字分别表示这两个依存模板在依存知 识库DB中对应的出现概率,剩余不足8维的部分补0。

位置特征(1维):(2.08333333333)按照抛物线Parabola的打分 函数,由于本文共有11句,故n=11,令scoresen(6)=0, 分别求出抛物线的系数b=-1,c=3,如对于句子:这位叙反 对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受 到惩罚,我们得到依存模板部分的特征向量为scoresen(11)即本句话 的得分为2.08333333333。

最后,将四部分向量分别按顺序连接起来,形成一个28维的特 征向量(20.0294117650.0294117650000006 0.100989099886599920.047429903922990540.039688981584292536 0.0292754317008968 0.0021877676421553760.0013390309787093070020.244127982245 0.1971518402070000002.08333333333)

按以上流程将语料S中所有文章的全部句子都处理成这样的28 维特征向量。

五、中文情感关键句的识别方法:

分别将语料集T中的每一个句子与上文已经构建好的领域相关 的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又 含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为 A;然后将A中所有句子按上述SVM分类器的特征向量生成方法全 部处理成28维的特征向量;选取一部分句子作为训练集,与类别标 注(是否是情感关键句)一起加入SVM分类器进行训练;然后输入 剩余句子,通过SVM分类器进行识别,输出是否是情感关键句的识 别结果。

为了验证本发明实施例提供的中文情感关键句识别方法的有效 性,此次在COAE2014评测数据的基础上进行试验。数据集共包含 1994篇文档,经过领域相关情感词典DEL和关键词词典KL过滤之 后,得到候选情感关键句共38797个,其中情感关键句5019句,非 情感关键句33778句。在具体测试时,选取其中4/5的候选情感关键 句作为已知数据,通过对该部分数据的学习生成SVM分类器;剩余 1/5的数据作为待识别的数据,使用本文所述识别方法进行识别。同 时将本文所提方法Lexicon+Syntax与COAE的最佳结果COAE、基 于词典的方法Lexicon这两种识别方法所得到的结果进行比较,比较 结果如下表所示:

实验结果表明,使用本文词汇语义和句法依存相结合的方法大大 提升了实验效果。主要是因为使用情感词典和关键词词典进行规则过 滤得到候选情感关键句的时候,相当于对语料进行了一个降噪处理, 然后再用统计的方法,分析句法语义信息进行处理,以保证达到更高 的准确率P、召回率R和F值,充分证明了本发明所提供方法的有效 性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优 点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上 述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明 精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改 进都在要求保护的本发明范围内,本发明要求保护范围由所附的权利 要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号