公开/公告号CN112231472B
专利类型发明专利
公开/公告日2022-07-29
原文格式PDF
申请/专利权人 昆明理工大学;
申请/专利号CN202010984681.5
申请日2020-09-18
分类号G06F16/35(2019.01);G06F40/242(2020.01);G06F40/284(2020.01);G06F40/289(2020.01);G06F40/30(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构昆明人从众知识产权代理有限公司 53204;
代理人何娇
地址 650093 云南省昆明市五华区学府路253号
入库时间 2022-09-06 00:36:09
法律状态公告日
法律状态信息
法律状态
2022-07-29
授权
发明专利权授予
技术领域
本发明涉及融入领域术语词典的司法舆情敏感信息识别方法,属于自然语言处理技术领域。
背景技术
在社交网络中,用户可以随时随地表达自己的观点,其中针对司法部门审判相关工作有大量误解和片面的言论,它们具有传播迅速、敏感度高、易引发网络舆情等特点。为了更好地辅助司法部门开展工作,从海量的舆情新闻中快速、准确识别涉及司法的敏感信息显得尤为重要。
针对司法领域的敏感信息识别来讲,并不能将其看为一个简单的二分类任务,需要同时考虑是否涉及司法领域以及是否为敏感信息,会出现敏感和不敏感,且同样有一些虽然敏感但不涉及司法的。因此本发明将司法敏感信息识别任务转化为一个四分类任务,需要识别敏感性和领域性。
司法舆情文本具有描述不规范、冗余信息多等问题导致难以对其进行有效的表征,涉及司法领域的敏感信息中包含导致文本敏感的短语、而这些短语又属于司法领域敏感专有词汇,这些词语对于涉法敏感信息的识别起主导作用,但是这些短语在通用领域的敏感术语词典中不会出现,所以直接进行词匹配工作无法有效识别司法领域的敏感信息。为了获得更好的表征,让模型能够学习到司法敏感信息相关的表示,构造领域敏感术语词典,将术语词典作为外部指导融入到深度学习框架中,可以进行有效的特征增强。
发明内容
为解决上述问题,本发明构建领域术语词典,利用领域术语词典指导模型进行领域特征的学习,并针对司法舆情的文本描述特性,提出融入领域术语词典的司法舆情敏感信息识别模型,进行司法舆情敏感信息的分类。
本发明的技术方案是:融入领域术语词典的司法舆情敏感信息识别方法,所述方法包括:
构建融入领域术语词典的司法敏感信息识别模型来进行敏感信息识别;融入领域术语词典的司法敏感信息识别模型包括编码层、领域术语词典融入层、局部特征提取层和分类层;
通过编码层将舆情文本和领域术语词典进行编码和特征关注;
通过领域术语词典融入层将领域术语词典与舆情文本计算相似度并融入文本表征中;
通过局部特征提取层在领域术语词典融入层的基础上提取重要特征提取;
通过分类层将提取的重要特征进行类别概率的预测。
作为本发明发进一步方案,构建融入领域术语词典的司法敏感信息识别模型之前进行司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理,具体步骤如下:
Step1.1、爬取舆情文本并经过人工筛选和标注后构成共若干条舆情文本;
Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇由裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;
Step1.3、利用搜狗新闻数据集、司法舆情敏感信息数据集、领域术语词典以及word2vec算法预训练司法敏感的词向量作为司法敏感信息识别模型的司法敏感先验知识。
作为本发明发进一步方案,所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:
Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵,分别为
Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征
其中,Bi-LSTM表示经过双向循环神经网络,D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征;
Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算:
multiHead(Q,K,V)=concat(head
wherehead
其中,softmax为归一化操作,connect表示拼接操作,其中
Step2.4、为防止丢失原文本语义,对于输出的结果进行残差连接:
A
K
其中,residualConnect表示残差连接,D_M
Step2.5、将领域术语词典的表征K
其中,S
其中
Step2.6、将S
其中softmax是归一化函数,[;]为拼接操作;
Step2.7、将已经融入词典信息的文本表征
其中k表示CNN网络的输出通道;
Step2.8、将
Step2.9、在分类层中为得到文本分类概率分布,将在局部特征提取层中得到的O
P(D)=softmax(O
本发明的有益效果是:本发明将领域术语词典与司法舆情上下文信息进行融合,技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳,又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示,从而提高司法舆情敏感信息识别的性能;
实验结果表明本发明提出的方法在精确率、召回率以及宏平均F1值和微平均F1值等指标表现上均优于基线系统。
附图说明
图1为本发明中的模型构建示意图;
图2为本发明中的流程图。
具体实施方式
实施例1:如图1-2所示,融入领域术语词典的司法舆情敏感信息识别方法,首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码,抽取显著特征;其次将领域术语词典作为分类的指导知识,与舆情文本构建相似矩阵,得到融入领域术语词典的文本表征;然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征,最终实现敏感信息分类;
具体步骤为:
Step1、司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理;
Step1.1、从2020年3月1日到2020年6月1日对新浪微博、github等网站进行爬取,经过人工筛选和标注后构成共2万条舆情文本;
Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇有裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;
Step1.3、利用搜狗新闻数据集(约500M),和司法舆情敏感信息数据集和领域术语词典以及word2vec算法预训练司法敏感的词向量作为模型的司法敏感先验知识;
作为本发明发进一步方案,所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:
Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵,分别为
Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征
其中,Bi-LSTM表示经过双向循环神经网络,D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征。
Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算:
multiHead(Q,K,V)=concat(head
wherehead
其中,softmax为归一化操作,connect表示拼接操作,其中
Step2.4、为防止丢失原文本语义,对于输出的结果进行残差连接:
A
K
其中,residualConnect表示残差连接,D_M
Step2.5、将领域术语词典的表征K
其中,S
其中
Step2.6、将S
其中softmax是归一化函数,[;]为拼接操作。
Step2.7、将已经融入词典信息的文本表征
其中k表示CNN网络的输出通道。
Step2.8、将
Step2.9、在分类层中为得到文本分类概率分布,将在局部特征提取层中得到的O
P(D)=softmax(O
利用梯度下降算法训练参数,由此构建融入领域术语词典的司法敏感信息识别模型。
为更好的训练模型和验证模型的有效性,依据8:1:1的比例构建训练集、验证集和测试集,其中具体数据信息如表1所示:
表1数据大小及数据集划分
领域术语词典构建对于识别司法敏感信息极为重要,本发明为利用领域知识增强模型对领域术语的表征,将司法领域术语词汇和敏感术语词汇一同融入领域术语词典,其中司法领域术语由裁判文书网和中国法院网内容经过人工筛后构建;敏感术语由两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选后公开中文敏感词汇。其中术语的组成有字、词及短语,具体词汇数量及示例如表2所示:
表2领域术语词典大小
本发明中,设计训练轮次为20轮,模型的学习率为0.0001,设置舆情文本最大截取长度为300字,词嵌入维度512,Dropout为0.5,卷积神经网络模型中滤波器个数为256,滑动窗口大小为(2,3,4),优化算法使用Adam。
对于本发明来讲通过计算其宏平均和微平均更能评价司法敏感信息分类模型的效果,主要采用微平均F1值(Micro-F1)、宏平均精确率(Macro_Precision)、宏平均召回率(Macro_Recall)、宏平均F1值(Macro-F1)作为评价指标,其中计算过程如公式(13-16)所示:
这些指标基于“混淆矩阵[18]”,其中TP表示真正例,FP为假正例,TN为真反例,FN为假反例,
本发明所采用的对比模型如下:
CNN(卷积神经网络)模型:Kim等人提出将CNN应用于文本分类中,主要包括一个卷积层和一个池化层,最后再通过一个全连接层进行分类。
Bi-LSTM Attention(基于注意力机制-双向长短期记忆神经网络)模型:使用双向循环神经网络和一个Attention层,再通过一个全连接层进行分类。
RCNN(循环卷积神经网络)模型:Lai等人提出的一种结合RNN和CNN进行分类的神经网络模型,主要包括一个循环神经网络层和一个卷积层,再通过一个全连接层进行分类。
Bert(双向Transformer编码器)模型:通过Bart预训练模型进行文本表征后通过全连接网络进行分类。
Transformer模型:使用transformer中的两个encoder编码,后通过一个前连接层进行分类。
FastText()模型:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后利用将文档向量进行归一化后做多分类。
SVM(支持向量机):定义在特征空间上的间隔最大的线性分类器,通常用于文本分类任务,模型的文本特征提取和表示方法与文献一致。
表3 MARC-SI与基线模型实验结果对比
从表3中可以看出,MARC-SI对比基线模型、预训练模型和机器学习模型,都有不错的效果,说明本文中所提出的融入领域术语词典的方法,对于司法领域敏感信息识别任务是有效的。从实验结果中分析,RCNN、Fasttext模型均有不错的效果,表明本文中所选用的模型架构和基于局部特征提取的思想是合理的,而其中BERT预训练模型由于其分词结构固定反而不适用于本任务。对于多数任务效果不错的Transformer模型,在本任务中效果不佳,可能是由于舆情文本中融入信息过多,而其中自注意机制不能有效的进行特征提取。从结果可以看出,本文所提模型MARC-SI在司法舆情敏感信息分类中具有明显的优势。
为验证MARC-SI模型中每一层网络对于整体分类有效,设计了消融实验,其中(-)编码层是将Bi-LSTM Attention层去除代替为全连接层,(-)领域术语词典融入层是将领域术语词典融入层去除,(-)局部特征提取层是将CNN Self-Attention层替换为全连接层,实验结果如表4所示。
表4消融实验
分析表4中的结果,去除编码层的效果比MARC-SI的F1值低7%,说明对于舆情文本和领域词典的编码仍然是重要的一块;而融入领域术语词典可以提升整体的模型效果有1%左右,说明对于本任务来讲,领域术语词典对于模型的学习是有指导作用的;对于去除局部特征提取网络其比MARC-SI的F1值低2%,说明对于融入术语词典过后,整体网络还是需要进行特征的提取。从消融实验中可以看出,本文所提出的网络模型对于司法敏感信息识别任务均是有效的。
由于领域词典的类型对模型影响比较大,为比较领域术语词典对于模型的影响,将不同领域术语词汇分别输入MARC-SI模型进行实验。其中分别融入手动构建的司法领域术语词汇和公开敏感信息术语词汇进行实验。
表5不同词汇融入实验
分析表5中的结果,手动构建的司法领域术语词汇对比公开的敏感词汇其F1有1%的提升,说明领域术语词汇的质量对于增强领域术语词汇的表征有一定影响。而整体的领域术语词典的融入对比少量的领域术语效果更佳,表示领域知识的覆盖面对于增强领域术语的表征有很大的影响。分析表5和表3的实验结果,表明本文所提出的融入领域术语词典的方法对比基线模型没有融入领域术语的方法均可以提升不错的效果,反映出领域知识的融入可以增强专业术语的表征。
为验证MARC-SI是否注意到带有转发、特殊符号、信息语义层次过多网络舆情,为此本发明举例如表6中所示例1和例2,其均为司法敏感信息。基线模型设置为CNN和Bi-LSTMAttn(Bi-LSTM Attention)模型。
表6案例分析
从表6的结果中可以看出,由于冗余信息过多Bi-LSTM Attn模型不能进行有效的识别,CNN模型对于局部信息进行提取后可以关注到敏感比重过高的句子,但是MARC-SI可以关注到司法领域专有的敏感术语,如例1中的“双开”、“公然醉驾违法”等敏感术语。从结果可以看出,本文设计的MARC-SI对于描述不规范、具有冗余信息的文本有更好的表征能力,同时也可以很好的利用司法敏感信息词汇进行更好的分类。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
机译: 动态生成每种自然语言表达方式的附加术语的方法;基于该方法的词典管理器,文档生成器,术语注释器,搜索系统以及用于构建文档信息系统的设备
机译: 动态生成每种自然语言表达方式的附加术语的方法;基于该方法的词典管理器,文档生成器,术语注释器,搜索系统以及用于构建文档信息系统的设备
机译: 语义词典管理器,语义文本编辑器,语义术语注释器,语义搜索引擎和语义信息系统构建器,该方法基于立即定义语义术语的方法来识别每个单词的准确含义