公开/公告号CN112380868A
专利类型发明专利
公开/公告日2021-02-19
原文格式PDF
申请/专利权人 广东泰迪智能科技股份有限公司;
申请/专利号CN202011455907.9
申请日2020-12-10
分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);G06N3/04(20060101);G06N3/08(20060101);G06Q50/18(20120101);G06Q50/26(20120101);
代理机构44728 深圳至诚化育知识产权代理事务所(普通合伙);
代理人刘英
地址 510000 广东省广州市高新技术产业开发区开泰大道36号1栋212房
入库时间 2023-06-19 09:57:26
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于事件三元组的信访目的多分类装置及其方法。
背景技术
目前随着深度学习在自然语言处理领域的不断应用,一些经典的自然语言处理问题已经得到很好解决,如文本分类问题。但深度学习模型为一种黑盒模型,采用端到端的训练方法,人们无法在模型训练过程中对特征做过多操作,因此为保障分类模型的效果,则需更准确的提取输入模型的特征。
信访件是公民向国家政党、政府等反映情况,表达自身意见,请求解决问题的一种形式。对信访件进行信访目的分类,可有效帮助相关业务人员快速理解信件目的、分派信件等提供信息支撑。但信访件详情中涵盖了信访人反映事件的原因、经过、自身所处的现状等,且存在为构建弱者形象过多描述自身处境艰难的信息,此部分信息对识别信访目的的识别意义不大,属于冗余信息。现有技术多为对信件详情提取摘要或仅提取命名实体等作为特征输入分类模型中,易存在关键信息遗漏或与原文意见差距过大,因此需对输入分类模型中的特征进行更精准的提取。
综上所述,为解决信访件信访详情的主体信息精准提取的问题,提高信访件信访目的分类效果,本发明提出了一种基于事件三元组的信访件信访目的多分类方法和装置。该方法充分考虑了信访件详情多含描述事件原因、经过、自身现状等冗余信息,通过构建事件三元组并提取关键句形式,得到描述信访详情的主体信息,且为减少分词误差通过命名实体识别以修正分词结果,提高信访件信访目的多分类的准确性。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于事件三元组的信访目的多分类装置及其方法。
本发明提出的一种基于事件三元组的信访件信访目的多分类装置,包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;
命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组;
综合特征构建模块:用于提取关键句并与事件三元组融合成综合特征;
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类。
优选的,所述信访件预处理模块,具体包括:分句处理单元:用于将输入的信访件详情文本按照预设的符号进行拆分,得到所述句子集;分词和词性标注处理单元:用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
优选的,所述事件三元组构建模块,具体包括:
事件三元组初构建单元:用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;
事件三元组补充单元:用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
优选的,所述综合特征构建模块,具体包括:
关键句提取单元:用于根据预设的领域关键词集对所述的句子集提取关键句集;
特征融合单元:用于对关键句集和事件三元组集按照在信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
优选的,所述信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果
一种基于事件三元组的信访目的多分类方法,包括以下步骤:
S1:将待分类的信访件详情文本进行分句、分词和词性标注形成句子集、词集和词性集;
S2:通过命名实体识别与抽取以修正词集和词性集;
S3:由修正后的词集和词性集构建事件三元组;
S4:根据领域关键词集提取关键句,融合关键句和事件三元组形成综合特征;
S5:基于综合特征进行信访件信访目的多分类。
优选的,所述S1中,待分类信访件详情文本进行分句、分词和词性标注形成句子集S=(s
优选的,所述S2中,通过命名实体识别与抽取以修正词集和词性集,具体包括:
A1:根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r
A2:遍历命名实体元组集R中各实体元组r
优选的,所述S3中,由修正后的词集和词性集构建三元组,具体包括:
A1:通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t
A2:若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
优选的,所述S4中,领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集;所述关键句提取过程为:根据领域关键词集,遍历句子集S提取含任一领域关键词的句子形成关键句集S′=(s
优选的,所述S5中,基于综合特征进行信访目的多分类,具体包括:将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
本发明的有益效果是:
(1)本发明充分考虑了信访件详情多含描述事件原因、经过、自身所处现状等冗余信息,通过构建事件三元组并结合提取的领域相关关键句,得到描述信访详情的主体信息,避免了因冗余信息对分类效果的干扰;
(2)不同信访人对信访事件的描述多变,因此信访件详情中对于实体的描述具有多样性,本发明通过命名实体识别及抽取,对信访件详情分词后进行修正,可减少分词误差带来的命名实体未被准确切分的情况;
(3)本发明实现了基于事件三元组的信访件信访目的多分类,为信访相关业务人员提供了便捷的技术支持。
附图说明
图1为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的流程图;
图2为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的通过命名实体识别与抽取修正词集和词性集的过程示例图;
图3为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的结构示图;
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
参照图1-3;本发明提出了一种基于事件三元组的信访件信访目的多分类装置,包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;
命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组;
综合特征构建模块:用于提取关键句并与事件三元组融合成综合特征;
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类。
本实施例中,所述信访件预处理模块,具体包括:分句处理单元:用于将输入的信访件详情文本按照预设的符号进行拆分,得到所述句子集;分词和词性标注处理单元:用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
本实施例中,所述事件三元组构建模块,具体包括:
事件三元组初构建单元:用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;
事件三元组补充单元:用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
本实施例中,所述综合特征构建模块,具体包括:
关键句提取单元:用于根据预设的领域关键词集对所述的句子集提取关键句集;
特征融合单元:用于对关键句集和事件三元组集按照在信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
本实施例中,所述信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果
一种基于事件三元组的信访目的多分类方法,包括以下步骤:
S1:将待分类的信访件详情文本进行分句、分词和词性标注形成句子集、词集和词性集;
S2:通过命名实体识别与抽取以修正词集和词性集;
S3:由修正后的词集和词性集构建事件三元组;
S4:根据领域关键词集提取关键句,融合关键句和事件三元组形成综合特征;
S5:基于综合特征进行信访件信访目的多分类。
本实施例中,所述S1中,待分类信访件详情文本进行分句、分词和词性标注形成句子集S=(s
本实施例中,所述S2中,通过命名实体识别与抽取以修正词集和词性集,具体包括:
A1:根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r
A2:遍历命名实体元组集R中各实体元组r
本实施例中,所述S3中,由修正后的词集和词性集构建三元组,具体包括:
A1:通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t
A2:若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
本实施例中,所述S4中,领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集;所述关键句提取过程为:根据领域关键词集,遍历句子集S提取含任一领域关键词的句子形成关键句集S′=(s
本实施例中,所述S5中,基于综合特征进行信访目的多分类,具体包括:将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
所述的S1具体说明如下:
对待分类的信访件信访详情文本进行分句、分词和词性标注形成句子集、词集和词性集。其中,待分类的信访件信访详情文本如下表1所示;
表1待分类的信访件信访详情文本示例
对上述待分类的信访件信访详情按照预设的符号进行分句,得到句子集S=(s
对分句后的句子集S进行分词和词性标注,得到词集W=(w
所述的S2具体说明如下:
通过命名实体识别与抽取以修正词集和词性集,本过程可描述为:
根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r
在实际应用中,所述的命名实体识别可采用HMM模型、CRF模型、BiLSTM-CR模型等,本说明书实施例中对具体的命名实体识别模型不做具体限定,可根据实际需求进行选择。
遍历命名实体元组集R中各实体元组r
如图2所示,利用实体元组r
所述的S3具体说明如下:
由修正后的词集和词性集构建事件三元组,本过程可描述为:
通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t
在实际应用中,所述的语义角色标注可按照预设的自学习模型得到标注结果,还可采用pyltp工具、nlpnet工具等进行语义角色标注。根据修正后的词集和词性集,采用所述方法构建的事件三元组集如下:
T=(('艾某已故子女五人','产生','矛盾'),
('村党支部书记廖某','参与','艾某家庭矛盾及子女之间遗产纠纷'),
('廖某','滥用','职权'),...)
若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
在实际应用中,所述的依存句法分析可按照预设的自学习模型得到主谓关系和动宾关系结果,还可采用基于Arc-Eager转移系统的依存句法分析、基于神经网络的依存句法分析方法,本说明书实施例中对具体的依存句法分析模型不做具体限定,可根据实际需求进行选择。
所述的S4中具体说明如下:
根据领域关键词集提取关键句
领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集,词集示例如下表2所示:
表2领域关键词集示例
根据领域关键词集,遍历句子集子集S提取含任一领域关键词的句子形成关键句集S′=(s
结合关键句和事件三元组形成综合特征
综合特征为关键句集合事件三元组集中关键句与三元组,按照在信访件详情中出现的先后顺序进行拼接形成的文本,该文本即为待分类信访件信访详情的主体信息。综合特征示例如下表3所示:
表3根据事件三元组和关键句得到的综合特征示例
所述的S5中具体说明如下:
将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
在实际应用中,所诉的文本多分类模型可采用TextCNN模型、TextRNN模型、BERT模型等识别待分类信访件的信访目的。本说明书实施例中对具体的命名实体识别模型不做具体限定,可根据实际需求进行选择,例如,当现有信访件数量足够自行训练分类模型时,可选择TextCNN模型等训练适应信访目的识别领域的文本多分类模型;当现有信访件数量较小或信访件详情内容丰富度较低时,可选择预训练的BERT模型,对现有的信访件详情文本进行迁移学习得到适应信访目的识别领域的文本多分类模型。
文本多分类模型预先设置多个分类类别,本说明书实施例中设置的信访目的类别包括:求决类、申诉类、批评建议类、检举揭发类、其他。对待分类信访件详情文本经过步骤1至步骤4处理后,得到的综合特征,输入预先已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件对应的信访目的。基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图3为一种基于事件三元组的信访件信访目的多分类装置的结构示意图。如图3所示,该装置包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集。
信访件预处理模块具体包括:分句处理单元,用于将输入的待分类信访件详情文本按照预设的符号进行拆分,得到句子集,在实际应用中,预设的符号可根据业务设置为句号、问号、感叹号等;分词和词性标注单元,用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
命名实体修正模块,用于识别及提取信访件详情命名实体,并对词集和词性标注集进行修正。
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组。
事件三元组构建模块,具体包括:事件三元组初构建单元,用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;事件三元组补充单元,用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
综合特征构建模块:用于提取关键句并与事件三元组结合成综合特征;
综合特征构建模块,具体包括:关键句提取单元,用于根据预设的领域关键词集对所述的句子集提取关键句集;特征融合单元,用于对关键句集合事件三元组集按照在输入的信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类;信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果。
综合以上分析,本发明提出的基于事件三元组的信访件信访目的多分类方法和装置,充分考虑了信访件详情多含描述事件原因、经过、自身现状等冗余信息,通过构建事件三元组并提取关键句形式,得到描述信访详情的主体信息,且为减少分词误差通过命名实体识别以修正分词结果,提高信访件信访目的多分类的准确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 基于无线局域网
机译: 一种基于竞争的通信访问方法
机译: 一种确定Zea Mays组织中TC1507事件关键性的方法,其中TC1507事件包括建立包含CRY1F基因的变性,包括使用基于荧光的终点PCR Tag检测来检测事件TC150一般建议7和实现此方法的工具包。