首页> 中国专利> 一种特定前后缀否定词识别方法、装置及存储介质

一种特定前后缀否定词识别方法、装置及存储介质

摘要

本发明在少样本学习的基础上,提出了一种输入扩展方式,将该提示输入模板应用于否定词识别方法中,实现了面向单词级别的否定词识别,不需要利用上下文信息,节省了资源;并且,本发明涉及的提示输入模板,一部分受输入内容的动态影响,根据输入的单词,去除其特定前后缀,利用了输入单词本身蕴含的词内信息,输入模板中的文本描述是同输入相关的,组成的提示模板句子更容易与输入单词语义接近,能更好地引出语言模型在预训练时学到的知识;同时预测选定的标签描述词是否应该存在于当前这个位置,使其组成更合理的句子,使语义通顺,进而依据此对输入的待测单词进行识别,提高了特定前后缀否定词的识别准确率。

著录项

  • 公开/公告号CN114896971A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN202210831562.5

  • 发明设计人 李寿山;李雅梦;周国栋;

    申请日2022-07-15

  • 分类号G06F40/284(2020.01);G06F40/242(2020.01);G06F40/211(2020.01);G06F40/30(2020.01);

  • 代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257;

  • 代理人李艾

  • 地址 215000 江苏省苏州市吴中区石湖西路188号

  • 入库时间 2023-06-19 16:23:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-30

    授权

    发明专利权授予

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06F40/284 专利申请号:2022108315625 申请日:20220715

    实质审查的生效

说明书

技术领域

本发明涉及自然语言处理技术领域,尤其是指一种特定前后缀否定词识别方法、设备、装置及计算机存储介质、一种否定词识别方法。

背景技术

否定是自然语言中一种重要的普遍现象。否定识别任务旨在判断某一个句子是否包含否定含义。该任务可以应用到很多自然语言处理应用系统中,例如信息检索、信息提取、机器翻译或情感分析等。目前,主流的否定识别方法一般基于预训练语言模型如用BERT、BoBERTa和ELECTRA等,通过微调方式进行训练和学习。

现有否定词识别技术主要有以下几种:(1)基于词表方法;(2)基于规则的检测方法;(3)基于统计机器学习方法;(4)神经网络方法。

其中(1)基于词表方法是通过人工或半自动方式构造否定词集合,通过匹配检测文本中的否定词;(2)基于规则的检测方法则是根据否定词本身、句法结构等特征制定规则并进行训练得到规则集,进行否定词识别。在更多的否定语料库发布之后,出现了(3)基于统计机器学习方法和(4)神经网络方法,目前否定词识别方法大多数是基于神经网络进行的。

神经网络方法主要分为以下几个步骤:(1)专业人员标注大量带有不同极性标签的文本序列,其中一个句子作为一个输入序列文本段,并对句中每个元素标注一个相应的标签,获得多个带有标注样本的标注语料;(2)基于深度学习网络(一般是循环神经网络、预训练语言模型等)训练标注语料,使模型获得分类能力;(3)使用分类模型对某个未知标签的文本进行测试,获得该文本的预测标签序列,依据此识别出其中的否定词。测试过程中,每次输入分类模型的文本是一个句子。

其中,第二步的基于深度学习网络结构如图1所示,包含编码器(Encoder)层、FC全连接层和CRF层。Encoder层负责提取、凝练文本的特征,常用的Encoder层包括LSTM、BERT、Roberta等。FC全连接层负责将文本特征映射到文本的标签类别。CRF层为最后预测的标签添加约束来保证预测的标签是合法的。最终得到该输入文本的预测标签序列,即输入文本的序列标注结果。如图1所示,输入一段文本,通过对文本进行编码,获得文本的特征;然后通过全连接层将文本的特征映射到文本的标签类别;最后经过CRF层添加约束,得到预测的标签序列,依据此实现文本中否定词的识别。

自然语言处理研究领域中,如今主流的少样本学习方法是基于掩码预训练模型的学习方法,它通过添加任务提示和示例作为演示来进行少样本学习,该方法对大多下游任务都适用,这种体系被称为预训练-提示学习,简称提示学习,它把分类任务转化成了基于prompt的填词任务。

提示学习的中心思想是激发掩码语言模型潜在的能力,不同于之前通过目标工程使预训练语言模型适应下游任务的方式,该方法重新形式化下游任务,在不显著改变预训练语言模型结构和参数的情况下,通过向输入中增加“提示信息”,缩小下游任务的目标与预训练的目标之间的差距,从而达到理想的效果。

现有少样本学习方法的主要分为以下几个步骤:(1)专业人员标注少量带有不同极性标签的文本,获得多个带有标注样本的标注语料;(2)设计提示学习的提示输入模板和标签映射规则,并将输入样例根据模板生成输入;(3)基于预训练语言模型训练标注语料,使模型获得分类能力;(4)使用分类模型对某个未知标签的文本进行测试,获得该文本的极性标签。

其中,第2步的设计提示学习的提示输入模板和标签映射规则,有两种方式:一种是把分类任务转化成基于prompt的填词任务(如图2);另一种是利用替换词检测预训练语言模型强大的检测能力,将下游任务重构为替换词检测任务(如图3),图中以文本中的单个单词为例,实际输入为整个文本,预测单词类别时,利用了上下文。

虽然目前已有的否定词识别模型可以取得较好的否定词识别效果,但对于一些带有特定前后缀的否定词识别率还比较差。例如,在句子“He is as tenacious as abulldog when he once understands what he has to do , and indeed, it is justthis tenacity which has brought him to the top at scotland yard.”中的“indeed”往往会被错识别为否定词。这是因为,特定前后缀否定词本身较难识别,特定前后缀否定词属于否定中的“词缀否定”,其组成本身就较为复杂,有前缀、后缀等多种形式,且特定的前后缀还含有歧义。并且,现有否定词识别方法在识别否定词的时候,都是放在句子中,通过上下文辅助来识别,这样也会耗费一定的资源。

因此,如何提供一种面向单词级别的适用于特定前后缀否定词的识别方法,为目前待解决的问题。

发明内容

为此,本发明所要解决的技术问题在于克服现有技术中对特定前后缀否定词识别不精确的问题。

为解决上述技术问题,本发明提供了一种特定前后缀否定词识别方法,包括;

将待测单词输入到预先训练好的特定前后缀否定词识别模型中;

将待测单词去除特定前后缀生成基础词;

将所述待测单词与所述基础词替换到预先设定的输入模板中,得到待测输入,所述输入模板为“待测单词+文本描述+标签描述词+基础词”;

根据所述待测输入构造待测输入序列;

利用替换词检测预训练语言模型预测所述待测输入序列中标签描述词应被保留的概率,进而得到否定词预测结果。

优选地,所述替换词检测预训练语言模型为ELECTRA模型。

优选地,所述利用替换词检测预训练语言模型预测所述待测输入序列中标签描述词应被保留的概率,进而得到否定词预测结果包括:

利用所述ELECTRA模型预测所述输入序列

从所述预测输出序列中取出所述标签描述词对应预测得到的“原始的”的概率

优选地,所述输入模板为

优选地,所述特定前后缀否定词识别模型的训练步骤包括:

获取数据集;

将所述数据集中的单词标记为“否定词”或“非否定词”得到特定前后缀否定词语料库,所述“否定词”表示该单词前后缀使该单词拥有了否定含义,所述“非否定词”表示该单词前后缀不影响该单词本身的正负面含义;

从所述特定前后缀否定词语料库中获取训练集;

利用所述训练集训练所述特定前后缀否定词识别模型使其获得分类能力。

优选地,所述获取数据集包括:

选择含否定意义的前缀“un-”、“im-”、“in-”、“il-”、“ir-”和“dis-”以及含否定意义的后缀“-less”和“-free”;

根据选择的否定前后缀收集单词,得到所述数据集。

本发明还提供了一种否定词识别方法,包括:

利用预训练语言模型识别待测文本中的否定词;

筛选出所述否定词中含特定前后缀的单词,利用上述的特定前后缀否定词识别方法重新预测所述否定词中含特定前后缀的单词,得到最终结果。

本发明还提供了一种特定前后缀否定词识别的装置,包括:

输入模块,用于将待测单词输入到预先训练好的特定前后缀否定词识别模型中;

基础词生成模块,用于将待测单词去除特定前后缀生成基础词;

待测输入生成模块,用于将所述待测单词与所述基础词替换到预先设定的输入模板中,得到待测输入,所述输入模板为“待测单词+文本描述+标签描述词+基础词”;

待测输入序列构造模块,用于根据所述待测输入构造待测输入序列;

否定词预测模块,用于利用替换词检测预训练语言模型预测所述待测输入序列中标签描述词应被保留的概率,进而得到否定词预测结果。

本发明还提供了一种特定前后缀否定词识别的设备,包括:

存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种特定前后缀否定词识别方法的步骤。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种特定前后缀否定词识别方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点:

本发明在少样本学习的基础上,提出了一种输入扩展方式,将该提示输入模板应用于否定词识别方法中,实现了面向单词级别的否定词识别,不需要利用上下文信息,节省了资源;并且,本发明涉及的提示输入模板,一部分受输入内容的动态影响,根据输入的单词,去除其特定前后缀,利用了输入单词本身蕴含的词内信息,输入模板中的文本描述是同输入相关的,组成的提示模板句子更容易与输入单词语义接近,能更好地引出语言模型在预训练时学到的知识;同时预测选定的标签描述词是否应该存在于当前这个位置,使其组成更合理的句子,使语义通顺,进而依据此对输入的待测单词进行识别,提高了特定前后缀否定词的识别准确率。

附图说明

为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:

图1是基于深度学习网络结构示意图;

图2是基于提示微调的少样本学习示意图;

图3是基于替换词检测预训练的少样本学习示意图;

图4是本发明所提供的特定前后缀否定词识别方法的实现流程图;

图5是本发明实施例提供的一种基于替换词检测预训练语言模型和输入扩展的提示输入少样本学习方法框架图;

图6是ELECTRA模型示意图;

图7是不同标注样本数目(k=20,50,100)时不同少样本学习方法的性能表现示意图;

图8是本发明实施例提供的一种特定前后缀否定词识别的装置的结构框图。

具体实施方式

本发明的核心是提供一种特定前后缀否定词识别方法、装置、设备及计算机存储介质,一种否定词识别方法,提升了对特定前后缀否定词的识别准确率。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图 4,图4为本发明所提供的特定前后缀否定词识别方法的实现流程图;具体操作步骤如下:

S101:将待测单词输入到预先训练好的特定前后缀否定词识别模型中;

S102:将待测单词去除特定前后缀生成基础词;

S103:将所述待测单词与所述基础词替换到预先设定的输入模板中,得到待测输入,所述输入模板为“待测单词+文本描述+标签描述词+基础词”;

所述文本描述同待测单词相关,可以是

所述输入模板为

与其他提示学习方法的模板不同的是,本发明方法的提示输入模板中除了输入的单词w和对应生成的

S104:根据所述待测输入构造待测输入序列;

S105:利用替换词检测预训练语言模型预测所述待测输入序列中标签描述词应被保留的概率,进而得到否定词预测结果。

所述替换词检测预训练语言模型为基于替换词检测的预训练语言模型,本实施例中为ELECTRA模型,利用所述ELECTRA模型预测所述输入序列

利用所述ELECTRA模型预测所述输入序列的公式为:

其中,

从所述预测输出序列中取出所述标签描述词对应预测得到的“原始的”的概率

例如,如图5所示,当待测单词为“unhappy”时,构造的提示输入序列为[unhappy,it, is,not, happy],替换词检测预训练语言模型预测出标签词“not”为“替换的”的概率为0.12(即“not”为“原始的”的概率为0.88),表明在输入为“unhappy”时,最合适的描述序列为“unhappy it is not happy”,意味着当前输入的单词“unhappy”为否定词,即最终预测类别为1。

本发明提出的基于替换词检测预训练语言模型和输入扩展的提示输入少样本学习方法的输入为单词w,输出为是否是否定词。对于每个输入单词w,我们首先设计出对应的提示输入模板,构造提示输入序列,其次输入到替换词检测预训练语言模型中预测出标签描述词为“原始的”或“替换的”的概率,最后得到输入单词w最终的分类预测类别。

本发明将少样本学习应用于否定词识别方法中,实现了面向单词级别的否定词识别,节省了资源;并且,本发明涉及的提示输入模板,一部分受输入内容的动态影响,根据输入的单词,去除其特定前后缀,利用了输入单词本身蕴含的词内信息,输入模板中的文本描述是同输入相关的,组成的提示模板句子更容易与输入单词语义接近,能更好地引出语言模型在预训练时学到的知识;本发明利用了模板语义信息ELECTRA模型的特点,由于ELECTRA模型的特点(如图6),可通过预测选定的标签描述词“not”是“原始的”:即表示应被保留下来或是“替换的”:即表示应被替换掉,当前词不应该存在这个位置,组成更合理的句子,使语义更通顺。两个方面的原因结合,能更好的利用预训练语言模型学到的知识。进而依据此对输入的特定前后缀否定词进行识别,提高了特定前后缀否定词的识别准确率。

基于以上实施例,本实施例对特定前后缀否定词识别模型的训练步骤进行进一步说明:

在各种否定识别方法中,最直接的方法就是构建词典,然而没有专门用于特定前后缀否定识词识别的语料库,人工标注不仅成本过高,且因为不断会有新的词汇出现,加上不同的语言都需要标注新的语料,构建词典并不能覆盖全部的特定前后缀否定词。

由于没有可供使用的数据集,本发明标注了一个英文的特定前后缀否定词语料库。本发明选择了6个英文中常见的可能含有否定意义的前缀:“un-”、“im-”、“in-”、“il-”、“ir-”和“dis-”以及2个常见的可能含有否定意义的后缀“-less”和“-free”;

根据选择的否定前后缀收集单词,得到数据集;

将所述数据集中的单词标记为“否定词”或“非否定词”得到特定前后缀否定词语料库,所述“否定词”表示该单词前后缀使该单词拥有了否定含义,所述“非否定词”表示该单词前后缀不影响该单词本身的正负面含义;

从所述特定前后缀否定词语料库中获取训练集;

利用所述训练集训练所述特定前后缀否定词识别模型使其获得分类能力。

基于以上实施例,本实施例收集来源于第九版的牛津英汉词典以及Go等人收集的160万的英文推特语料的单词进行实验,具体而言:

本发明方法从词典中一共提取出了2717个含有否定前后缀的单词;从英文推特语料中一共提取出了6671个含有否定前后缀的单词。对于每个含有否定前后缀的单词,它的标签有两种可能,即“否定词”和“非否定词”。“否定词”意味着这个单词的前/后缀使得单词拥有了否定含义,“非否定词”意味着这个单词的前/后缀并没有影响单词本身的正/负面含义。本发明方法从获取的单词中随机选择了3000个让两位标注人员进行人工标注,对于不确定的单词,请第三位标注人员进行标注。一致性检验的结果Kappa值为0.87。标注数据统计如表1所示:

为了更好的验证辅助任务的有效性,本发明方法确保用于辅助任务中的数据集不包括主任务数据集中的带有否定前后缀的单词。最终,从标注语料中,选取了正负平衡的2000个样本进行辅助任务实验。其中标注样本的分布情况如表1所示。2000个数据随机按照7:1:2的比例分割为训练集、验证集和测试集。

对于主任务,本发明方法使用了2012 *SEM 共享任务的数据进行实验。2012 *SEM的共享任务数据集中的数据为CoNLL格式,其中每个单词数据的组成结构主要有:当前词、词根、词性标签POS、语法树以及否定信息等。否定信息包括当前词是否为否定线索词和是否处于否定范围。本发明方法从2012 *SEM共享数据集中一共提取出句子5519条,按照其标注的否定信息进行分类,训练集有3643条,其中否定句为848条、非否定句为2795条;验证集有787条,其中否定句为144条、非否定句为643条;测试集有1089条,其中否定句为235条、非否定句为854条。实验中本发明方法保留2012 *SEM 共享任务原来的数据集划分方式。

本发明方法使用的模型为:ELECTRA-large,该模型为大参数尺寸的ELECTRA模型。在本实验中,为了确保少样本实验结果的可靠性,每组实验我们都随机划分了5个小样本数据集,采用了多个数据集平均下的结果;模型的学习率为1e-5,最大长度设置为64,其余的超参数通搜索获得。

将测试集输入到训练好的模型中得到标签最终预测概率,作为输入文本段的预测标签,和真实标签比较得到测试集的正确率。

表2给出了在少样本学习中,在样本量为50时基于不同否定词识别方法的分类结果:

在诊断效果评价指标的计算方法中,

表2从上往下依次查看,首先第一栏是全样本学习,即使用所有的训练样本通过微调进行学习;其次的第二、三栏为两种微调方法,即使用不同的模型Roberta-large和Electra-large进行微调学习;再次的第四、五栏为两种prompt方法,即使用提示学习的方法进行少样本学习,同样是使用两种不同的模型Roberta-large和Electra-large进行学习,Prompt (1)使用的模板为“S

图7给出了不同否定词识别模型在少样本学习中依据不同标注样本数目k,Macro-F1结果的变化曲线图;从表2和图7的结果中可以看出:(1)本发明提出的方法在各个指标上、不同数据量大小上都优于标准微调的方式,且不限于使用的模型,这充分验证了本发明提出的少样本学习方法的有效性。(2)在标准微调方式中,使用Electra-large模型比使用Roberta-large模型效果要好,然而使用类似的模板方式Electra-large模型的效果却差一些,显示了本发明设计的输入扩展的提示学习方法的有效性。(3)本发明提出的方法可以有效的提升1类样本(正样本)的F1值,在数据量为50个样本的时候,与几种基准方法对比F1值提升了7.6%~19.5%,而根据图7的Macro-F1结果的变化曲线图可以看出,本发明提出的方法一直都优于其他否定词识别方法。(4)在各个评价指标、各种数据量上,本发明提出的方法均取得了最好的性能表现,与其他基准方法对比Macro-F1和准确率提升了7.6%~19.3%和7.2%~19.3%。该结果充分验证了本发明提出的基于替换词检测预训练语言模型和输入扩展的提示输入少样本学习方法能够有效的提升特定前后缀否定词的识别性能。(5)本发明的方法仅仅使用50个标注样本取得的分类性能已经超过全样本学习方法(使用1600样本),该结果表明本发明方法对于特定前后缀否定词识别任务非常有效。

本发明提出了一个全新的任务:特定前后缀否定词识别,该任务的输入为单个单词,是一种单词级的分类任务,它可以帮助语言模型更好的理解并识别否定;本发明提出了一种面向单词级分类的少样本学习方法,设计了一种基于替换词检测预训练语言模型和输入扩展的提示学习方法。该方法能够显著提升特定前后缀否定词识别性能。

本发明提出的特定前后缀否定词识别方法是专门用于识别特定前后缀否定词的,可以嵌入到其他否定词识别方法中,或与其他的否定词识别方法组合。

本发明还提供了一种否定词识别方法,包括:

利用预训练语言模型识别待测文本中的否定词;

筛选出所述否定词中含特定前后缀的单词,利用上述的特定前后缀否定词识别方法重新预测所述否定词中含特定前后缀的单词,得到最终结果。

请参考图8,图8为本发明实施例提供的一种特定前后缀否定词识别的装置的结构框图;具体装置可以包括:

输入模块100,用于将待测单词输入到预先训练好的特定前后缀否定词识别模型中;

基础词生成模块200,用于将待测单词去除特定前后缀生成基础词;

待测输入生成模块300,用于将所述待测单词与所述基础词替换到预先设定的输入模板中,得到待测输入,所述输入模板为“待测单词+文本描述+标签描述词+基础词”;

待测输入序列构造模块400,用于根据所述待测输入构造待测输入序列;

否定词预测模块500,用于利用替换词检测预训练语言模型预测所述待测输入序列中标签描述词应被保留的概率,进而得到否定词预测结果。

本实施例的特定前后缀否定词识别装置用于实现前述的特定前后缀否定词识别方法,因此特定前后缀否定词识别装置中的具体实施方式可见前文特定前后缀否定词识别方法的实施例部分,例如,输入模块100,基础词生成模块200,待测输入生成模块300,待测输入序列构造模块400,否定词预测模块500,分别用于实现上述特定前后缀否定词识别方法中步骤S101,S102,S103,S104和S105,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

本发明具体实施例还提供了一种特定前后缀否定词识别的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种特定前后缀否定词识别方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种特定前后缀否定词识别方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号