首页> 中国专利> 以理由依据为中心的人机协同文本分类方法及装置

以理由依据为中心的人机协同文本分类方法及装置

摘要

本发明提供一种以理由依据为中心的人机协同文本分类方法及装置,其中,以理由依据为中心的人机协同文本分类方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果;其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。通过本发明可以提高文本分类模型的分类结果的准确度。

著录项

  • 公开/公告号CN114880464A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 北京融汇金信信息技术有限公司;

    申请/专利号CN202210281154.7

  • 发明设计人 杨林易;卢竞辉;罗彤;张岳;

    申请日2022-03-21

  • 分类号G06F16/35(2019.01);G06K9/62(2022.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人刘亚平

  • 地址 100036 北京市海淀区复兴路21号海育大厦7层

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022102811547 申请日:20220321

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及文本分类技术领域,尤其涉及一种以理由依据为中心的人机协同文本分类方法及装置。

背景技术

文本分类是指对文本按照一定的标准进行自动分类标记的一种技术手段。相关技术可知,可以采用文本分类模型对输入的文本进行处理,以输出关于文本的分类结果。

然而,基于数据驱动的神经网络模型(例如文本分类模型)在小样本量训练下容易引入伪模式。其中,伪模式是指没有因果关系的特征与标签被误认为有因果关系,可以理解的是,伪模式下的特征被文本分类模型错误识别成为决定文本标签(又称分类标签)的理由信息,即这种伪特征与正确预测的关联称为伪模式。这种基于伪模式的神经网络模型(例如文本分类模型)在测试阶段通常是不符合逻辑因果关系的,会损害到在实际场景下分类任务的精准度。

发明内容

本发明提供一种以理由依据为中心的人机协同文本分类方法及装置,用以解决现有技术中文本分类模型由于伪模式的存在而导致分类结果不准确的缺陷,实现了基于标签理由对小样本量训练集进行数据增强,并基于数据增强后的训练集对文本分类模型进行训练,用以消除伪模式对文本分类模型的分类精度的影响,从而提高分类结果的准确度。

本发明提供一种以理由依据为中心的人机协同文本分类方法,所述方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将所述待分类文本输入至所述目标文本分类模型,得到所述目标文本分类模型输出的文本分类结果;其中,所述第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,所述初始训练集中各训练样本包括分类标签以及标签理由,所述标签理由为所述训练样本中决定所述分类标签的文本片段,所述初始训练集的样本量小于数量阈值;基于所述标签理由对所述初始训练集进行数据增强,得到所述第一数据增强后训练集。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述基于所述标签理由对所述初始训练集进行数据增强,得到所述第一数据增强后训练集,包括:基于所述标签理由,对所述初始训练集中与所述标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的标签理由增强训练样本;基于所述训练样本和所述标签理由增强训练样本,得到所述第一数据增强后训练集。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述基于所述标签理由,对所述初始训练集中与所述标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的标签理由增强训练样本,包括:基于所述标签理由,确定与所述标签理由对应的所述训练样本中的非标签理由,其中,所述非标签理由为所述训练样本中除所述标签理由之外的其他文本片段;对所述训练样本的所述非标签理由进行近义词替换,得到与所述训练样本对应的标签理由增强训练样本。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,在所述基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型之后,所述方法还包括:分别确定所述初始训练集中各训练样本的错误标签理由和丢失标签理由,其中,所述错误标签理由为与所述分类标签无因果关系但被所述目标文本分类模型错误识别为标签理由的所述训练样本的文本片段,所述丢失标签理由为与所述分类标签有因果关系但未被所述目标文本分类模型识别为标签理由的所述训练样本的文本片段;基于所述错误标签理由和所述丢失标签理由对所述初始训练集进行数据增强,得到第二数据增强后训练集;基于所述第二数据增强后训练集训练所述目标文本分类模型,得到优化后目标文本分类模型,并将所述优化后目标文本分类模型作为对所述待分类文本进行分类处理的目标文本分类模型。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述基于所述错误标签理由和所述丢失标签理由对所述初始训练集进行数据增强,得到第二数据增强后训练集,包括:基于所述错误标签理由,对所述初始训练集中与所述错误标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的错误标签理由增强训练样本;基于所述丢失标签理由,对所述初始训练集中与所述丢失标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的丢失标签理由增强训练样本;基于所述训练样本、所述错误标签理由增强训练样本和所述丢失标签理由增强训练样本,得到所述第二数据增强后训练集。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述基于所述错误标签理由,对所述初始训练集中与所述错误标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的错误标签理由增强训练样本,包括:对所述训练样本的所述错误标签理由进行近义词替换,得到与所述训练样本对应的错误标签理由增强训练样本。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述基于所述丢失标签理由,对所述初始训练集中与所述丢失标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的丢失标签理由增强训练样本,包括:在所述训练样本中提取包含所述丢失标签理由的文本片段,并将包含所述丢失标签理由的文本片段作为与所述训练样本对应的丢失标签理由增强训练样本。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述错误标签理由采用以下方式确定:基于事后组合成分分析算法去除第一训练样本的文本信息中的词组,得到第一测试训练样本;基于所述目标文本分类模型,得到关于所述第一测试样本的文本分类结果的第一置信度;基于所述目标文本分类模型,得到关于所述第一训练样本的文本分类结果的参考置信度;若所述第一置信度和所述参考置信度的差值的绝对值大于第一数值阈值,且被去除的词组与所述第一训练样本的标签理由不同,则将所述词组作为所述第一训练样本的错误标签理由。

根据本发明提供的一种以理由依据为中心的人机协同文本分类方法,所述丢失标签理由采用以下方式确定:基于事后组合成分分析算法去除第二训练样本的文本信息中的词组,得到第二测试训练样本;基于所述目标文本分类模型,得到关于所述第二测试样本的文本分类结果的第二置信度;基于所述目标文本分类模型,得到关于所述第二训练样本的文本分类结果的参考置信度;若所述第二置信度和所述参考置信度的差值的绝对值小于第二数值阈值,且被去除的词组与所述第二训练样本的标签理由相同,则将所述词组作为所述第二训练样本的丢失标签理由。

本发明还提供一种以理由依据为中心的人机协同文本分类装置,所述装置包括:确定模块,用于基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型,其中,所述第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,所述初始训练集中各训练样本包括分类标签以及标签理由,所述标签理由为所述训练样本的文本信息中决定所述分类标签的文本片段,所述初始训练集的样本量小于数量阈值;基于所述标签理由对所述初始训练集进行数据增强,得到所述第一数据增强后训练集;处理模块,用于获取待分类文本,并将所述待分类文本输入至所述目标文本分类模型,得到所述目标文本分类模型输出的文本分类结果。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的以理由依据为中心的人机协同文本分类方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的以理由依据为中心的人机协同文本分类方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的以理由依据为中心的人机协同文本分类方法。

本发明提供的以理由依据为中心的人机协同文本分类方法及装置,通过标签理由对小样本量的初始训练集进行数据增强,以得到第一数据增强后训练集,并基于第一数据增强后训练集对文本分类模型进行训练得到目标文本分类模型。再基于目标文本分类模型对待分类文本进行分类处理,用以消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是关于本发明中所述的伪模式示例的示意图;

图2是本发明提供的以理由依据为中心的人机协同文本分类方法的流程示意图之一;

图3是本发明提供的以理由依据为中心的人机协同文本分类方法的流程示意图之二;

图4是本发明提供的基于错误标签理由和丢失标签理由对初始训练集进行数据增强,得到第二数据增强后训练集的流程示意图;

图5是本发明提供的确定错误标签理由的流程示意图;

图6是本发明提供的确定丢失标签理由的流程示意图;

图7是关于本发明提供的以理由依据为中心的人机协同文本分类方法的场景应用示意图;

图8是本发明提供的以理由依据为中心的人机协同文本分类装置的结构示意图;

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

文本分类是指对文本按照一定的标准进行自动分类标记的一种技术手段。相关技术可知,可以采用文本分类模型对输入的文本进行处理,以输出关于文本的分类结果。

基于数据驱动的神经网络模型(例如文本分类模型)在小样本量训练下容易引入伪模式,进而导致输出的文本分类结果的准确度不高。其中,伪模式是指没有因果关系的特征与标签被误认为有因果关系。可以结合图1说明伪模式。假设一个神经网络模型正确的将一个电影评论预测为负面标签,且“表演和细节”(下划线的词语)这样的中性词汇被模型误认为是导致电影评论是负面情感的关键信息。然而根据人类常识,“糟糕透顶”和“令人失望”(粗体字的词语)才是电影评论是负面情感的真正理由。在这里,可以把被模型错误识别成理由信息的特征称为伪特征,而这种伪特征与正确预测的关联称为伪模式。

这些基于伪模式的神经网络模型在测试阶段(尤其是跨领域分布的测试数据上)通常是不符合逻辑因果关系的,会损害到在实际场景下分类任务的精准度。此外,依赖于伪模式的神经网络的泛化性能和鲁棒性能也受到了限制。

这些伪模式大多是由人为的数据集瑕疵或训练数据中的偏差引起的。特别地,当训练数据量极少(即只有少量带标签数据)的情况下,模型更加容易依赖伪模式。尽管存在这些问题,使用少量带标签数据来训练深度神经网络(又称为小样本学习)依旧是一个引人注目的场景,因为在现实应用中,未带标签的数据可能非常丰富,但带标签的数据获取成本很高。在本发明中,将通过因果关系指导下的数据增强来矫正小样本情形下模型伪模式。

本发明提出了一种以理由依据为中心的双鲁棒性深度学习模型,这是一种在小样本情景下用于数据增强的框架,它是高效的、鲁棒的、模型无关的、跨任务通用的方法。通过本发明提供的以理由依据为中心的人机协同文本分类方法,可以消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。

为了进一步介绍本发明提供的以理由依据为中心的人机协同文本分类方法,下面将结合下述实施例进行说明。

图2是本发明提供的以理由依据为中心的人机协同文本分类方法的流程示意图之一。

在本发明一示例性实施例中,如图2所示,以理由依据为中心的人机协同文本分类方法可以包括步骤210和步骤220,下面将分别介绍各步骤。

在步骤210中,基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型,其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

需要说明的是,数量阈值可以根据实际情况进行调整,在本实施例中不对数量阈值作具体限定。可以理解的是,初始训练集可以是小样本量的训练集,在一示例中,初始训练集可以是具有50个样本的小样本量的训练集。

在一种示例中,标签理由是指训练样本中决定分类标签的文本片段。对于一个标签为正面情感的电影评论(对应训练样本)“这部电影不错,我喜欢它”中的“不错”和“喜欢”,可以作为关于这条分类标签为正面情感的电影评论的标签理由。

在步骤220中,获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果。

在一种实施例中,可以基于第一数据增强后训练集训练文本分类模型,以得到目标文本分类模型,再基于目标文本分类模型对待分类文本进行分类处理,以得到关于待分类文本的文本分类结果。

其中,第一数据增强后训练集是包括在小样本量的初始训练集的基础上,基于各训练样本的标签理由生成多组半事实数据。在本实施例中,基于标签理由生成多组半事实数据,以实现对初始训练集的数据增强(即得到第一数据增强后训练集),可以花费更少的时间来生成更多有效的关于初始训练集的增强数据。在本实施例中,基于更多有效的关于初始训练集的增强数据,可以确保训练后的目标文本分类模型能够消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。并且基于实验结果表明,在本实施例中可以通过50个例子标注训练的模型(对应目标文本分类模型)在同等条件下能够与通过1707个例子训练出的模型保持相近的准确率。

本发明提供的以理由依据为中心的人机协同文本分类方法,通过标签理由对小样本量的初始训练集进行数据增强,以得到第一数据增强后训练集,并基于第一数据增强后训练集对文本分类模型进行训练得到目标文本分类模型。再基于目标文本分类模型对待分类文本进行分类处理,用以消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。

下面将结合下述实施例对基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集的过程进行说明。

在本发明一示例性实施例中,基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集可以采用以下方式确定:基于标签理由,对初始训练集中与标签理由对应的训练样本进行数据增强,得到与训练样本对应的标签理由增强训练样本;基于训练样本和标签理由增强训练样本,得到第一数据增强后训练集。

在应用过程中,可以基于初始训练集中每个训练样本的标签理由对每个训练样本进行数据增强,以得到与该训练样本对应的标签理由增强训练样本。再基于所有的训练样本和对应的所有的标签理由增强训练样本,构成第一数据增强后训练集。可以理解的是,第一数据增强后训练集包括基于小样本量的初始训练集来扩充更多有效的标签理由增强训练样本。基于标签理由增强训练样本和初始训练集可以构成第一数据增强后训练集。在本实施例中实现了基于小样本量的训练集可以得到样本量更大的数据增强后训练集,从而可以确保被训练的目标文本分类模型能够消除伪模式对文本分类模型的分类精度的影响,提高目标文本分类模型对待分类文本的分类结果的准确度。

为了进一步介绍本发明提供的以理由依据为中心的人机协同文本分类方法,下面将结合下述实施例对基于标签理由,对初始训练集中与标签理由对应的训练样本进行数据增强,得到与训练样本对应的标签理由增强训练样本的过程进行说明。

在本发明一示例性实施例中,基于标签理由,对初始训练集中与标签理由对应的训练样本进行数据增强,得到与训练样本对应的标签理由增强训练样本可以采用以下方式确定:基于标签理由,确定与标签理由对应的训练样本中的非标签理由,其中,非标签理由为训练样本中除标签理由之外的其他文本片段;对训练样本的非标签理由进行近义词替换,得到与训练样本对应的标签理由增强训练样本。

在一示例中,非标签理由是指训练样本中除标签理由之外的其他文本片段。继续以前文所述的“这部电影不错,我喜欢它”的训练样本为例进行说明。由于该训练样本的标签理由是“不错”和“喜欢”,该训练样本的非标签理由可以为“这部电影”。

在应用过程中,可以固定住训练样本的标签理由部分,对非标签理由部分进行多次近义词替换以生成多种不同的半事实数据,从而得到与该训练样本对应的标签理由增强训练样本。

继续以前述的训练样本“这部电影不错,我喜欢它”为例,基于该训练样本的标签理由得到的标签理由增强训练样本可以为“这个影片真不错,我喜欢它”。可以理解的是,标签理由增强训练样本的分类标签与对应的训练样本的分类标签一致。可以理解的是“这个影片真不错,我喜欢它”的标签为正面情感。在本实施例中通过构建第一数据增强后训练集可以增强文本分类模型对标签理由的依赖同时降低文本分类模型对非标签理由的依赖程度,从而可以确保被训练的目标文本分类模型能够消除伪模式对文本分类模型的分类精度的影响。

在一种实施例中,给定一个训练实例xi=[t

在应用过程中,可以针对每一训练样本,分别进行1:n的数据增强,以生成半事实数据(对应标签理由增强训练样本)。其中,n的取值为大于或等于1的正整数,n的具体值可以根据实际情况进行调整。考虑到人工生成反事实数据需要更多的时间且更难以控制数据生成的质量,本发明提供的初始训练集的数据增强方法(以得到第一数据增强后训练集)省时且省力。

人类的智能活动可以被分为三种层次,分别是观察、干预、和反事实。而过往人工智能模型研究都集中在观察层,即从数据中观察数据与标签之间的关联关系而不是因果关系进行模型训练。然而,要想真实场景下实现通用强人工智能,干预是格外重要的。因此,本发明将考虑动态干预从而在小样本量训练集下实现模型的快速准确泛化。

本发明将结合下述实施例对另一种以理由依据为中心的人机协同文本分类方法的过程进行说明。

图3是本发明提供的以理由依据为中心的人机协同文本分类方法的流程示意图之二。

在本发明一示例性实施例中,如图3所示,以理由依据为中心的人机协同文本分类方法的可以包括步骤310至步骤350,其中,步骤310与步骤210相同或相似,其具体实施方式和有益效果请参照前文的描述,在本实施例中不再赘述,下面将分别介绍步骤320至步骤350。

在步骤320中,分别确定初始训练集中各训练样本的错误标签理由和丢失标签理由,其中,错误标签理由为与分类标签无因果关系但被目标文本分类模型错误识别为标签理由的训练样本的文本片段,丢失标签理由为与分类标签有因果关系但未被目标文本分类模型识别为标签理由的训练样本的文本片段。

在一种实施例中,错误标签理由是指与分类标签无因果关系但被目标文本分类模型错误识别为标签理由的训练样本的文本片段。丢失标签理由是指与分类标签有因果关系但未被目标文本分类模型识别为标签理由的训练样本的文本片段。

继续以前文所述的训练样本“这部电影真不错,我喜欢它”为例,其中,文本分类模型是基于“这部影片”这一信息确定出该标签为正面情感,由于该训练样本的真正的标签理由是“不错”或“喜欢”,而文本分类模型识别到了错误的标签理由(这部影片),可以将该理由作为关于该训练样本的错误标签理由。在又一例中,文本分类模型并未基于“不错”或“喜欢”即判断出该训练样本的标签为正面情感,即文本分类模型漏掉了正确的理由(“不错”或“喜欢”),可以将该理由作为关于该训练样本的丢失标签理由。

在步骤330中,基于错误标签理由和丢失标签理由对初始训练集进行数据增强,得到第二数据增强后训练集。

在应用过程中,可以基于错误标签理由和丢失标签理由来生成关于训练样本的半事实数据,以此扩充初始训练集得到第二数据增强后训练集。

下面将结合图4对得到第二数据增强后训练集的过程进行说明。

在本发明一示例性实施例中,结合图4可知,基于错误标签理由和丢失标签理由对初始训练集进行数据增强,得到第二数据增强后训练集可以包括步骤410至步骤430,下面将分别介绍各步骤。

在步骤410中,基于错误标签理由,对初始训练集中与错误标签理由对应的训练样本进行数据增强,得到与训练样本对应的错误标签理由增强训练样本。

在一种实施例中,基于错误标签理由,对初始训练集中与错误标签理由对应的训练样本进行数据增强,得到与训练样本对应的错误标签理由增强训练样本可以采用以下方式确定:对训练样本的错误标签理由进行近义词替换,得到与训练样本对应的错误标签理由增强训练样本。

在步骤420中,基于丢失标签理由,对初始训练集中与丢失标签理由对应的训练样本进行数据增强,得到与训练样本对应的丢失标签理由增强训练样本。

在一种实施例中,基于丢失标签理由,对初始训练集中与丢失标签理由对应的训练样本进行数据增强,得到与训练样本对应的丢失标签理由增强训练样本可以采用以下方式确定:在训练样本中提取包含丢失标签理由的文本片段,并将包含丢失标签理由的文本片段作为与训练样本对应的丢失标签理由增强训练样本。

在步骤430中,基于训练样本、错误标签理由增强训练样本和丢失标签理由增强训练样本,得到第二数据增强后训练集。

在应用过程中,对于与错误标签理由对应的训练样本,可以使用同义词替换来生成半事实数据(对应错误标签理由增强训练样本)。在一示例中,可以对错误标签理由进行同义词替换,来得到错误标签理由增强训练样本。

对于与丢失标签理由对应的训练样本,可以采用一种简单的半事实数据(对应丢失标签理由增强训练样本)生成策略。即在对应的训练样本中提取包含丢失标签理由增的句子,来得到丢失标签理由增强训练样本。具体来说,给定一个含有丢失标签理由的训练样本,可以从训练样本中提取出包含丢失标签理由的文本片段作为新的实例,其中,这个新生成的实例的分类标签与该训练样本的分类标签相同。在一示例中,有一个正面情感标签的电影评论“罗伯特是一个很好的演员,他使这部电视电影有表现力”。该模型未能识别“很好”和“有表现力”为标签理由。因此,我们单独提取出这句话作为一个新的例子,将这个例子的标签仍然设定为正面情感。比起单独提取模型未能识别的标签理由,提取一整个句子可以保留了更多的语义信息。进一步的,可以将生成的实例添加到初始小样本训练集中对模型进行再训练。

在步骤340中,基于第二数据增强后训练集训练目标文本分类模型,得到优化后目标文本分类模型。

在步骤350中,获取待分类文本,并将待分类文本输入至优化后目标文本分类模型,得到优化后目标文本分类模型输出的文本分类结果。

在应用过程中,可以基于训练样本、错误标签理由增强训练样本和丢失标签理由增强训练样本,得到第二数据增强后训练集。进一步的,再基于第二数据增强后训练集训练目标文本分类模型,以得到优化后目标文本分类模型。在应用过程中,可以将优化后目标文本分类模型作为对待分类文本进行分类处理的目标文本分类模型,即将优化后目标文本分类模型作为最终的目标文本分类模型,用以基于优化后目标文本分类模型输出的文本分类结果。通过本实施例,可以进一步提高文本分类模型的分类结果的准确度。并且基于实验结果表明,在本实施例中可以通过50个例子标注训练的模型(对应优化后目标文本分类模型)在同等条件下能够与通过3414个例子训练出的模型保持相近的准确率。

需要说明的是,对于第二数据增强后训练集,可以由错误标签理由增强训练样本和初始训练集构成,还可以由丢失标签理由增强训练样本和初始训练集构成。

图5是本发明提供的确定错误标签理由的流程示意图。

本发明将结合图5对确定错误标签理由的过程进行说明。

在本发明一示例性实施例中,结合图5可知,确定错误标签理由可以包括步骤510至步骤540,下面将分别介绍各步骤。

在步骤510中,基于事后组合成分分析算法去除第一训练样本的文本信息中的词组,得到第一测试训练样本。

事后组合成分分析算法(又称SCD算法)是一种通过不断删除词语并测量模型分类预测中的变化来评估所删除词语重要性的算法。在一种实施例中,词组可以根据实际情况进行确定,可以按照单字、双字或三个字为单位进行划分得到。

在步骤520中,基于目标文本分类模型,得到关于第一测试样本的文本分类结果的第一置信度。

在步骤530中,基于目标文本分类模型,得到关于第一训练样本的文本分类结果的参考置信度。

在步骤540中,若第一置信度和参考置信度的差值的绝对值大于第一数值阈值,且被去除的词组与第一训练样本的标签理由不同,则将词组作为第一训练样本的错误标签理由。

第一数值阈值可以根据实际情况进行确定,在本实施例中不作具体限定。

图6是本发明提供的确定丢失标签理由的流程示意图。

本发明将结合图6对确定丢失标签理由的过程进行说明。

在本发明一示例性实施例中,结合图6可知,确定丢失标签理由可以包括步骤610至步骤640,下面将分别介绍各步骤。

在步骤610中,基于事后组合成分分析算法去除第二训练样本的文本信息中的词组,得到第二测试训练样本。

在步骤620中,基于目标文本分类模型,得到关于第二测试样本的文本分类结果的第二置信度。

在步骤630中,基于目标文本分类模型,得到关于第二训练样本的文本分类结果的参考置信度。

在步骤640中,若第二置信度和参考置信度的差值的绝对值小于第二数值阈值,且被去除的词组与第二训练样本的标签理由相同,则将词组作为第二训练样本的丢失标签理由。

其中,第二数值阈值可以根据实际情况进行确定,在本实施例中不作具体限定。

在应用过程中,事后组合成分分析算法可以作用于目标文本分类模型,并得到删除的词语对模型判断的关注度评分(对模型判断影响越大,得到越高)。同时,还可以利用训练样本中的标签理由和模型关注度评分相比较,得到两种模型常见的错误:模型识别到的错误理由(对应错误标签理由)和模型遗漏的正确理由(对应丢失标签理由)。

为了进一步介绍本发明提供的以理由依据为中心的人机协同文本分类方法,下面将结合图7进行说明。

图7是关于本发明提供的以理由依据为中心的人机协同文本分类方法的场景应用示意图。

在一种实施例中,结合图7可知,可以将基于第一数据增强后训练集训练文本分类模型的过程称为静态的非理性依据部分替换的过程。在应用过程中,继续以训练样本为“这部电影不错,我喜欢它”(分类标签为正面情感)为例进行说明。可以进行该训练样本的理由依据标注,即可以标注出决定分类标签的文本片段“不错”和“喜欢”,并将其作为训练样本的标签理由。进一步的,可以基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

在应用过程中,可以基于标签理由,确定与标签理由对应的训练样本中的非标签理由,其中,非标签理由为训练样本中除标签理由之外的其他文本片段;对训练样本的非标签理由进行近义词替换,得到与训练样本对应的标签理由增强训练样本。

继续以前文所述的训练样本为“这部电影不错,我喜欢它”为例,其中,非标签理由为“这部电影”,进行同义替换后为“这个影片”,进而可以得到与训练样本对应的标签理由增强训练样本“这个影片真不错,我喜欢它”。进一步的,再基于训练样本和标签理由增强训练样本,得到第一数据增强后训练集。基于第一数据增强后训练集对文本分类模型进行训练,以得到目标文本分类模型。

进一步的,可以将基于第二数据增强后训练集训练目标文本分类模型的过程称为动态的人工干预纠正模型判断依据的过程。在应用过程中,可以通过事后组合成分分析算法得到关于训练样本的错误标签理由和丢失标签理由。并基于错误标签理由进行关于模型错误的依据修正,以及基于丢失标签理由进行关于模型遗漏的依据修正。

继续以前文所述的训练样本“这部电影真不错,我喜欢它”为例,其中,文本分类模型是基于“影片真”这一信息确定出该标签为正面情感,由于该训练样本的真正的标签理由是“不错”或“喜欢”,而文本分类模型识别到了错误的理由(影片真),可以将该理由作为关于该训练样本的错误标签理由。

在又一例中,文本分类模型并未基于“喜欢”即判断出该训练样本的标签为正面情感,即文本分类模型漏掉了正确的理由(“喜欢”),可以将该理由作为关于该训练样本的丢失标签理由。

在应用过程中,可以基于错误标签理由和丢失标签理由来生成关于训练样本的半事实数据,以此扩充初始训练集得到第二数据增强后训练集。在应用过程中,对于与错误标签理由对应的训练样本,可以使用同义词替换来生成半事实数据(对应错误标签理由增强训练样本)。在一示例中,可以对错误标签理由进行同义词替换,来得到错误标签理由增强训练样本。继续以前文所述的错误标签理由为“影片真”为例进行说明,对错误标签理由进行同义词替换得到错误标签理由增强训练样本(电影相当不错,我喜欢它)。

在又一示例中,对于与丢失标签理由对应的训练样本,可以采用一种简单的半事实数据(对应丢失标签理由增强训练样本)生成策略。即在对应的训练样本中提取包含丢失标签理由增的句子,来得到丢失标签理由增强训练样本。继续以前文所述的丢失标签理由为“喜欢”为例进行说明,从训练样本中提取出包含丢失标签理由的文本片段作为新的实例,可以得到丢失标签理由增强训练样本(我喜欢它)。

进一步的,可以基于训练样本、错误标签理由增强训练样本和丢失标签理由增强训练样本,得到第二数据增强后训练集,并基于第二数据增强后训练集训练目标文本分类模型,得到优化后目标文本分类模型。基于目标文本分类模型对待分类文本进行分类处理,用以消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。

本发明提供的以理由依据为中心的人机协同文本分类方法可以通过少量的训练样本集提高预训练语言(例如文本分类模型)在任务分类上的可泛化性。本发明提出了一种在小样本下基于大规模预训练语言模型训练文本分类器的训练方法,其独特的数据构造方式以及引入人工标注(对应训练样本的标签理由)的训练方式旨在让模型用最少的数据训练获得最佳的泛化性与鲁棒性(通过控制模型判断依据与人类判断逻辑保持一致)。实验结果表明,本发明可以通过50个例子标注训练的模型在同等条件下能够与通过1707个例子训练出的模型保持相近的准确率。本发明可应用在工业界任何需要文本分类的场景下(例如市场情感分析场景、新闻数据分类场景和对话意图识别场景等),具有广泛的使用价值。并且,本发明仅需要少量的训练样本,减少了模型训练的成本。

根据上述描述可知,本发明提供的以理由依据为中心的人机协同文本分类方法,通过标签理由对小样本量的初始训练集进行数据增强,以得到第一数据增强后训练集,并基于第一数据增强后训练集对文本分类模型进行训练得到目标文本分类模型。再基于目标文本分类模型对待分类文本进行分类处理,用以消除伪模式对文本分类模型的分类精度的影响,从而提高目标文本分类模型对待分类文本的分类结果的准确度。

基于相同的构思,本发明还提供一种以理由依据为中心的人机协同文本分类装置。

下面对本发明提供的以理由依据为中心的人机协同文本分类装置进行描述,下文描述的以理由依据为中心的人机协同文本分类装置与上文描述的以理由依据为中心的人机协同文本分类方法可相互对应参照。

图8是本发明提供的以理由依据为中心的人机协同文本分类装置的结构示意图。

在本发明一示例性实施例中,以理由依据为中心的人机协同文本分类装置可以包括确定模块810和处理模块820,下面将分别介绍各模块。

确定模块810可以被配置为用于基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型,其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本的文本信息中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

处理模块820可以被配置为用于获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果。

在本发明一示例性实施例中,确定模块810可以采用以下方式基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集:基于标签理由,对初始训练集中与标签理由对应的训练样本进行数据增强,得到与训练样本对应的标签理由增强训练样本;基于训练样本和标签理由增强训练样本,得到第一数据增强后训练集。

在本发明一示例性实施例中,确定模块810可以采用以下方式基于标签理由,对初始训练集中与标签理由对应的训练样本进行数据增强,得到与训练样本对应的标签理由增强训练样本:基于标签理由,确定与标签理由对应的训练样本中的非标签理由,其中,非标签理由为训练样本中除标签理由之外的其他文本片段;对训练样本的非标签理由进行近义词替换,得到与训练样本对应的标签理由增强训练样本。

在本发明一示例性实施例中,确定模块810还可以被配置为用于分别确定初始训练集中各训练样本的错误标签理由和丢失标签理由,其中,错误标签理由为与分类标签无因果关系但被目标文本分类模型错误识别为标签理由的训练样本的文本片段,丢失标签理由为与分类标签有因果关系但未被目标文本分类模型识别为标签理由的训练样本的文本片段;基于错误标签理由和丢失标签理由对初始训练集进行数据增强,得到第二数据增强后训练集;基于第二数据增强后训练集训练目标文本分类模型,得到优化后目标文本分类模型,并将优化后目标文本分类模型作为对待分类文本进行分类处理的目标文本分类模型,即将优化后目标文本分类模型作为最终的目标文本分类模型。

在本发明一示例性实施例中,确定模块810可以采用以下方式基于错误标签理由和丢失标签理由对初始训练集进行数据增强,得到第二数据增强后训练集:基于错误标签理由,对初始训练集中与错误标签理由对应的训练样本进行数据增强,得到与训练样本对应的错误标签理由增强训练样本;基于丢失标签理由,对初始训练集中与丢失标签理由对应的训练样本进行数据增强,得到与训练样本对应的丢失标签理由增强训练样本;基于训练样本、错误标签理由增强训练样本和丢失标签理由增强训练样本,得到第二数据增强后训练集。

在本发明一示例性实施例中,确定模块810可以采用以下方式基于错误标签理由,对初始训练集中与错误标签理由对应的训练样本进行数据增强,得到与训练样本对应的错误标签理由增强训练样本:对训练样本的错误标签理由进行近义词替换,得到与训练样本对应的错误标签理由增强训练样本。其中,近义词替换步骤可以由预训练模型提供的预测掩码词的功能接口实现。

在本发明一示例性实施例中,确定模块810可以采用以下方式基于丢失标签理由,对初始训练集中与丢失标签理由对应的训练样本进行数据增强,得到与训练样本对应的丢失标签理由增强训练样本:在训练样本中提取包含丢失标签理由的文本片段,并将包含丢失标签理由的文本片段作为与训练样本对应的丢失标签理由增强训练样本。

在本发明一示例性实施例中,确定模块810可以采用以下方式确定错误标签理由:基于事后组合成分分析算法去除第一训练样本的文本信息中的词组,得到第一测试训练样本;基于目标文本分类模型,得到关于第一测试样本的文本分类结果的第一置信度;基于目标文本分类模型,得到关于第一训练样本的文本分类结果的参考置信度;若第一置信度和参考置信度的差值的绝对值大于第一数值阈值,且被去除的词组与第一训练样本的标签理由不同,则将词组作为第一训练样本的错误标签理由。

在本发明一示例性实施例中,确定模块810可以采用以下方式确定丢失标签理由:基于事后组合成分分析算法去除第二训练样本的文本信息中的词组,得到第二测试训练样本;基于目标文本分类模型,得到关于第二测试样本的文本分类结果的第二置信度;基于目标文本分类模型,得到关于第二训练样本的文本分类结果的参考置信度;若第二置信度和参考置信度的差值的绝对值小于第二数值阈值,且被去除的词组与第二训练样本的标签理由相同,则将词组作为第二训练样本的丢失标签理由。

图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行以理由依据为中心的人机协同文本分类方法,该方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果;其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的以理由依据为中心的人机协同文本分类方法,该方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果;其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的以理由依据为中心的人机协同文本分类方法,该方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果;其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号