首页> 中国专利> 一种基于大规模问题自学习的无监督机器阅读理解方法

一种基于大规模问题自学习的无监督机器阅读理解方法

摘要

本发明公开了一种基于大规模问题自学习的无监督机器阅读理解方法,首先将数据分为四种类型:然后按以下步骤进行:S1、对未标注的通用数据使用标准预训练模型进行训练得到预训练语言模型;S2、对已标注的通用数据使用预训练语言模型进行训练得到问题生成器,并生成特定任务通用领域模型;S3、对未标注的域内数据使用问题生成器生成合成的域内数据,然后使用特定任务通用领域模型进行过滤,再对过滤得到的高质量的合成的域内数据集进行训练得到新预训练模型;S4、对已标注的域内数据通过过滤得到的低质量的合成数据集进行混合并标记答案,然后使用新预训练模型进行训练得到最终模型;基于最终模型,输入数据得到机器阅读理解的结果。

著录项

  • 公开/公告号CN113836895A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 宏龙科技(杭州)有限公司;

    申请/专利号CN202111151305.9

  • 发明设计人 赵天成;

    申请日2021-09-29

  • 分类号G06F40/211(20200101);G06F40/253(20200101);G06F40/295(20200101);G06F40/58(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33295 杭州知见专利代理有限公司;

  • 代理人卢金元

  • 地址 310000 浙江省杭州市滨江区浦沿街道浦沿路88号1幢3楼31191室

  • 入库时间 2023-06-19 13:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-08

    专利申请权的转移 IPC(主分类):G06F40/211 专利申请号:2021111513059 登记生效日:20221026 变更事项:申请人 变更前权利人:宏龙科技(杭州)有限公司 变更后权利人:宏龙科技(杭州)有限公司 变更事项:地址 变更前权利人:310000 浙江省杭州市滨江区浦沿街道浦沿路88号1幢3楼31191室 变更后权利人:310000 浙江省杭州市滨江区长河街道秋溢路399号3号楼303室 变更事项:申请人 变更前权利人: 变更后权利人:杭州联汇科技股份有限公司

    专利申请权、专利权的转移

说明书

技术领域

本发明涉及机器阅读理解领域,尤其是涉及一种基于大规模问题自学习的无监督机器阅读理解方法。

背景技术

许多用于自然语言处理(NLP)任务的最新算法都需要人工标注的数据。在早期我们通常没有任何特定于域的标记数据集,并且对足够数量的此类数据进行注释通常是昂贵且费力的。因此,对于许多NLP应用程序,即使是资源丰富的语言(如英语)也仅在少数几个域中标记了数据。

在许多NLP应用程序中,获取大量带标签的数据非常困难。因此,在许多情况下,我们会从少量数据中训练模型。但是,训练后的模型通常过拟合,需要将其推广到看不见的数据。因此,研究人员通过预训练语言模型来利用大量未标记的数据集,这通常可以缓解网络权重用于随机初始化的问题,从而找到更好的局部最优值并提高代理在不可见环境中的健壮性。

最近机器阅读理解(MRC)的重大进步通过在大量未标记文本数据上对Transformer语言模型进行预训练,并在手动标注的QA数据集上对预训练的模型进行了微调来实现。在预训练语言模型的上下文中,Gururangan显示了使用域内数据进行额外预训练对改善下游特定任务性能的重要性。

发明内容

本发明主要是提供一种基于大规模问题自学习的无监督机器阅读理解方法,从而可以在一个全新的领域实现冷启动。

本发明针对上述技术问题主要是通过下述技术方案得以解决的:首先将数据分为四种类型:未标注的通用数据,已标注的通用数据,未标注的域内数据,已标注的域内数据,然后按以下步骤进行:

S1、针对未标注的通用数据,使用标准预训练模型进行训练,得到基于Transformer的预训练语言模型作为架构的最底层;

S2、针对已标注的通用数据,使用步骤S1得到的预训练语言模型进行训练得到问题生成器,同时使用已标注的通用数据来生成特定任务通用领域模型;

S3、针对未标注的域内数据,使用步骤S2中构建的问题生成器生成合成的域内数据,然后使用特定任务通用领域模型进行过滤,过滤后得到高质量的合成的域内数据集和低质量的合成数据集,再对高质量的合成的域内数据集进行训练得到新预训练模型;

S4、针对已标注的域内数据,通过过滤得到的低质量的合成数据集进行混合并标记答案,然后使用新预训练模型进行训练得到最终机器阅读理解模型;

基于最终机器阅读理解模型,输入数据得到机器阅读理解的结果。

作为优选,步骤S1中,采用GPT-2模型或者T5模型来进行模型学习。

作为优选,基于训练后T5模型进行问题生成具体为:提取答案;依据提取的答案生成问题;接受该问题并产生一个答案;对提取的答案和产生的答案进行比较,判断生成的问题是否正确;

基于训练后的GPT-2模型进行问题生成具体为:给定语言的自然顺序,将序列s=(s

在GPT-2模型训练完成后,对每一个新的单词,模型计算出根据现有所有字符为依据,下一个词的概率;然后根据概率,选出前K位的高概率词,在这K个候选词中进行随机采样;这个过程不断重复,直到特殊符号或者句子结束符号出现;

针对问题生成这个场景,用特别的符号标注源文中潜在答案的位置,对于一个段落C=[c

X=([CLS],C,[SEP],A)

给定上述X,我们将其输入训练后的GPT-2模型或者训练后的T5中后得到隐向量:

H=Model(x)

X是输入长度,h是隐向量的大小;最后H会再输入一层全链接网络得到最终结果:

式中,w是一个单词,W是一个矩阵,b是系数,最终得到的是argmax输出的最佳单词。W和b均通过学习得到。

作为优选,步骤S3中,对具有往返一致性的生成数据进行主动学习,从而根据现有模型在不同纬度上的优缺点,主动筛选出训练数据分布中的薄弱环节,建议应标记的下一批数据。

作为优选,步骤S3中,通过往返一致性进行数据过滤,通过主动学习提高学习效率。

本发明带来的实质性效果是,适用于没有任何标记和非常小的标记数据的情况,显著提高了模型的准确度。

附图说明

图1是本发明的一种流程图。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。

实施例:我们使用多种预训练语言模型(例如GPT-2和T5)从域内文本的未标记段落生成大量的潜在问题和答案数据,有这种方法让我们可以在一个全新的领域实现冷启动。然后我们根据这些生成的样本对模型进行预训练,最后对特定的标记数据集进行微调。

尽管在SQuAD1.1训练数据集上进行了特定领域训练的模型在SQuAD1.1 Dev数据集上达到了最先进的性能(EM分数为85%),但完全无法在全新的领域进行同样水准的推理,即NewQA(EM得分为32%)。我们发现,在使用合成数据集对模型进行预训练时,防止合成数据集过拟合至关重要,因为它通常包含很多嘈杂的样本。但是,当早期没有或只有很少的域内训练数据时,这些合成数据集非常有用,因为我们可以通过这种方法在一个全新领域自动生成“机器”标注的训练数据。

通过这种方法,无需任何标记数据的情况下,获得80%的最终性能。而且,当我们注入少量带标签的数据(原始数据的10%)时,由预训练的模型可以快速达到相当于94%的最终性能水平。最后我们通过用来严格测试NLP模型的NLP Checklist测试框架来评估DataDream。我们的方法在NLP Checklist中通用语言能力测试项目中(如同义词,问题拼写,时间变化等)将错误减少了18%。

问题生成是一个有悠久历史的研究课题,使用生成的问答对来改善质量保证体系,显示了在仅仅具有少样本数量的情况下,在低资源环境下的巨大改进。然而,验证和提高这些生成的QA对的准确性还相对缺乏探索。

在机器翻译中,在两个翻译方向上通过双重学习或回译进行建模一致性可以提高翻译模型的质量。反向翻译将合成生成的并行数据添加为训练示例,这是这项工作的灵感,并在有监督的和无监督的设定下中都得到了最优秀的性能。可以在给定上下文的情况下对问题和答案的联合分布进行建模,并直接使用此模型,而我们的工作使用生成模型来生成用于预训练的综合数据。将这两种方法结合起来可能会是一个富有成果的未来工作领域。

QG被用于扩充用于回答问题的训练数据,并且专注于基于文本的质量检查任务,旨在从给定输入问题的文本中选择一个或多个答案句子。通过对句子进行排名时比较生成的问题和原始问题,从而配置在训练时每个数据点的权重。

基于翻译的数据增强机制可以引入来回答问题。但是,这些方法高度取决于翻译系统的可用性和质量。尽管我们可以在使用MT的训练中增加更多数据,但是由于难以找到其他语言的领域特定数据,因此它仍未得到明显改善。

使用Synthetic QA Corpora Generation可以通过往返一致性改善总体MRC任务。为了使往返一致,应该已经训练了模型。与我们工作的主要不同之处在于我们假设我们的数据集很小,并且很难建立初始模型。但是,他们假设他们已经有模型,以及何时要进一步改进模型。因此,很难显示出对新域数据集的改进,并且难以始终如一地提高跨域的性能。

我们提出的Data Dream带来的主要贡献有四个方面:

1.我提出了针对小样本情况下构建NLP系统的四个步骤。

2.我们使用多种不同的异类预训练语言模型构建Synthetic QA Corpora,并显示在新域上的性能改进。

3.我们在NLP Checklist上进行了测试,该评测方法可以用于对NLP模型的严格测试,我们提出的方法超出了基线的准确性,并且发现在通用语言功能的错误率大幅度降低。

4.如果预测的答案不同,我们通过对生成的问题进行主动学习来进一步提高性能。

根据不同数据集,我们的总体流程分为四个阶段。首先对于任何NLP领域或者任务,我们可以将数据集分为四种类型:

1.未标注的通用数据(例如,BookCorpus,Wikipedia等)。

2.已标注的通用数据(或域外数据)(例如,SquAD,TriviaQA,HotpotQA等)。

3.未标注的域内数据(例如,司法判例,保险条款,技术说明等)。

4.有标注的域内数据(例如,人工标注的法律卷宗)。

这4个步骤基于数据集的大小,我们采取不同的处理方式:

第一步(未标注的通用数据):对未标记的通用域数据集的研究已积极开展了3年。大量文本数据用于构建基于转换器的预训练语言,BERT,GPT-2,T5等预训练模型已成为标准的NLP处理。我们使用基于Transformer的语言模型作为我们架构的最底层。

第二步(标注过的通用数据):我们的目标是建立机器阅读理解模型,因此有许多公开可用的数据集。我们使用该数据集制作合成数据生成器,以制作大规模的域内数据集。此外,我们使用标记的领域通用数据集来使任务特定的(本工作中的MRC任务)成为通用领域模型。

第三步(未标注的行业数据):我们使用步骤2中构建的问题生成器生成许多合成的域内数据。生成大量数据后,我们使用域模型模型进行过滤,该模型借鉴了往返一致问题生成的思想。高质量的样本将被用于构建预训练模型,并且我们使用进一步的滤波方法来提高性能。并且,当我们人工标注这些数据时,可以将预训练的模型用作注释助手。

第四步(标注过的行业数据):在最后一步,我们应用主动学习,该学习使用来自一般模型的否定合成数据发送到人工注释者来标记答案。如果生成的问题不合语法且难以理解,我们会要求注释者尽可能修改生成的问题并注释答案。最后,我们使用域内标记的数据集训练最终模型。

在下面的章节,我们将详细讲解每一步的实现方式。

第一步:未标注通用数据自学习

这一步我们采用了两种不同的策略对于未标注的通用数据进行模型学习。第一种方法由GPT-2提出。GPT-2是OpenAI于2019年2月发布的基于transformer的大型语言模型,包含15亿参数、在一个800万网页数据集上训练而成。该模型是对GPT模型的直接扩展,在超出10倍的数据量上进行训练,参数量也多出了10倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了SOTA表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

第二种策略由T5提出。T5的训练数据包括为Colossal Clean Crawled Corpus(即C4语料库),该数据集从Common Crawl网站上抓取数百个千兆字节干净的英文文本。而T5的模型是一个标准的基于Transformer的Encoder-Decoder模型,模型参数量达到了110亿。

第二步:通过标注过的通用数据训练生成模型。

问题生成是根据文本段落自动生成问题的任务。最简单的方法是回答问题。在知道答案的问题生成中,向模型提供答案和段落,并通过考虑段落上下文来要求为该答案生成问题。原因之一是大多数较早的论文都使用复杂的模型/处理管道,并且没有可用的预训练模型。因此,机器生成的问题通常是不合语法的且难以理解,因此很难在实际应用中使用生成的数据。但是,由预训练转换器模型支持的文本生成技术的最新进展使我们能够生成合理的合成数据。我们使用了现成的最强大的生成方法:基于T5的生成和基于GPT-2的生成。

基于T5的问题生成:T5是一个非常庞大的新型神经网络模型,它在混合了来自流行自然语言处理任务的未标记文本和标记数据的基础上进行了训练,然后针对其作者要解决的每个任务进行单独的微调。T5是在无监督和受监督任务的多任务混合物上进行预训练的编码器-解码器模型,为此,每个任务都转换为文本到文本格式。为了生成知道答案的问题,我们通常需要3个模型,第一个将像跨度那样提取答案,第二个模型将在该答案上生成问题,第三个将是一个QA模型,它将接受该问题并产生一个答案,然后我们可以将两者进行比较回答以查看生成的问题是否正确。具有3个用于单个任务的模型非常复杂,因此目标是创建一个可以同时完成这3个任务的多任务模型。

基于GPT-2的问题生成:对于使用GPT-2生成问题,我们遵循原始的标准文本生成策略。给定语言模型的自然顺序,可以将序列s=(sl,..,sn)的联合概率分解为条件式的乘积

在上述概率模型训练完成后,问题生成的部分可以通过多种随机采样策略实现,包括序列top-k。对于每一个新的单词,模型计算出根据现有所有字符为依据,下一个词的概率。然后根据概率,选出前K位的高概率词,在这K个候选词中进行随机采样。这个过程不断重复,直到特殊符号,包含“?”或者句子结束符号出现。

此外,针对问题生成这个场景,我们用特别的符号标注源文中潜在答案的位置,比如说对于一个段落C=[C

X=([CLS],C,[SEP],A)

给定上述X,我们可以将其输入GPT-2或者T5中后得到隐向量:

H=Model(x)

X是输入长度,h是隐向量的大小。最后H会再输入一层全链接网络得到最终结果:

第三步:通过第二步的模型标注行业数据。

针对AI模型训练需要大量的人工标注。但人工标注的过程成本很高。另外,注释者很难决定在机器学习理解中要问什么,并且人类注释者有很多重复项。如果主动学习者在预测方面产生最多分歧,则决定查询oracle以标记数据样本。这可以通过熵和KL-散度来度量。输出预测中的高方差表示信息最多的数据样本。在本文中,我们对具有往返一致性的生成数据进行主动学习,从而根据现有模型在不同纬度上的优缺点,主动筛选出训练数据分布中的薄弱环节,建议应标记的下一批数据,从而降低了数据标记的成本,并增加了每个手动标记的数据点的价值。

在获得上述问题生成模型之后,我们可以用基于T5或者GPT-2的问题模生成模型对于任何未标注的行业数据进行标注,自动产生潜在的相关问题,用来训练第四部的问答模型。可是,直接使用所有生成的问题实现训练效果并不理想,这是因为生成的问题涵盖大量杂音。因此,我们发明了往返一致性的方法来实现对于数据质量的把控。

通过往返一致性进行数据过滤:可以使用往返一致性来过滤数据。如果模型无法回答所生成的问题,则可以过滤示例。我们也采用了这个方法对数据进行过滤。但是,已有的工作与我们的工作之间存在一些差异:

我们假设不存在迅雷链数据,所以我们的MRC是直接训练在生成数据之上。

他们的方法假设有训练数据,并且目标是在有训练数据的前提下提高性能。

在训练的过程中,我们用使用indicator function I(q):

其中

通过主动学习提高学习效率:首先,我们对命名实体或名词短语生成问题,然后从通用域运行训练过的的MRC模型。如果模型无法预测答案,我们将保存所有样本以进行主动学习。我们通过如下策略选择模型最没有把握的数据实现主动学习。

其中

第四步:用标注过的行业数据进行精调

训练细节:当我们拥有大量在现实世界中大多数情况下的域内未标记数据时,我们的方法可以对那些大量未标记数据集进行特定于任务的预训练。整个培训流程遵循以下步骤;

1.在公开可用的QA数据集(例如SQUAD,NQ和MARCO)上,从多种预训练语言模型(例如GPT-2和T5)构建多个问题生成器。

2.使用问题生成器生成大量的问题。

3.利用生成的数据集进行预训练。

4.将上一步的模型在标注过的数据集上进行微调。

我们使用大量生成的质量检查数据集进行预训练。我们使用了Span Bert架构进行预训练和微调。微调过程的目标功能是仅使用标记的数据来减少训练错误。微调步骤的主要目的是重新调整权重,这些权重可能由于生成错误而被错误地训练。

使用SQuAD和NewsQA评估最终模型。SQuAD用于探究域内QG预训练的效果,这意味着使用相同的数据集进行问题生成和跨度预测模型。为了验证与QG模型源完全不同的新域,我们假设NewsQA数据集是新域数据集,并且不包含任何训练,既不生成问题也不进行预训练。评估指标包括标准MRC指标:EM和F1评分。

·Exact Match(EM):Top-1个答案的范围与正确答案完全匹配。

·Fl-Score:我们在单词级别计算返回的跨度和地面真相答案之间的单词重叠。

域内vs.域外:在对来自同一数据集的示例进行训练和测试时,最近的自然语言处理模型已经取得了令人印象深刻的性能,但是在域外(OOD)的示例上往往表现不佳,因为在测试中会出现许多看不见的事件。

我们使用SpanBERT体系结构,该体系结构专注于预训练跨度表示形式以实现当前的最新结果,以显示域内和域外数据集之间的性能差异如何。我们假设

SQuADl.l训练数据集是使用训练问题生成和预训练的域内数据集。我们使用NewsQA数据集作为域外语料,其中不包含任何训练样本。我们发现,对域外数据进行测试时,EM得分降低了78.5%(80.40%->17.26%)

Checklist评测:尽管测量保持的准确性一直是评估泛化的主要方法,但它常常高估了性能NLP模型,而评估模型的替代方法则着重于单个任务或特定行为。为启发根据软件工程中行为测试的原理,可以引入了CheckList,一种用于测试NLP模型的与任务无关的方法。Checklist包括一个通用语言能力和测试类型的矩阵,这些矩阵有助于进行全面的测试构想。他们通过测试三个任务来说明Checklist的实用性,确定了商业模型和最新模型中的关键故障。所提出的方法,基于问题生成的预训练,实现了18%的失败率降低,尤其是在动物vs车辆v2(降低39%),公平(降低44%),时间(降低93%)方面。

标注数据大小的影响:为了探索数据大小的预训练的有效性,我们在10%的数据集和100%的数据集上测试了QG预训练。结果表明,当我们有足够的数据集时,该模型收敛速度更快,但与最终得分没有太大差异。这表明,QG预训练在早期要比在后期更有用。

生成数据大小的影响我们发现使用基于T5的生成的预训练模型比基于GPT-2的生成的性能更好。但是,当我们同时添加这两个数据时,性能将大大提高。生成的问题通常比人类更长,并且同时使用GPT和T5生成,我们能够添加更多不同的问题和答案来进行培训。在同一答案“Moninder Singh Pandher”上,T5,GPT和人类完全提出了疑问吗?(T5:谁被下级法院判处死刑?”,GPT:杀害这名少年的工匠?,人类:谁被无罪释放?”)每个模型之间只有很少的单词重叠。因此,模型的多样性提高了后续MRC模型的泛化性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了标注、域内等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号