首页> 中国专利> 跨语言自动摘要生成模型建立方法及摘要生成方法

跨语言自动摘要生成模型建立方法及摘要生成方法

摘要

本公开提供了跨语言自动摘要生成模型建立方法,包括:对跨语言文档‑摘要平行数据集中的文档‑摘要数据进行预处理,对每个源语言文档‑目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将源语言伪参考摘要机器翻译为目标语言伪参考摘要;判断每个源语言文档‑目标语言参考摘要平行数据的目标语言伪参考摘要与目标语言参考摘要之间的相似度,基于相似度,保留或者舍弃源语言伪参考摘要;以及至少将更新后的跨语言文档‑摘要平行数据集中的所有【源语言文档‑目标语言参考摘要‑源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,训练收敛后即获得跨语言自动摘要生成模型。

著录项

  • 公开/公告号CN112364158A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 北京中科凡语科技有限公司;

    申请/专利号CN202011309483.5

  • 发明设计人 周玉;

    申请日2020-11-20

  • 分类号G06F16/34(20190101);G06F40/58(20200101);G06N3/08(20060101);

  • 代理机构11807 北京庚致知识产权代理事务所(特殊普通合伙);

  • 代理人韩德凯;李晓辉

  • 地址 100190 北京市海淀区知春路63号51号楼10层1006

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本公开属于自然语言处理技术领域,本公开涉及一种跨语言自动摘要生成模型建立方法、跨语言自动摘要生成方法、装置、电子设备及存储介质。

背景技术

跨语言自动摘要是一项对源语言文档核心信息进行提炼,以目标语言(不同于源语言)的方式组织成摘要的任务。

因为平行数据的缺失,大多数的跨语言自动摘要方法只能采用管道式方法实现,容易造成误差传播的问题。

近年来,随着大规模跨语言自动摘要数据集的构建,已有研究开始关注基于深度学习的跨语言自动摘要方法。其中一类较为典型的方法是基于多任务学习的方法,该方法将跨语言自动摘要模型同单语自动摘要模型联合进行优化,取得了较好的性能。然而该方法使用两种各自独立的解码器去为源文档同时生成源语言和目标语言的摘要,使得其中的双语信息无法得到充分利用。

发明内容

为了解决上述技术问题中的至少一个,本公开提供了一种跨语言自动摘要生成模型建立方法、跨语言自动摘要生成方法、装置、电子设备及存储介质。

根据本公开的一个方面,提供一种跨语言自动摘要生成模型建立方法,包括:S1、对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,所述跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,所述源语言文档-目标语言参考摘要平行数据包括源语言文档和与所述源语言文档对应的目标语言参考摘要;S2、对每个所述源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将所述源语言伪参考摘要机器翻译为目标语言伪参考摘要;S3、判断每个所述源语言文档-目标语言参考摘要平行数据的所述目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的所述目标语言参考摘要之间的相似度,基于所述相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,更新所述跨语言文档-摘要平行数据集;以及S4、至少将更新后的所述跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,训练收敛后即获得所述跨语言自动摘要生成模型。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,基于所述相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,包括:当相似度低于预设阈值,舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,当相似度大于或等于预设阈值,保留该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,基于所述相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,包括:当相似度低于或等于预设阈值,舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,当相似度大于预设阈值,保留该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述相似度为ROUGE指标。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述编码器&解码器框架包括源语言端文档编码器、源语言端摘要解码器以及目标语言端摘要解码器,不同语言各自使用独立的词汇表。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述编码器&解码器框架采用Transformer架构。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,步骤S4中,至少将更新后的所述跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,包括:对于每个所述【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组中的源语言文档,所述源语言端摘要解码器以及所述目标语言端摘要解码器同步地进行摘要解码,且在解码过程中,所述目标语言端摘要解码器在解码时刻对所述源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的目标语言摘要词汇进行预测,所述源语言端摘要解码器在解码时刻对所述源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的源语言摘要词汇进行预测。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述目标语言端摘要解码器在解码时刻对所述源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的目标语言摘要词汇进行预测,包括:所述目标语言端摘要解码器对所述已生成的源语言摘要词汇进行注意力分布计算,并计算所述已生成的源语言摘要词汇的语义向量,所述目标语言端摘要解码器至少基于所述已生成的源语言摘要词汇的注意力分布以及语义向量进行所述融合。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述源语言端摘要解码器在解码时刻对所述源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的源语言摘要词汇进行预测,包括:所述源语言端摘要解码器对所述已生成的目标语言摘要词汇进行注意力分布计算,并计算所述已生成的目标语言摘要词汇的语义向量,所述源语言端摘要解码器至少基于所述已生成的目标语言摘要词汇的注意力分布以及语义向量进行所述融合。

根据本公开的至少一个实施方式的跨语言自动摘要生成模型建立方法,所述跨语言自动摘要生成模型所预测的源语言摘要以及目标语言摘要根据所述源语言伪参考摘要以及所述目标语言参考摘要计算负对数似然损失,基于所述负对数似然损失,使用反向传播算法对所述模型的参数进行更新。

根据本公开的另一个方面,提供一种跨语言自动摘要生成方法,使用上述任一项所述的跨语言自动摘要生成模型建立方法建立的跨语言自动摘要生成模型对输入的源语言文档进行同步解码,生成源语言摘要以及目标语言摘要。

根据本公开的又一个方面,提供一种跨语言自动摘要生成模型建立装置,包括:预处理模块,所述预处理模块对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,所述跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,所述源语言文档-目标语言参考摘要平行数据包括源语言文档和与所述源语言文档对应的目标语言参考摘要;翻译模块,所述翻译模块对每个所述源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将所述源语言伪参考摘要机器翻译为目标语言伪参考摘要;相似度判断模块,所述相似度判断模块判断每个所述源语言文档-目标语言参考摘要平行数据的所述目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的所述目标语言参考摘要之间的相似度,基于所述相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的所述源语言伪参考摘要,更新所述跨语言文档-摘要平行数据集;以及编码器&解码器框架模块,至少将更新后的所述跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至所述编码器&解码器框架模块进行训练,训练收敛后即获得所述跨语言自动摘要生成模型。

根据本公开的再一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。

根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开的一个实施方式的跨语言自动摘要生成模型建立方法的流程示意图。

图2为本公开的一个实施方式的跨语言自动摘要生成方法的流程示意图。

图3为本公开的一个实例的双语信息交互示意图。

图4为本公开的一个实施方式的跨语言自动摘要生成模型建立装置的结构示意图。

图5示出了采用处理系统的硬件实现方式的跨语言自动摘要生成装置的示例图。

1000 跨语言自动摘要生成装置

1001 预处理模块

1002 翻译模块

1003 相似度判断模块

1004 编码器&解码器框架模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1是根据本公开的一个实施方式的跨语言自动摘要生成模型建立方法的流程示意图。

如图1所示,跨语言自动摘要生成模型建立方法100,包括:

S1、对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,源语言文档-目标语言参考摘要平行数据包括源语言文档和与源语言文档对应的目标语言参考摘要;

S2、对每个源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将源语言伪参考摘要机器翻译为目标语言伪参考摘要;

S3、判断每个源语言文档-目标语言参考摘要平行数据的目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的目标语言参考摘要之间的相似度,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,更新跨语言文档-摘要平行数据集;以及

S4、至少将更新后的跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,训练收敛后即获得跨语言自动摘要生成模型。

其中,对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,可以包括对文档-摘要数据进行分词处理和/或小写化处理。

根据本公开的优选实施方式,编码器&解码器框架包括源语言端文档编码器、源语言端摘要解码器以及目标语言端摘要解码器,不同语言各自使用独立的词汇表。

源端词汇表可以通过统计源语言文档的高频词获得。目标端词汇表可以通过统计目标语言文档(目标语言文档可以由源语言文档机器翻译获得)的高频词获得。词频可以预先设定。

源语言例如可以是英文,目标语言例如可以是中文。

根据本公开的优选实施方式,相似度为ROUGE指标。本领域技术人员应当理解,ROUGE指标(Recall-Oriented Understudy for Gisting Evaluation),主要是基于召回率(recall)的。

根据本公开的优选实施方式,编码器&解码器框架采用Transformer架构。

根据本公开的优选实施方式,跨语言自动摘要生成模型建立方法100,包括:

S1、对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,源语言文档-目标语言参考摘要平行数据包括源语言文档和与源语言文档对应的目标语言参考摘要;

S2、对每个源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将源语言伪参考摘要机器翻译为目标语言伪参考摘要;

S3、判断每个源语言文档-目标语言参考摘要平行数据的目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的目标语言参考摘要之间的相似度,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,更新跨语言文档-摘要平行数据集;以及

S4、至少将更新后的跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,训练收敛后即获得跨语言自动摘要生成模型。

其中,步骤S3中,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,包括:

当相似度低于预设阈值,舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,当相似度大于或等于预设阈值,保留该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要。

根据本公开的优选实施方式,跨语言自动摘要生成模型建立方法100,包括:

S1、对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,源语言文档-目标语言参考摘要平行数据包括源语言文档和与源语言文档对应的目标语言参考摘要;

S2、对每个源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将源语言伪参考摘要机器翻译为目标语言伪参考摘要;

S3、判断每个源语言文档-目标语言参考摘要平行数据的目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的目标语言参考摘要之间的相似度,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,更新跨语言文档-摘要平行数据集;以及

S4、至少将更新后的跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,训练收敛后即获得跨语言自动摘要生成模型。

其中,步骤S3中,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,包括:

当相似度低于或等于预设阈值,舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,当相似度大于预设阈值,保留该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要。

上述各个实施方式中,优选的,步骤S4中,至少将更新后的跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架进行训练,包括:

对于每个【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组中的源语言文档,源语言端摘要解码器以及目标语言端摘要解码器同步地进行摘要解码,且在解码过程中,目标语言端摘要解码器在解码时刻对源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的目标语言摘要词汇进行预测,源语言端摘要解码器在解码时刻对源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的源语言摘要词汇进行预测。

上述实施方式中,优选的,目标语言端摘要解码器在解码时刻对源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的目标语言摘要词汇进行预测,包括:

目标语言端摘要解码器对已生成的源语言摘要词汇进行注意力分布计算,并计算已生成的源语言摘要词汇的语义向量,目标语言端摘要解码器至少基于已生成的源语言摘要词汇的注意力分布以及语义向量进行融合。上述实施方式中,优选的,源语言端摘要解码器在解码时刻对源语言文档、目标语言端摘要解码器已生成的目标语言摘要词汇、源语言端摘要解码器已生成的源语言摘要词汇进行融合以对该解码时刻的源语言摘要词汇进行预测,包括:

源语言端摘要解码器对已生成的目标语言摘要词汇进行注意力分布计算,并计算已生成的目标语言摘要词汇的语义向量,源语言端摘要解码器至少基于已生成的目标语言摘要词汇的注意力分布以及语义向量进行融合。

更优选地,目标语言端摘要解码器对已生成的源语言摘要词汇进行注意力分布计算,并计算已生成的源语言摘要词汇的语义向量,源语言端摘要解码器对已生成的目标语言摘要词汇进行注意力分布计算,并计算已生成的目标语言摘要词汇的语义向量。

所述目标语言端摘要解码器基于所述已生成的源语言摘要词汇的语义向量的语义权重、所述已生成的目标语言摘要词汇的语义向量的语义权重以及所述源语言文档的语义对该解码时刻的目标语言摘要词汇进行预测(通过softmax函数映射到目标端词汇表)。

所述源语言端摘要解码器基于所述已生成的源语言摘要词汇的语义向量的语义权重、所述已生成的目标语言摘要词汇的语义向量的语义权重以及所述源语言文档的语义对该解码时刻的源语言摘要词汇进行预测(通过softmax函数映射到源端词汇表)。上述实施方式中,源端词汇表可以通过统计源语言文档的高频词获得。目标端词汇表可以通过统计目标语言文档(目标语言文档可以由源语言文档机器翻译获得)的高频词获得。词频可以预先设定。

上述各个实施方式中,优选的,跨语言自动摘要生成模型所预测的源语言摘要以及目标语言摘要根据源语言伪参考摘要以及目标语言参考摘要计算负对数似然损失,基于负对数似然损失,使用反向传播算法对模型的参数进行更新。

图2是本公开的一个实施方式的跨语言自动摘要生成方法的流程示意图。

如图2所示,跨语言自动摘要生成方法200使用上述任一个实施方式的跨语言自动摘要生成模型建立方法建立的跨语言自动摘要生成模型对输入的源语言文档进行同步解码,生成源语言摘要以及目标语言摘要。

跨语言自动摘要生成方法200包括以下步骤:

SS1、对输入的源语言文档进行预处理;

SS2、使用跨语言自动摘要生成模型对预处理后的源语言文档进行同步解码;以及

SS3、生成源语言摘要以及目标语言摘要。

其中,源语言可以是中文/英文等,目标语言可以是英文/中文等。预处理,可以是分词处理和/或小写化处理。

下文通过一个具体的示例对本公开的跨语言自动摘要生成模型以及跨语言自动摘要生成方法进行详细说明。

源语言例如是英文,目标语言例如是中文。

以数据“Rod gray,94,had been taken to hospital by ambulance after hecut his head in a fall at his home(输入文档)–>罗德格雷在家中摔倒后被送往伊普斯威奇医院(目标语言参考摘要)”为例。

首先,对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,包括分词和/或小写化处理。

其中,中文分词可以采用中科院自动化所模式识别国家重点实验室的Urheen,英文分词可以使用nltk中的tokenize方法。

小写化处理的作用在于将文本中包含的大写字母转为小写。通过上述两个操作,可以将“Rod gray,94,had been taken to hospital by ambulance after he cut hishead in a fall at his home”转化为“rod gray,94,had been taken to hospital byambulance after he cut his head in a fall at his home”,可以将“罗德格雷在家中摔倒后被送往伊普斯威奇医院”转化为“罗德格雷在家中摔倒后被送往伊普斯威奇医院”。

对跨语言文档-摘要平行数据集中的参考摘要(目标语言)进行往返翻译步骤,即将其翻译至源语言再后向翻译回目标语言。

其中,对参考摘要(目标语言)进行往返翻译步骤可以采用现有技术中的机器翻译模块进行,例如,首先将“罗德格雷在家中摔倒后被送往伊普斯威奇医院”翻译至“Rod greyfell at home and was taken to Ipswich hospital”,之后将其翻译回中文“罗德格雷在家摔倒,被送往伊普斯维奇医院”(伪参考摘要)。

若上述步骤中所得的新的目标语言的伪参考摘要与原参考摘要的ROUGE值高于预设阈值,则保留上述步骤中所对应的源语言的伪参考摘要,反之则将其过滤。

其中,新的目标语言的伪参考摘要“罗德格雷在家摔倒,被送往伊普斯维奇医院”与原参考摘要“罗德格雷在家中摔倒后被送往伊普斯威奇医院”的ROUGE值可以基于中文汉字进行计算,在本例中两句相似度非常高,因此,保留该伪参考摘要。

在训练阶段将所有的【源语言输入文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架中进行模型训练,该框架优选地由源语言端文档编码器、源语言端摘要解码器和目标语言端摘要解码器组成,不同语言各自使用独立的词汇表。

其中编码器&解码器框架可以采用Transformer架构。

在训练和测试的过程中,两种语言的解码器均同步地进行摘要解码,每一个解码器在解码时刻会对源端信息、该解码器已生成词汇的信息和另一种解码器已生成词汇的信息进行融合,从而进行当前时刻的词汇预测。

其中“两种语言的解码器均同步地进行摘要解码”表明,中文摘要解码器生成“罗德”词汇之时,英文摘要解码器也同时生成“rod”。而“每一个解码器在解码时刻会对源端信息、该解码器已生成词汇的信息和另一种解码器已生成词汇的信息进行融合”表明,以第七个时刻为例,中文摘要解码器已生成“罗德格雷在家中摔倒”词汇,而英文摘要已生成“rodgrey fell at home and”,那么当前时刻,中文摘要解码器会对英文摘要已生成的词汇进行注意力分布计算,并计算英文摘要端的语义向量,从而用于预测当前中文词汇“后”;对于英文摘要词汇的预测也是同理。同时,模型所预测的输出将会根据源语言参考摘要和目标语言参考摘要计算负对数似然损失,之后在该损失的基础上利用反向传播算法进行模型参数的更新。

训练收敛后停止训练过程,并将模型的参数进行保存。

测试阶段,仍然首先对输入文档进行预处理,使用保存的模型对文档进行同步解码,所得到的跨语言摘要即为输出。

其中,解码优选地通过Beam Search算法去贪心地寻找能使输出概率最大的一个摘要序列作为最终的输出。

图3示出了上述实例的双语信息交互示意图。

本公开的跨语言摘要生成的过程中不仅生成目标语言形式的摘要,同时也去生成源语言形式的摘要,并在生成这两种语言的摘要过程中利用双语信息的交互实现互补的作用,从而提升最终目标语言的摘要质量。

图4是本公开的一个实施方式的跨语言自动摘要生成模型建立装置的结构示意图。

跨语言自动摘要生成模型建立装置1000,包括:

预处理模块1001,预处理模块1001对跨语言文档-摘要平行数据集中的文档-摘要数据进行预处理,跨语言文档-摘要平行数据集包括多个源语言文档-目标语言参考摘要平行数据,源语言文档-目标语言参考摘要平行数据包括源语言文档和与源语言文档对应的目标语言参考摘要;

翻译模块1002,翻译模块1002对每个源语言文档-目标语言参考摘要平行数据进行处理:将目标语言参考摘要机器翻译为源语言伪参考摘要,再将源语言伪参考摘要机器翻译为目标语言伪参考摘要;

相似度判断模块1003,相似度判断模块1003判断每个源语言文档-目标语言参考摘要平行数据的目标语言伪参考摘要与该源语言文档-目标语言参考摘要平行数据的目标语言参考摘要之间的相似度,基于相似度,保留或者舍弃该源语言文档-目标语言参考摘要平行数据的源语言伪参考摘要,更新跨语言文档-摘要平行数据集;以及

编码器&解码器框架模块1004,至少将更新后的跨语言文档-摘要平行数据集中的所有【源语言文档-目标语言参考摘要-源语言伪参考摘要】三元组输入至编码器&解码器框架模块1004进行训练,训练收敛后即获得跨语言自动摘要生成模型

图5示出了采用处理系统的硬件实现方式的装置示例图。

该跨语言自动摘要生成模型建立装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。例如构成预处理模块1001、翻译模块1002、相似度判断模块1003、编码器&解码器框架模块1004。

因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。

应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。

此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。

本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。

在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号