首页> 中国专利> 一种基于结构化三元组和锚定模板的文本生成方法及装置

一种基于结构化三元组和锚定模板的文本生成方法及装置

摘要

本发明公开了一种基于结构化三元组和锚定模板的文本生成方法及装置,本发明设计了基于锚定模板的三元组到文本生成框架,根据输入的三元组集合从语料中检索相似的三元组及其描述文本作为模板(分别称为模板三元组和模板描述),指导当前描述文本的生成。模型可以从模板提供的具体写作范例中,学习如何忠实且自然地描述给定三元组集合中编码的信息。然而,随着输入三元组数量的增多,对应检索得到的模板也会随之变得复杂和冗长,导致模型无法精准地从模板中学习写作指导,最终选择忽视复杂的模板。因此,本发明进一步对输入进行规划,将输入三元组以句子为单位进行分组,从而与模板更好地匹配,帮助模型更精准地利用模板。

著录项

  • 公开/公告号CN113065324A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 清华大学深圳国际研究生院;

    申请/专利号CN202110502216.8

  • 申请日2021-05-08

  • 分类号G06F40/186(20200101);G06F40/242(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44223 深圳新创友知识产权代理有限公司;

  • 代理人江耀纯

  • 地址 518055 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明涉及计算机应用、计算机系统及其技术产品技术领域,尤其涉及一种基于结构化三元组和锚定模板的文本生成方法及装置。

背景技术

知识图谱是由概念、实体、实体关系和实体属性等事实性知识构建而成的结构化语义网络,可以为包括问答系统、推荐系统、搜索引擎、电商平台和摘要工具等多种智能应用提供全面丰富的知识补充和数据支持。知识图谱中的知识通常由RDF(资源描述框架)三元组集合表示,每个RDF三元组的具体形式为<主语,谓语,宾语>,即通过谓语来描述主语实体和宾语实体之间的语义关系。这种以三元组表示知识的形式虽然便于计算机解析,但对于人类用户却是不友好的。

基于结构化三元组集合自动生成对应的描述文本(三元组到文本生成)可以帮助人类用户更好地理解存储在结构化三元中的知识,进而辅助智能应用更好地向用户展示个性化内容,提升用户交互。比如应用在问答系统和电商平台中,根据系统从知识库中检索、推荐返回的结构化数据,自动生成相应的展示文本(问题回答、商品说明、推荐理由等)。

传统的三元组到文本生成方法主要基于大量的手工特征和模板,根据预定义规则的匹配将三元组中的信息填入模板中完成文本的生成。近年来,基于深度神经网络的自然语言生成技术得到了显著的发展,许多方法使用序列到序列(sequence2sequence)模型对三元组到文本生成建模,可以在不依赖手工特征和规则的情况下自动地完成目标文本写作。然而,由于结构化输入(三元组集合)和非结构化输出(文本)之间巨大的结构化差异,只是基于给定的三元组集合不足以生成具体的和有表现力的文本,导致现有方法倾向于生成通用描述和逻辑不连贯的语句。

发明内容

本发明目的就是为了弥补已有技术生成通用描述和逻辑不连贯的语句的缺陷,提供一种基于结构化三元组和锚定模板的文本生成方法及装置。

本发明是通过以下技术方案实现的:

一种基于结构化三元组和锚定模板的文本生成方法,具体步骤如下:

S1、由输入的三元组集合x和对应的描述文本y构成数据对(x,y),为每个数据从训练语料中检索多个相似的数据对(x′,y′)作为模板,其中x′为模板三元组,y′为模板描述,并过滤掉与数据对(x,y)过于相似和过于不同的模板;

S2、将输入的三元组集合x编码成高维向量z;

S3、从步骤S1中得到的过滤后的模板(x′,y′)中提取出模板向量g;

S4、将步骤S2中编码后的高维向量z以句子为单位进行分组,并使用分组后的结果和步骤S3中得到的模板向量g控制信息从模板向量流入解码器,完成描述文本的解码。

所述的步骤S1中使用Lucene工具对训练语料中的所有描述文本构建检索索引。

步骤S1中,对于每一个数据对(x,y),从检索索引中检索出最相似的20个描述文本及其三元组集合(x′,y′)作为模板,并计算描述文本y和模板描述y′的Jaccard相似度,保留Jaccard相似度在0.25和0.75之间的模板。

步骤S2所述的将输入的三元组集合x编码成高维向量z,具体过程如下:首先将三元组集合x按字符展平成序列,然后用词向量编码得到

步骤S3所述的从过滤后的模板(x′,y′)中提取出模板向量g,具体过程如下:从模板中学习为了描述给定的三元组集合,需要额外添加哪些词汇来组织语言(插入词集),同时需要删除哪些模板带来的与当前三元组不相关的词汇(删除词集)。插入词集由属于模板描述y′但不属于模板三元组x′的词构成,删除词集由属于模板三元组x′但不属于输入三元组x的词构成,同时将插入和删除词集中的词经过词向量编码。最后使用输入表示z通过注意力机制将插入词集和删除词集融合成模板向量g。

所述步骤S4具体内容如下:通过扩展记忆网络(MemoryNetwork)来实现三元组集合的分组,整个过程相当于每一步从输入中选择一个子集用于被当前组(句子)涵盖。首先使用一个双向长短时记忆网络(biLSTM)h

本发明还包括一种基于结构化三元组和锚定模板的文本生成装置,包括有:

模板预检索模块:由输入的三元组集合x和对应的描述文本y构成数据对(x,y),为每个数据从训练语料中检索多个相似的数据对(x′,y′)作为模板,其中x′为模板三元组,y′为模板描述,并过滤掉与数据对(x,y)过于相似和过于不同的模板;

三元组编码模块:将输入的三元组集合x编码成高维向量z;

模板指导提取模块:从所述的过滤后的模板(x′,y′)中提取出模板向量g;

锚定模板模块:将所述的编码后的高维向量z以句子为单位进行分组,并使用分组后的结果和所述的模板向量g控制信息从模板向量流入解码器,完成描述文本的解码。

本发明的优点是:本发明设计根据给定的结构化三元组集合,自动生成相应的描述文本的方法,通过检索引入模板指导模型生成描述,有效桥接结构化输入和非结构化输出之间的结构化差异,解决主流方法倾向于生成不具体描述和逻辑不连贯语句的问题。同时为了解决模型因无法有效从复杂模板中学习写作指导而选择忽略模板的问题,进一步将输入三元组以句子为单位进行规划分组,从而与模板更好地匹配,帮助模型更精准地利用模板。

本发明可以自动完成给定三元组集合的描述文本生成,无需定制大量的手工规则和特征,有效降低人工参与的同时提高了方法的可移植性。相比于基于深度神经网络的三元组到文本生成方法,本发明可以有效桥接结构化三元组和非结构化文本之间的结构化差异,生成更加明确具体、表达更加自然多样的描述文本。

附图说明

图1为本发明实施例方法流程图。

图2为实施例本发明模型结构图。

具体实施方式

本发明设计了基于锚定模板的三元组到文本生成框架,根据输入的三元组集合从语料中检索相似的三元组及其描述文本作为模板(分别称为模板三元组和模板描述),指导当前描述文本的生成。模型可以从模板提供的具体写作范例中,学习如何忠实且自然地描述给定三元组集合中编码的信息。然而,随着输入三元组数量的增多,对应检索得到的模板也会随之变得复杂和冗长,导致模型无法精准地从模板中学习写作指导,最终选择忽视复杂的模板。因此,本发明进一步对输入进行规划,将输入三元组以句子为单位进行分组,从而与模板更好地匹配,帮助模型更精准地利用模板。

如图1、2所示,本发明针对三元组到文本生成任务,其定义为给定输入三元组集合x={t

模板预检索

数据集中每个数据样本由输入三元组集合x和对应的描述文本y构成数据对(x,y)。在用数据训练模型之前,预先使用Lucene工具对语料中的所有描述文本构建检索索引。对于每一个数据对(x,y),从索引中检索出最相似的20个描述文本及其三元组集合(x′,y′)作为模板。为了避免检索到的模板与原数据对过于相似或过于不同,进一步计算描述文本y和模板描述y′的Jaccard相似度,只有Jaccard相似度在0.25和0.75之间的模板才会被保留。

三元组编码

将输入三元组集合x编码成模型能理解的高维向量z。首先将三元组集合x={t

接着为了更好地表示三元组集合的结构化信息,本发明使用了两种位置编码,分别是局部位置p′和全局位置编码p。局部位置p′

同时本发明还利用了三元组中的实体类别信息,将输入的实体类别序列

模板指导提取

完成输入三元组的表示之后,接着从预检索得到的模板(x′,y′)中提取出模板向量,用于指导后续描述文本的生成。该步骤从模板中学习为了描述给定的三元组集合,需要额外添加哪些词汇来组织语言(插入词集),同时需要删除哪些模板带来的与当前三元组不相关的词汇(删除词集)。

插入词集

其中e(·)表示将词编码成词向量,

最后使用一个全连接网络将g

g=tanh(W

其中W

锚定模板

该步骤将编码后的输入三元组以句子为单位进行分组,并使用分组后的结果控制信息从模板向量流入解码器。我们扩展记忆网络(Memory Network)来实现三元组集合的分组,整个过程相当于每一步从输入中选择一个子集用于被当前组(句子)涵盖。

首先使用一个双向长短时记忆网络(biLSTM)h

其中sel

最后在文本生成的Transformer解码器的每一步解码中,用分组解码器h

其中

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号