首页> 中国专利> 基于翻译的专业垂直领域文本同义改写方法

基于翻译的专业垂直领域文本同义改写方法

摘要

本发明公开了一种基于翻译的专业垂直领域文本同义改写方法,包括以下步骤:输入待改写文本;确定垂直领域专有名词,并选择规避词汇;将待改写文本的中文翻译成英文,并加入专有名词;将英文翻译成中文,使翻译结果中不出现规避词汇;输出改写结果。本发明在输入端提供垂直领域的专有名词信息,优化了文本改写过程中专有名词的保持能力,使得垂直领域的相关文本改写结果质量更佳。在生成文本时,采取特定的解码策略,使得本发明能提供不同改写幅度的结果,满足了不同的场景下的改写幅度需求,提高了灵活性。同时,本发明所采用的解码策略也能够提供具有随机性的多种改写结果,具备更强的多样性。

著录项

  • 公开/公告号CN112560509A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 杭州艾耕科技有限公司;

    申请/专利号CN202011449188.X

  • 发明设计人 王征;罗学优;

    申请日2020-12-09

  • 分类号G06F40/45(20200101);G06F40/58(20200101);G06F40/242(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33283 杭州天昊专利代理事务所(特殊普通合伙);

  • 代理人何碧珩;卓彩霞

  • 地址 310052 浙江省杭州市滨江区六和路368号一幢(北)三楼D3052室

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明具体涉及基于翻译的专业垂直领域文本同义改写方法。

背景技术

针对垂直领域中文文本改写问题,目前主要有以下两种解决方法:

1.将需要改写的文本进行分词,在分词的基础上进行同义词替换或者近义词替换,达到同义改写的目的。

2.使用通用的翻译软件,先将需要改写的文本翻译为介质语言,然后将介质语言翻译回中文文本,达到同义改写的目的。

现有技术中,文本同义改写方法具有以下一些缺点:

(1)基于同义词替换的改写方法,对于文本的改写幅度较为有限,同时基本无法改变句式结构。

(2)对于垂直领域中出现的专有名词,在文本改写时一般来说不应该改动。但是在现有的基于翻译的文本改写方法中,专有名词往往会被翻译错误,造成改写的效果不佳。

(3)现有的基于翻译的文本改写方法无法根据不同的场景需求,提供不同改写幅度的结果。

(4)对于同一语句,现有的基于翻译的文本改写方法无法提供具有随机性的多种改写结果。

发明内容

针对上述情况,为克服现有技术的缺陷,本发明提供基于翻译的专业垂直领域文本同义改写方法。

为了实现上述目的,本发明提供以下技术方案:

基于翻译的专业垂直领域文本同义改写方法,包括以下步骤:

(1)输入待改写文本;

(2)确定垂直领域专有名词,并选择规避词汇;

(3)将待改写文本的中文翻译成英文,并加入步骤(2)中的专有名词;

(4)将英文翻译成中文,使翻译结果中不出现规避词汇;

(5)输出改写结果。

进一步地,步骤(2)中,使用对应垂直领域的专有词表找出文本中存在的专有名词,确定垂直领域专有名词。

进一步地,步骤(4)具体为:使用英翻中模型将英文翻译成中文,在生成的改写文本过程中不出现规避词汇,完成文本的改写。

进一步地,英翻中模型的构建包括数据集建立与模型训练,所述数据集建立与模型训练,包括以下步骤:

(1.1)搜集通用的中英平行语料,以及垂直领域的中文单语料数据;

(1.2)收集垂直领域的专有名词,构建针对该领域的专有名词词表;

(1.3)使用TensorFlow或者PyTorch框架框架搭建网络架构和模型训练测试代码;

(1.4)使用步骤(1.1)中的通用中英平行语料,分别训练通用的中翻英模型和通用的英翻中模型;

(1.5)使用步骤(1.4)中训练好的通用中翻英模型将步骤(1.1)中垂直领域的中文单语料翻译成英文,并使用步骤(1.2)中的专有名词词表,提取每条中文语料中存在的专有名词,加入生成的对应英文语料中,构建垂直领域的中英伪平行语料;

(1.6)使用步骤(1.5)中的垂直领域的中英伪平行语料结合步骤(1.1)中的通用中英平行语料,在步骤(1.4)中训练好的通用英翻中模型的基础上继续训练,得到最终的英翻中模型。

进一步地,步骤(4)中,将规避词汇在英翻中模型解码过程中的生成概率设置为0,使翻译结果中不出现规避词汇。

进一步地,步骤(2)中,选择规避词的规则:只选择某些特定词性的词语,并保证专有名词不被选择。对于待改写的文本,先使用LTP工具,进行分词和词性判断,选出符合词性要求(比如形容词)的一些规避词汇,然后将规避词汇与该文本中存在的专有名词比较,如果规避词汇中包含专有名词的任意一个字,则该词语将被从本次改写的规避词汇列表中剔除,不能作为规避词汇。

进一步地,步骤(4)中,模型训练过程中,对于单条训练样本(即一条中英平行语料),设输入端文本为X,长度为m,输出端文本为Y,长度为n,则该条样本在模型中的概率可以表示为:

其中,P

设训练集中共有N条训练样本,则训练时优化的目标函数为:

其中,θ代表模型的参数,i表示训练集中第i条训练样本,训练目标即为找到合适的θ,使得如上的目标函数L(θ)达到极小值。

更新模型参数的公式为:

其中,

在一些优选的方式中,预先设置一个阈值ε,当参数更新后,如果目标函数 L(θ)的变化幅度(比如定义为参数更新前与更新后目标函数差值的绝对值)小于该阈值,则认为已经得到了符合要求的模型。

在另一些优选的方式中,预先定义好参数更新的次数M,当参数更新次数达到设定值M后,停止更新参数,认为已经得到了符合要求的模型。

一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时能够实现如上所述的同义改写方法中的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的同义改写方法中的步骤。

本发明的有益效果是:

(1)本发明改写方法基于深度学习,在输入端提供垂直领域的专有名词信息,优化了文本改写过程中专有名词的保持能力,使得垂直领域的相关文本改写结果质量更佳。

(2)在生成文本时,本发明采取特定的解码策略,使得本发明能提供不同改写幅度的结果,满足了不同的场景下的改写幅度需求,提高了灵活性。同时,本发明所采用的解码策略也能够提供具有随机性的多种改写结果,具备更强的多样性。

(3)本发明所采取的流程可以方便快速地迁移到不同的垂直领域。

附图说明

图1是本发明同义改写方法流程图。

图2是计算机设备的示意图。

具体实施方式

以下结合附图对本发明的技术方案做进一步详细说明,应当指出的是,具体实施方式只是对本发明的详细说明,不应视为对本发明的限定。

实施例1

如图1所示,基于翻译的专业垂直领域文本同义改写方法,包括以下步骤:

(1)输入待改写文本;

本实施例中,选择的垂直领域是汽车领域,输入汽车领域文本为:外观方面北京BJ 40PLUS城市猎人版不会有明显改动。

(2)确定垂直领域专有名词,选择规避词汇;

在步骤(1)的文本中找到专有名词:北京B J 40,PLUS;此处,规避词汇指的是:不在翻译结果中出现的中文词汇即要改写的词汇;本实施例中,选择的规避词汇为“明显”,“改动”。

在一些优选的方式中,根据使用场景的需求,从需要改写的中文文本中选择合适的规避词汇,并配合专有名词词表,保证专有名词不在规避词汇列表(规避词汇列表包括至少一个规避词汇)中。选择的规避词越多,则改写的幅度越大。对于同一条需要改写的输入本文,可以(随机)选择不同的规避词汇。选择不同的规避词汇可以控制最终的改写幅度,并提供改写的随机性和多样性。

由具体的场景需求决定选择规避词汇的规则。比如对于数字要求非常精确,则在指定选择规避词汇的规则时需要保证规避词汇中不包含数字即数字不会被改写。

(3)将待改写文本的中文翻译成英文,并加入步骤(2)中找到的专有名词;

将待改写的文本中的中文翻译成英文:In terms of appearance,Beijing BJ40plus urban Hunter version will not be significantly changed.在英文后加入汽车专有名词信息如下所示(经过分词,便于输入模型):

▁In▁terms▁of▁appearance,▁Beijing▁B J 40▁plus▁urban▁ Hunter▁version▁will▁not▁be▁significantly▁changed.PLUS ▁北京B J 40;

(4)将英文翻译成中文,使翻译结果中不出现规避词汇;本实施例中选择的规避词汇为“明显”,“改动”,则在翻译结果中不会出现这两个词语,因此将 significantlychanged翻译为“显著变化”,并不翻译为“明显改动”。

将英文翻译成中文即改写结果为:

外观方面,北京B J 40PLUS城市猎人版将不会有显著变化。

(5)输出改写结果。

在一些优选的方式中,步骤(2)中使用对应垂直领域的专有名词词表找出文本中存在的专有名词。

在一些优选的方式中,步骤(3)中,使用中翻英模型将中文翻译成英文。

在一些优选的方式中,步骤(4)中使用英翻中模型将英文翻译成中文。

在一些优选的方式中,数据集建立与模型训练,包括以下步骤:

(1.1)搜集通用的中英平行语料,以及垂直领域的中文单语料数据。本发明并不限定在特定的垂直领域,可以选择任意的垂直领域,比如汽车领域、金融领域、体育领域、文娱领域等等,本发明的文本改写方法已经在汽车领域、文娱领域等成功运用。本发明中“通用”指“通用领域”,与“垂直领域”相对。

(1.2)收集垂直领域的专有名词,构建针对该领域的专有名词词表。

具体地,由熟悉该垂直领域的人员确定并搜集专有名词。比如体育领域的专有名词,可以由撰写体育新闻的编辑人员搜集(编辑人员可能本身就有一定的专有名词资料积累,比如各大足球联赛的队伍名称资料等等)。也可以通过一些自动化的手段搜集,比如从主流的体育网站中爬取一些相关专有名词,再由人工审核确定。

所述专有名词词表指的是将词语组织成一个有序的列表。本发明中,只要是将专有名词放在一起即可,无需编排顺序或者进行其他编辑,构建专有名词词表只是一种实现方式。

(1.3)使用TensorFlow框架搭建网络架构和模型训练测试代码;

本发明只是使用TensorFlow框架,并没有对TensorFlow框架本身进行改进。本发明也可以使用别的框架实现,比如PyTorch。

(1.4)使用步骤(1.1)中的通用中英平行语料,分别训练通用的中翻英模型和通用的英翻中模型。本发明中“通用”指“通用领域”,与“垂直领域”相对。并且,此处的“通用英翻中”模型是为(1.6)中继续构建模型服务的。

训练过程中,对于单条训练样本(即一条中英平行语料),设输入端文本为 X,长度为m,输出端文本为Y,长度为n,则该条样本在模型中的概率可以表示为:

其中,P

设训练集中共有N条训练样本,则训练时优化的目标函数为:

其中,θ代表模型的参数,i表示训练集中第i条训练样本,训练目标即为找到合适的θ,使得如上的目标函数L(θ)达到极小值。

更新模型参数的公式为:

其中,

一般,很难找到目标函数精确的极小值对应的模型参数θ,因此只需要找到目标函数L(θ)的极小值的近似值即可。

在实际操作时,可以预先设置一个阈值ε,当参数更新后,如果目标函数L(θ) 的变化幅度(比如定义为参数更新前与更新后目标函数差值的绝对值)小于该阈值,则认为已经得到了符合要求的模型。也可以预先定义好参数更新的次数M,当参数更新次数达到设定值M后,停止更新参数,认为已经得到了符合要求的模型。本实施例中,可以设置阈值ε为0.01~0.1,设定值M可以为400000~600000。

(1.5)使用步骤(1.4)中训练好的通用中翻英模型将步骤(1.1)中垂直领域的中文单语料翻译成英文,并使用步骤(1.2)中的专有名词词表,提取步骤 (1.1)中垂直领域的每条中文语料中存在的专有名词,加入生成的对应英文语料中,构建垂直领域的中英伪平行语料。

中英伪平行语料包括

(1)垂直领域的中文单语料,例子:

外观方面北京B J 40 PL US城市猎人版不会有明显改动。

(2)翻译后的垂直领域的英文语料以及专有名词,例子(经过分词,便于输入模型):

▁In▁terms▁of▁appearance,▁Beijing▁B J 40▁plus▁urban▁Hunter ▁version▁will▁not▁be▁significantly▁changed.PLUS ▁北京B J 40

(1.6)使用步骤(1.5)中的垂直领域的中英伪平行语料结合步骤(1.1)中的通用中英平行语料,在步骤(1.4)中训练好的英翻中模型的基础上继续训练,得到最终的英翻中模型。

在步骤(1.4)中训练得到的英翻中模型为通用的英翻中模型,并没有针对特定的垂直领域进行优化,因此对于垂直领域语句的翻译效果可能不佳。此处继续训练该模型,是指在通用英翻中模型的基础上对垂直领域进行优化(借助之前构建的垂直领域中英伪平行语料),使最终的模型能够更好地处理垂直领域的语句。

此处,训练过程中,输入模型的是:加入专有名词之后英文语料,即步骤(1.5) 中,中英伪平行语料中的(2);输出的是:垂直领域的中文单语料,即步骤(1.5) 中,中英伪平行语料中的(1)。

步骤(1.6)中与步骤(1.4)中的输入、输出的数据不同,但是两者的训练过程类似,此处不再赘述,通过训练,最终得到符合要求的英翻中模型。同样地,本实施例中,可以设置阈值ε为0.01~0.1,设定值M可以为400000~600000。

本发明采用了特定的解码策略:

在英翻中模型解码过程中,模型将即将生成的词语,与需要改写的原句中的词语进行比较,规避一些原句中出现过的词语,生成一些另外的同义或者近义词语和表述。这样,生成的语句的改写幅度会提高。

具体实现时,选择原句中的一些词语(即上文提到的规避词汇),降低这些词语在解码过程中的生成概率。比如对于数字要求非常精确,则需要保证规避词汇中不包含数字,可以将规避词汇的生成概率直接设置为0。

在一些优选的方式中,规避词的选择:

选择规避词的规则:只选择某些特定词性的词语,并保证专有名词不被选择。对于待改写的文本,先使用自然语言处理领域中的一些常用工具,比如LTP工具,进行分词和词性判断,选出符合词性要求(比如形容词)的一些规避词汇,然后将规避词汇与该文本中存在的专有名词比较,如果规避词汇中包含专有名词的任意一个字,则该词语将被从本次改写的规避词汇列表中剔除,不能作为规避词汇。

实施例2,参照附图2。

在本实施例中,提供了一种计算机设备100,包括存储器102、处理器101 及存储在存储器102上并可在处理器101上运行的计算机程序103,处理器101 执行计算机程序103时能够实现上述实施例1所提供的同义改写方法中的步骤。

实施例3

在本实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时能够实现上述各个实施例所提供的同义改写方法中的步骤。

在本实施例中,所述计算机程序可以是实施例2中的计算机程序。

在本实施例中,所述计算机可读存储介质可以被实施例2中的计算机设备所运行。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM) 等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例的所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号