首页> 中国专利> 基于端到端技术的古代汉语转现代汉语方法、系统及设备

基于端到端技术的古代汉语转现代汉语方法、系统及设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供基于端到端技术的古代汉语转现代汉语方法，包括：步骤S1.获取标准语料输入Encoder‑Decoder神经网络结构进行语言模型训练，得到第一模型；步骤S2.基于所述第一模型，解码待翻译古代汉语文本为现代汉语文本；其中所述标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。利用Encoder‑Decoder神经网络结构预训练语言模型，并结合大量现代汉语语料优化搜索路径，大幅提高了翻译效率且翻译准确，提升了机器翻译的可靠性。本发明还提供的基于端到端技术的古代汉语转现代汉语系统便于用户建模，能够准确地将古代汉语文本转换为现代汉语文本，用户体验好。本发明的电子设备因能实施本发明的古代汉语转现代汉语方法而具有相应优势。

著录项

公开/公告号CN114676706A

专利类型发明专利
公开/公告日2022-06-28

原文格式PDF
申请/专利权人江苏苏云信息科技有限公司;
展开▼

申请/专利号CN202210179514.2
发明设计人黄羿衡;倪勇;
展开▼

申请日2022-02-25
分类号G06F40/45;G06F40/58;G06N3/04;G06N3/08;
代理机构江苏坤象律师事务所;
代理人赵新民
地址 215163 江苏省苏州市苏州高新区嘉陵江路198号新一代信息技术产业园5幢1层101室
入库时间 2023-06-19 15:47:50

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-28

公开

发明专利申请公布

说明书

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于端到端技术的古代汉语转现代汉语方法、系统及设备。

背景技术

古代汉语是一种比较古老的语言，与现代汉语差异很大。将古代汉语转化为现代汉语在研究中国历史文化及科学考古等关乎人类过去与未来的事业中是一项重要且关键的工作。以古代汉语文献解读为例，典籍浩瀚、博大精深、长篇累牍，目前的翻译工作主要是通过具有专业水平的专家进行人工翻译的，全部人工进行翻译校对的工作量非常大，耗时费神且存在主观因素，翻译一致性往往不高，翻译成果可参考价值不稳定。

为了推进古代汉语转现代汉语的实施水平，当前科学家们致力于将NMT（neuralmachine translation，神经网络机器翻译）技术应用在文言文、古代汉语与现代汉语之间的双向互译，但是效果并不理想，不确定性高。例如，一句话会有几种等价的翻译。或者使用低质量的网络数据进行人工翻译提高翻译质量，这一过程容易出错，并导致数据分配中出现其他的不确定性。可知现有技术中主要是翻译不精准、效率不高、用户体验不佳，还不能切实满足古代汉语转现代汉语的实际需要。

发明内容

为解决上述现有技术的全部或部分问题，本发明实施例提供一种基于端到端技术的古代汉语转现代汉语方法、系统及设备。

本发明一方面提供的一种基于端到端技术的古代汉语转现代汉语方法，包括：步骤S1.获取标准语料输入Encoder-Decoder（编码器-解码器）神经网络结构进行语言模型训练，得到第一模型；步骤S2.基于所述第一模型，解码待翻译古代汉语文本为现代汉语文本；其中所述标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。文本可以是字、词也可是句子、段落或篇章。标定转换关系的古代汉语文本和现代汉语文本是指将所述现代汉语文本是通过将古代汉语本文准确翻译后的现代汉语文本，两者之间一一对应的关系是准确的且确定的。通过将大量的已经翻译好的古代汉语和现代汉语文本输入基于Encoder-Decoder（编码器-解码器）神经网络结构的语言模型进行预训练，能够充分利用端到端模型对已经标定转换关系进行深度学习，提高翻译的速度和准确性，进一步保障古代汉语转换为现代汉语时输出结果的确定性。

所述Encoder-Decoder神经网络结构由编码器、解码器和损失函数层拼接而成；输入是预设层数的TDNN拼接TRANSFORMER的结构，输出是预设层的LSTM；所述TDNN的层数、所述LSTM的层数预设为任意正整数。

所述获取标准语料输入预训练模型的过程包括：将古代汉字编码成为特征向量的映射作为输入向量映射；将现代汉字编码成为特征向量的映射作为输出向量映射。

所述得到第一模型的过程包括：将所述编码器和所述解码器的输出通过一个连接操作合并后，映射到和现代汉语文字数量大小一样的输出上面，并添加标签；进行softmax操作；之后输入所述损失函数层进行训练。进行softmax操作处理最后的输出是每个分类被取到的概率。

所述损失函数层的损失函数为Transducer Loss。

所述Transducer Loss是由Alex Graves提出来的损失函数，具体实施可以参考论文：《A.Graves.Sequence Transduction with Recurrent Neural Networks.Representation Learning Workshop》ICML2012, Edinburgh,Scotland。所述损失函数采用Transducer Loss能有效解决序列概率路径建模问题。

所述步骤S2的解码过程基于集束搜索，包括：获取现代汉语语料进行训练，得到第二模型；以所述第一模型生成解码网络，进行路径扩展，将扩展路径得分记为第一得分；在路径扩展的同时，用所述第二模型给扩展的路径进行语言模型打分，记为第二得分；将所述第一得分与所述第二得分相加后作为解码路径的最终得分，基于所述最终得分解码得到所述现代汉语文本。

随着各种文字媒体发展以及存储介质的普及，收集大量的现代汉语文本语料是便捷的，利用大量的现代汉语文本语料进行训练获取一个第二模型，在解码过程中用超大的现代汉语语言模型进行搜索路径打分矫正整个解码过程，对扩展路径得分优化后作为实际的搜索路径的得分进行扩展，更利于形成非常准确的符合现代汉语习惯的翻译文本序列作为输出结果，大幅提高翻译的精准性。

本发明另一方面提供的一种基于端到端技术的古代汉语转现代汉语系统，包括：语料获取单元，用于获取多个文本并编码得到多个特征向量映射；建模单元，基于Encoder-Decoder（编码器-解码器）神经网络结构，提取所述特征向量映射训练语言模型并封装；其中所述文本包括古代汉语文本、由所述古代汉语文本翻译得到的现代汉语文本。

所述Encoder-Decoder（编码器-解码器）神经网络结构包括编码器、解码器门控线性单元、映射层和损失函数层；所述编码器由第一层数的TDNN模块和一个TRANSFORMER模型拼接而成；所述解码器由第二层数的LSTM单元；所述编码器的输出和所述解码器的输出通过所述门控线性单元连接合并输入映射层进行softmax操作；所述映射层的输出即所述损失函数层的输入。

所述第一层数、所述第二层数为任意正整数。所述第一层数与所述第二层数可以相同也可以不同。

所述第一层数、所述第二层数为任意正整数。

基于端到端技术的古代汉语转现代汉语系统，还包括：翻译显示单元，基于由所述建模单元得到的模型所解码生成的古代汉语与现代汉语的转换关系，翻译古代汉语文本为现代汉语文本并显示。

本发明实施例中还提供一种存储介质，存储有包含指令的程序，所述指令能够被读取并执行本发明的基于端到端技术的古代汉语转现代汉语方法。

本发明实施例中还提供一种电子设备，包括：处理器，与所述处理器通信连接的存储器，其中，所述存储器存储有指令，所述处理器执行所述指令，实施本发明的基于端到端技术的古代汉语转现代汉语方法。

本发明实施例中还提供一种计算机程序产品，包含存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明的基于端到端技术的古代汉语转现代汉语方法。

与现有技术相比，本发明的主要有益效果：

1、本发明的一种基于端到端技术的古代汉语转现代汉语方法，能够方便快捷地将古代汉语转换成现代汉语，充分利用了当下现代汉语语料容易获取且现代汉语的文本数量巨大的特点，训练了一个非常大的现代汉语语言模型用于搜索路径打分矫正整个解码过程，进一步提高了古代汉语转现代汉语的准确程度，提升了机器翻译古代汉语为现代汉语时的可靠性，为机器翻译切实有效地应用于古代汉语转换现代汉语的翻译及校对工作中提供了可行的方案。

2、本发明的一种基于端到端技术的古代汉语转现代汉语系统，采用Encoder-Decoder的古代汉语到现代汉语的翻译架构，便于用户建模，能够准确地将古代汉语文本转换为现代汉语文本，用户体验更好，利于进一步推广机器翻译在古代汉语转换现代汉语翻译校准中的应用。

3、本发明的电子设备因能实施本发明的基于端到端技术的古代汉语转现代汉语方法而具有相应优势。

附图说明

图1为本发明实施例的Encoder-Decoder神经网络结构示意图。

图2为本发明实施例基于端到端技术的古代汉语转现代汉语方法过程示意图。

图3为本发明实施例集束搜索示意图。

具体实施方式

下面将对本发明具体实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一中，基于端到端技术的古代汉语转现代汉语系统，包括：语料获取单元，用于获取多个文本并编码得到多个特征向量映射；建模单元，基于Encoder-Decoder神经网络结构，提取特征向量映射训练语言模型并封装；其中文本包括古代汉语文本、由古代汉语文本翻译得到的现代汉语文本。示例的Encoder-Decoder神经网络结构如图1所示，包括编码器、解码器门控线性单元、映射层和损失函数层。编码器由第一层数n的TDNN模块和一个TRANSFORMER模型拼接而成；解码器由第二层数m的LSTM单元；编码器的输出和解码器的输出通过门控线性单元连接合并输入映射层进行softmax操作；映射层的输出即损失函数层的输入。图1示例的第一层数n是三，第二层数m是一。有些实施例中第一层数、第二层数可以为用户根据实际建模需要设置为任意正整数，建模方便，适用灵活。

有些实施例中，基于端到端技术的古代汉语转现代汉语系统还包括翻译显示单元，基于由建模单元得到的模型所解码生成的古代汉语与现代汉语的转换关系，翻译古代汉语文本为现代汉语文本并显示。

TDNN（Time-Delay Neural Network，延时神经网络）是深度学习建模中的一种常用模块。LSTM（Long Short-Term Memory）是一种时间循环神经网络，是时间序列建模的深度学习建模单元；TRANSFORMER也是深度学习建模中常用的建模单元，TRANSFORMER是一种基于Encoder-Decoder结构的模型，采用Self-attention或者Mulit-head-self-attention使得输入的数据可以并行处理，提高运行效率。

在本实施例中，如图2所示，还提供一种基于端到端技术的古代汉语转现代汉语方法，包括：步骤S1.获取标准语料输入Encoder-Decoder神经网络结构进行语言模型训练，得到第一模型。步骤S2.基于第一模型，解码待翻译古代汉语文本为现代汉语文本。其中标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。本实施例中，预先收集大量的已经翻译并校对好的古代汉语文本和现代汉语文本作为训练的输入。其中古代汉语文本作为输入层输入，翻译校对好的现代汉语作为输出层，接入到本实施例的Encoder-Decoder神经网络结构中去，然后进行模型的训练。本实施例中，输入是n层的TDNN拼接TRANSFORMER的结构，输出是m层的LSTM。本实施例的一个具体做法中，获取标准语料输入预训练模型的过程包括：将古代汉字编码成为特征向量的映射作为输入向量映射。将现代汉字编码成为特征向量的映射作为输出向量映射。已经翻译并校对好的古代汉语文本和现代汉语文本可以从网络数据库中收集。基于已经标定转换关系的标准语料避免翻译工作中的不确定性。现阶段解读古代汉语为现代汉语的工作已经取得了大量的成就，本实施例的方法正是有效利用前人已有的巨大成就，为古代汉语解读为现代汉语的工作取得更大的成就，为获得进一步突破提供解决方案。

有些实施例中，结合参考图1，得到第一模型的过程包括：将编码器和解码器的输出通过一个连接操作合并后，映射到和现代汉语文字数量大小一样的输出上面，并添加标签。进行softmax操作。之后输入损失函数层进行训练。示例的损失函数层的损失函数为Transducer Loss。

有些实施例中，步骤S2的解码过程基于集束搜索，包括：获取现代汉语语料进行训练，得到第二模型；以第一模型生成解码网络，进行路径扩展，将扩展路径得分记为第一得分；在路径扩展的同时，用第二模型给扩展的路径进行语言模型打分，记为第二得分；将第一得分与第二得分相加后作为解码路径的最终得分，以最终得分作为实际的搜索路径的得分进行扩展，得到古代汉语文本解码后的现代汉语文本。

实施例中解码的过程用到的集束搜索的方法，集束搜索的原理在文献《MinimumBayes Risk Training of RNN-Transducer for End-to-End Speech Recognition.》中有示例论述。

如图3所示，示例的集束解码中，每次路径扩张都是保持在概率最大的N条路径上进行扩展。图3中虚线箭头是选中的扩展路径，完成扩展之后，最终概率最大的就是“你好北京”这样一条解码路径。

在该实施例的做法中，在解码过程中充分利用了现代汉语的文本数量已经非常丰富，且可以通过互联网方便地收集这样一个现状，预先收集大量的现代汉语训练一个非常大的现代汉语语言模型作为第二模型，在路径扩展的过程中，用这个语言模型给扩展的路径进行语言模型打分，并且将这个打分加到扩展路径得分上面去，这样最终就可以形成非常准确的符合现代汉语习惯的翻译文本序列。

有些实施例中还提供存储介质，例如磁性媒体（硬盘、软盘等）、光学媒体（光盘等）、磁光媒体（MO磁光盘）还可以是互联网媒体如云盘、网盘等，可以采用数据库形式实现分布式存储。存储介质存储了包含指令的程序，指令能够被读取并执行上述实施例中基于端到端技术的古代汉语转现代汉语方法。

有些实施例中还提供电子设备，包括：处理器，与处理器通信连接的存储器，其中，存储器存储有指令，处理器执行指令，实现上述实施例中基于端到端技术的古代汉语转现代汉语方法。

有些实施例中还提供计算机程序产品，包含存储在存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述实施例中基于端到端技术的古代汉语转现代汉语方法。

本发明为了便于叙述清楚而采用的一些常用的英文名词或字母只是用于示例性指代而非限定性解释或特定用法，不应以其可能的中文翻译或具体字母来限定本发明的保护范围。

还需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上实施例的说明只是用于帮助理解本发明的方法及核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求保护的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 搜索系统、信息提供系统、客户端设备、主机端设备、信息提供方法、信息提供程序、客户端程序和主机端程序 [P] . 中国专利： CN110574116A . 2019-12-13
2. 基于服务器端手动升级的OTA升级系统、方法、设备端及服务器端 [P] . 中国专利： CN114500482A . 2022-05-13
3. 移動端末試験装置および移動端末試験方法 [P] . 日本专利： JP2019036920A . 2019-03-07

机译：移动终端测试设备及移动终端测试方法
4. 光加入者線終端装置、光加入者線終端装置の制御方法及び制御プログラム [P] . 日本专利： JP2019047157A . 2019-03-22

机译：光用户线终端设备，控制方法和控制程序用于光用户线终端设备
5. 配信装置、配信方法、配信プログラム、端末装置、表示方法、及び表示プログラム [P] . 日本专利： JP2019036337A . 2019-03-07

机译：分配设备，分配方法，分配程序，终端设备，显示方法和显示程序