首页> 中国专利> 台词翻译方法、装置及翻译模型训练方法、装置

台词翻译方法、装置及翻译模型训练方法、装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明实施例提供了台词翻译方法、装置及翻译模型训练方法、装置，该方法包括：获取源语言的待翻译台词，待翻译台词来源于第一人物对象；确定待翻译台词所属的作品的第一作品题材，以及确定第一人物对象的第一社交信息，第一社交信息包括第一人物对象的身份信息，及第一人物对象和第二人物对象的身份关系；根据第一作品题材和第一社交信息，以及待翻译台词，确定第一输入特征；将第一输入特征输入预设翻译模型，得到待翻译台词对应的目标语言的台词。通过上述台词翻译方法翻译台词，不仅考虑了待翻译台词，还考虑到待翻译台词的第一人物对象的社交信息以及待翻译台词的所属作品的作品题材，增加了台词翻译的信息量，提高了台词翻译的准确度。

著录项

公开/公告号CN112560511A

专利类型发明专利
公开/公告日2021-03-26

原文格式PDF
申请/专利权人北京奇艺世纪科技有限公司;
展开▼

申请/专利号CN202011474963.7
发明设计人代嘉慧;
展开▼

申请日2020-12-14
分类号G06F40/58(20200101);G06K9/00(20060101);G06N3/08(20060101);G10L17/22(20130101);
代理机构11413 北京柏杉松知识产权代理事务所(普通合伙);
代理人马敬;项京
地址 100080 北京市海淀区海淀北一街2号鸿城拓展大厦10、11层
入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及机器翻译技术领域，特别是涉及台词翻译方法、装置及翻译模型训练方法、装置。

背景技术

机器翻译是一种将源语言翻译为目标语言的技术。通用领域中，机器翻译为句子到句子的翻译，也就是，将源语言的当前句子翻译为目标语言的句子。

但在特定领域，如电视剧、电影、小说等作品的台词翻译中，台词翻译的准确度较低。

发明内容

本发明实施例的目的在于提供一种台词翻译方法、装置、设备及存储介质，以提高台词翻译的准确度。具体技术方案如下：

为达到上述目的，本发明实施例提供了一种台词翻译方法，所述方法包括：

获取源语言的待翻译台词，所述待翻译台词来源于第一人物对象；

确定所述待翻译台词所属的作品的第一作品题材，以及确定所述第一人物对象的第一社交信息，所述第一社交信息包括所述第一人物对象的身份信息，及所述第一人物对象和第二人物对象的身份关系，所述第二人物对象为听取所述待翻译台词的人物对象；

根据所述第一作品题材和所述第一社交信息，以及所述待翻译台词，确定第一输入特征；

将所述第一输入特征输入预设翻译模型，得到所述待翻译台词对应的目标语言的台词。

可选的，所述确定所述第一人物对象的第一社交信息的步骤，包括：

获取所述第一人物对象的第一人脸图像，对所述第一人脸图像进行人脸识别，得到所述第一人物对象的第一身份信息；和/或获取所述第一人物对象的第一语音信号，对所述第一语音信号进行声纹识别，得到所述第一人物对象的第一身份信息；

获取所述第二人物对象的第二人脸图像，对所述第二人脸图像进行人脸识别，得到所述第二人物对象的第二身份信息；和/或获取所述第二人物对象的第二语音信号，对所述第二语音信号进行声纹识别，得到所述第二人物对象的第二身份信息；

根据所述第一身份信息与所述第二身份信息，确定所述第一人物对象与所述第二人物对象之间的身份关系，其中，所述第一人物对象的第一社交信息包括所述第一身份信息，以及所述第一人物对象与所述第二人物对象之间的身份关系。

可选的，所述根据所述第一作品题材和所述第一社交信息，以及所述待翻译台词，确定第一输入特征的步骤，包括：

根据多个预设类别和每一预设类别对应的社交信息，从所述多个预设类别中，确定所述第一社交信息对应的第一预设类别；

根据所述第一作品题材和所述第一预设类别，以及所述待翻译台词，确定所述第一输入特征。

可选的，所述根据所述第一作品题材和所述第一社交信息，以及所述待翻译台词，确定第一输入特征的步骤，包括：

按照预设排序规则，对所述第一作品题材、所述第一社交信息、分隔符和所述待翻译台词进行排序，得到第一输入特征；

其中，所述预设排序规则为：按照从作品题材至社交信息，再至分隔符，再至台词的顺序排序；或，所述预设排序规则为：按照从社交信息至作品题材，再至分隔符，再至台词的顺序排序；所述分隔符用于将所述台词与所述作品题材和社交信息分隔开。

可选的，通过以下步骤训练得到所述预设翻译模型：

获取预设训练集，所述预设训练集包括所述源语言的多个样本台词以及每一样本台词对应的所述目标语言的标注台词；

确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，所述样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系；

根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征；

将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词；

根据所述预测台词和标注台词，确定所述预设神经网络模型是否收敛；

若所述预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型；

若所述预设神经网未收敛，则调整所述预设神经网络的参数，并重新执行所述将每一样本台词对应的样本输入特征输入预设神经网络，得到每一样本台词对应的目标语言的预测台词的步骤。

为达到上述目的，本发明实施例还提供了一种翻译模型训练方法，所述方法包括：

获取预设训练集，所述预设训练集包括源语言的多个样本台词以及每一样本台词对应的目标语言的标注台词；

根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征；

将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词；

根据所述预测台词和标注台词，确定所述预设神经网络模型是否收敛；

若所述预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型；

可选的，所述确定每一样本台词的来源对象的样本社交信息的步骤，包括：

获取每一样本台词的来源对象的第一样本人脸图像，对所述第一样本人脸图像进行人脸识别，得到该样本台词的来源对象的第一样本身份信息；和/或获取每一样本台词的来源对象的第一样本语音信号，对所述第一样本语音信号进行声纹识别，得到该样本台词的来源对象的第一样本身份信息；

获取听取每一样本台词的对象的第二样本人脸图像，对所述第二样本人脸图像进行人脸识别，得到听取该样本台词的对象的第二样本身份信息；和/或获取听取每一样本台词的对象的第二样本语音信号，对所述第二样本语音信号进行声纹识别，得到听取该样本台词的对象的第二样本身份信息；

根据所述第一样本身份信息与所述第二样本身份信息，确定每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系，其中，每一样本台词的来源对象的样本社交信息包括所述第一样本身份信息，以及每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系。

可选的，所述根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征的步骤，包括：

根据多个预设类别和每一所述预设类别对应的社交信息，从所述多个预设类别中，确定所述样本社交信息对应的样本预设类别；

根据所述样本作品题材和所述样本预设类别，以及所述待翻译台词，确定所述样本输入特征。

可选的，所述根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征的步骤，包括：

按照预设排序规则，对所述样本作品题材、所述样本社交信息、分隔符和每一样本台词进行排序，得到样本输入特征；

为达到上述目的，本发明实施例还提供了一种台词翻译装置，所述装置包括：

获取模块，用于获取源语言的待翻译台词，所述待翻译台词来源于第一人物对象；

第一确定模块，用于确定所述待翻译台词所属的作品的第一作品题材，以及确定所述第一人物对象的第一社交信息，所述第一社交信息包括所述第一人物对象的身份信息，及所述第一人物对象和第二人物对象的身份关系，所述第二人物对象为听取所述待翻译台词的人物对象；

第二确定模块，用于根据所述第一作品题材和所述第一社交信息，以及所述待翻译台词，确定第一输入特征；

输入模块，用于将所述第一输入特征输入预设翻译模型，得到所述待翻译台词对应的目标语言的台词。

可选的，所述第一确定模块包括：

第一获取子模块，用于获取所述第一人物对象的第一人脸图像，对所述第一人脸图像进行人脸识别，得到所述第一人物对象的第一身份信息；和/或获取所述第一人物对象的第一语音信号，对所述第一语音信号进行声纹识别，得到所述第一人物对象的第一身份信息；

第二获取子模块，用于获取所述第二人物对象的第二人脸图像，对所述第二人脸图像进行人脸识别，得到所述第二人物对象的第二身份信息；和/或获取所述第二人物对象的第二语音信号，对所述第二语音信号进行声纹识别，得到所述第二人物对象的第二身份信息；

第一确定子模块，用于根据所述第一身份信息与所述第二身份信息，确定所述第一人物对象与所述第二人物对象之间的身份关系，其中，所述第一人物对象的第一社交信息包括所述第一身份信息，以及所述第一人物对象与所述第二人物对象之间的身份关系。

可选的，所述第二确定模块包括：

第二确定子模块，用于根据多个预设类别和每一所述预设类别对应的社交信息，从所述多个预设类别中，确定所述第一社交信息对应的第一预设类别；

第三确定子模块，用于根据所述第一作品题材和所述第一预设类别，以及所述待翻译台词，确定所述第一输入特征。

可选的，所述第二确定模块具体用于：

按照预设排序规则，对所述第一作品题材、所述第一社交信息、分隔符和所述待翻译台词进行排序，得到第一输入特征；

可选的，所述装置还包括训练模块，用于训练得到所述预设翻译模型；

所述训练模块包括：

第三获取子模块，用于获取预设训练集，所述预设训练集包括所述源语言的多个样本台词以及每一样本台词对应的所述目标语言的标注台词；

第四确定子模块，用于确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，所述样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系；

第五确定子模块，根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征；

输入子模块，用于将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词；

第六确定子模块，用于根据所述预测台词和标注台词，确定所述预设神经网络模型是否收敛；

结束子模块，用于若所述预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型；

重新执行子模块，用于若所述预设神经网未收敛，则调整所述预设神经网络的参数，并重新执行所述将每一样本台词对应的样本输入特征输入预设神经网络，得到每一样本台词对应的目标语言的预测台词的步骤。

为达到上述目的，本发明实施例还提供了一种翻译模型训练装置，所述装置包括：

获取模块，用于获取预设训练集，所述预设训练集包括源语言的多个样本台词以及每一样本台词对应的目标语言的标注台词；

第一确定模块，用于确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，所述样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系；

第二确定模块，用于根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征；

输入模块，用于将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词；

第三确定模块，用于根据所述预测台词和标注台词，确定所述预设神经网络模型是否收敛；

结束模块，用于若所述预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型；

重新执行模块，用于若所述预设神经网未收敛，则调整所述预设神经网络的参数，并重新执行所述将每一样本台词对应的样本输入特征输入预设神经网络，得到每一样本台词对应的目标语言的预测台词的步骤。

可选的，所述第三确定模块包括：

第一获取子模块，用于获取每一样本台词的来源对象的第一样本人脸图像，对所述第一样本人脸图像进行人脸识别，得到该样本台词的来源对象的第一样本身份信息；和/或获取每一样本台词的来源对象的第一样本语音信号，对所述第一样本语音信号进行声纹识别，得到该样本台词的来源对象的第一样本身份信息；

第二获取子模块，用于获取听取每一样本台词的对象的第二样本人脸图像，对所述第二样本人脸图像进行人脸识别，得到听取该样本台词的对象的第二样本身份信息；和/或获取听取每一样本台词的对象的第二样本语音信号，对所述第二样本语音信号进行声纹识别，得到听取该样本台词的对象的第二样本身份信息；

第一确定子模块，用于根据所述第一样本身份信息与所述第二样本身份信息，确定每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系，其中，每一样本台词的来源对象的样本社交信息包括所述第一样本身份信息，以及每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系。

可选的，所述第二确定模块包括：

第二确定子模块，用于根据多个预设类别和每一所述预设类别对应的社交信息，从所述多个预设类别中，确定所述样本社交信息对应的样本预设类别；

第三确定子模块，用于根据所述样本作品题材和所述样本预设类别，以及每一样本台词，确定所述样本输入特征。

可选的，所述第二确定模块具体用于：

按照预设排序规则，对所述样本作品题材、所述样本社交信息、分隔符和每一样本台词进行排序，得到样本输入特征；

为达到上述目的，本发明实施例还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的台词翻译方法，或上述任一所述的翻译模型训练方法的步骤。

为达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的台词翻译方法，或上述任一所述的翻译模型训练方法步骤。

为达到上述目的，本发明实施例还提供了一种包含指令的计算机程序，当其在计算机上运行时，使得计算机执行上述任一所述的台词翻译方法，或上述任一所述的翻译模型训练方法步骤。

本发明实施例提供的技术方案的有益效果：

本发明实施例提供的台词翻译方法、装置及翻译模型训练方法、装置中，确定待翻译台词所属的作品的作品题材，以及确定待翻译台词对应的第一人物对象的社交信息后，将作品题材、社交信息以及待翻译台词输入预设翻译模型内，得到目标语言的台词。通过本发明实施例提供的技术方案，在翻译台词时，不仅考虑了待翻译台词，还考虑到待翻译台词对应的第一人物对象的社交信息以及待翻译台词所属的作品的题材信息，增加了台词翻译的信息量，提高了台词翻译的准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种台词翻译方法的一种流程图；

图2为本发明实施例提供的一种确定身份关系的一种流程图；

图3为本发明实施例提供的一种确定第一输入特征的一种流程图；

图4为本发明实施例提供的一种通过翻译模型翻译台词的一种示意图；

图5为本发明实施例提供的一种翻译模型训练方法的一种流程图

图6为本发明实施例提供的一种确定样本身份关系的一种流程图；

图7为本发明实施例提供的一种确定样本输入特征的一种流程图；

图8为本发明实施例提供的一种台词翻译装置的一种结构图；

图9为本发明实施例提供的一种翻译模型训练装置的一种结构图；

图10为本发明实施例提供的一种电子设备的一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，当对台词进行翻译时，台词的内容与台词所属作品的作品题材、台词的说话者的信息等因素相关。例如，在台词所属的作品的题材不同时，以及在对话者之间的关系不同时，台词中的人称代词也会不同，例如，在古代题材的作品中人称代词“你”可被翻译为“汝”；或当台词对应的对话者关系为陌生人时，人称代词“你”可被翻译为“您”；或在古代宫廷题材的作品中，当妃子对皇帝说话时，人称代词“我”可翻译为“臣妾”等。因此在台词翻译时，仅考虑当前的一句台词，会使得台词翻译的准确度较低。

为提高台词翻译的准确度，本发明实施例提供了一种台词翻译方法、装置及翻译模型训练方法、装置。

如图1所示，图1为本发明实施例提供的一种台词翻译方法的一种流程图，该方法包括如下步骤。

步骤101，获取源语言的待翻译台词，待翻译台词来源于第一人物对象。

步骤102，确定待翻译台词所属的作品的第一作品题材，以及确定第一人物对象的第一社交信息，第一社交信息包括第一人物对象的身份信息，及第一人物对象和第二人物对象的身份关系，第二人物对象为听取待翻译台词的人物对象。

步骤103，根据第一作品题材和第一社交信息，以及待翻译台词，确定第一输入特征。

步骤104，将第一输入特征输入预设翻译模型，得到待翻译台词对应的目标语言的台词。

本发明实施例提供的台词翻译方法中，确定待翻译台词所属的作品的第一作品题材，以及确定待翻译台词的第一人物对象的第一社交信息，将第一作品题材、第一社交信息以及待翻译台词输入预设翻译模型内，得到目标语言的台词。通过本发明实施例提供的台词翻译方法，在翻译台词时，不仅考虑了待翻译台词，还考虑到待翻译台词的第一人物对象的社交信息以及待翻译台词所属的作品的作品题材信息，增加了台词翻译的信息量，提高了台词翻译的准确度。

步骤101中，源语言可以为一种或多种，如汉语、泰语、越南语、法语、英语等。待翻译台词所属的作品的作品类型包括但不限于影视作品和文学作品。当作品类型为电视剧、电影、广播剧等影视作品时，待翻译台词可以为电视剧、电影、广播剧等影视作品中任一时间戳处的台词。当作品类型为小说、剧本等文学作品时，待翻译台词为小说、剧本等文学作品中某一段落处的台词，这种情况下，获取待翻译台词可以为获取小说、剧本等文学作品中的台词。

本发明实施例中，作品的语言种类就是作品中台词的语言种类。例如，作品为英语版本，则作品中的台词就是英语的台词。

一个实施例中，为了快速地确定待翻译台词所属的作品的第一作品题材，可以预先设置包括作品和作品对应的作品题材的知识图谱，依据该知识图谱，确定出待翻译台词所属的作品的第一作品题材。

步骤102中，基于获取的待翻译台词，确定待翻译台词所属的作品的第一作品题材，以及确定待翻译台词的第一人物对象的第一社交信息。

本发明实施例中，待翻译台词所属的作品的作品题材可以用于表示该作品的故事背景的类型，还可表示该作品中故事发生的年代及时间等。待翻译台词所属作品的第一作品题材可以包括但不限于古代、现代、近代、民国等。本发明实施例对待翻译台词对应的作品题材不作具体限定。

台词的第一人物对象的社交信息可以包括但不限于台词的第一人物对象的身份信息、台词的第一人物对象和第二人物对象之间的身份关系。台词的第一人物对象即为讲述这句台词的人，台词的第二人物对象即听取这句台词的人，也就是，第二人物对象既可以与第一人物对象进行对话，也可以仅听取这句台词，但不针对这句台词做出回应。身份信息包括但不限于性别、年龄、职位等，身份关系包括但不限于朋友关系、上下级关系、父子关系等。

步骤103中，在确定待翻译台词所属的作品的第一作品题材，以及确定待翻译台词第一人物对象的第一社交信息后，可以将待翻译台词对应的第一作品题材、第一人物对象的第一社交信息，以及待翻译台词相结合，得到待翻译台词的第一输入特征。该第一输入特征为需要输入预设翻译模型的特征。

其中，预设翻译模型可以为根据预设训练集对预设神经网络进行训练得到的模型。预设训练集可以包括源语言的多个样本台词以及每一样本台词对应的目标语言的台词。预设神经网络可以为基于encoder-decoder(编码-解码)的神经网络。目标语言可以为一种或多种，如汉语、泰语、越南语、法语、英语等。基于上述预设神经网络和预设训练集训练得到的预设翻译模型，可用于将源语言的台词翻译成目标语言的台词。下面会详细介绍预设翻译模型，此次不再展开说明。

步骤104中，在确定第一输入特征后，将第一输入特征输入预设翻译模型，预设翻译模型对第一输入特征进行处理，进而输出待翻译台词对应的目标语言的台词，也就是翻译结果。

一种实施例中，如图2所示，步骤102中确定待翻译台词的第一人物对象的第一社交信息的步骤，可以细化为如下步骤。

步骤1021，获取待翻译台词的第一人物对象的第一人脸图像，对第一人脸图像进行人脸识别，得到第一人物对象的第一身份信息；和/或获取待翻译台词的第一人物对象的第一语音信号，对第一语音信号进行声纹识别，得到第一人物对象的第一身份信息。

步骤1022，获取待翻译台词的第二人物对象的第二人脸图像，对第二人脸图像进行人脸识别，得到第二人物对象的第二身份信息；和/或获取待翻译台词的第二人物对象的第二语音信号，对第二语音信号进行声纹识别，得到第二人物对象的第二身份信息。

步骤1023，根据第一身份信息与第二身份信息，确定第一人物对象与第二人物对象之间的身份关系，其中，第一人物对象的社交信息包括第一身份信息，以及第一人物对象与第二人物对象之间的身份关系。

本发明实施例中，待翻译台词的第一人物对象的第一社交信息包括第一人物对象的第一身份信息，以及待翻译台词的第一人物对象与第二人物对象之间的身份关系。不同身份信息、不同身份关系的第一人物对象与第二人物对象之间对话方式是不同的。基于此，依据包括身份信息和身份关系的社交信息进行台词翻译，可有效提高台词翻译的准确性。

步骤1021中，第一身份信息可以利用人脸识别技术获得，例如，对待翻译台词的第一人物对象的第一人脸图像进行人脸识别，得到第一人脸图像的人脸特征，进而依据第一人脸图像的人脸特征，确定第一人物对象的第一身份信息。第一身份信息可以利用声纹识别技术获得，例如，对待翻译台词的第一人物对象的第一语音信号进行声纹识别，得到第一语音信号的声纹特征，进而依据第一语音信号的声纹特征，确定第一人物对象的第一身份信息。

为了提高确定第一身份信息的准确性，第一身份信息还可以同时利用人脸识别技术和声纹识别技术获得，例如，对待翻译台词的第一人物对象的第一人脸图像进行人脸识别，得到第一人脸图像的人脸特征，对待翻译台词的第一人物对象的第一语音信号进行声纹识别，得到第一语音信号的声纹特征，结合第一人脸图像的人脸特征和第一语音信号的声纹特征，确定第一人物对象的第一身份信息。

一个实施例中，为了快速地确定第一身份信息，可以预先设置包括人脸特征、声纹特征和身份信息的知识图谱，依据该知识图谱，确定第一人脸图像的人脸特征对应的第一身份信息，或第一语音信号的声纹特征对应的第一身份信息，或第一人脸图像的人脸特征和第一语音信号的声纹特征对应的第一身份信息。

步骤1022中，第二身份信息可以利用人脸识别技术获得，例如，对待翻译台词的第一人物对象的第二人脸图像进行人脸识别，得到第二人脸图像的人脸特征，进而依据第二人脸图像的人脸特征，确定第二人物对象的第二身份信息。第二身份信息可以利用声纹识别技术获得，例如，对待翻译台词的第二人物对象的第二语音信号进行声纹识别，得到第二语音信号的声纹特征，进而依据第二语音信号的声纹特征，确定第二人物对象的第二身份信息。

为了提高确定第二身份信息的准确性，第二身份信息还可以同时利用人脸识别技术和声纹识别技术获得，例如，对待翻译台词的第二人物对象的第二人脸图像进行人脸识别，得到第二人脸图像的人脸特征，对待翻译台词的第二人物对象的第二语音信号进行声纹识别，得到第二语音信号的声纹特征，结合第二人脸图像的人脸特征和第二语音信号的声纹特征，确定第二人物对象的第二身份信息。

一个实施例中，为了快速地确定第二身份信息，可以预先设置包括人脸特征、声纹特征和身份信息的知识图谱，依据该知识图谱，确定第二人脸图像的人脸特征对应的第二身份信息，或第二语音信号的声纹特征对应的第二身份信息，或第二人脸图像的人脸特征和第二语音信号的声纹特征对应的第二身份信息。

本发明实施例中，在确定了待翻译台词后，即可获取该待翻译台词对应的第一人物对象及第二人物对象。并通过上述步骤1021和1022，确定第一人物对象和第二人物对象的身份信息。本发明实施例不限定上述步骤1023和步骤1024的执行顺序。

步骤1023中，在获得第一人物对象的第一身份信息与第二人物对象的第二身份信息后，可以根据第一身份信息和第二身份信息确定第一人物对象与第二人物对象之间的身份关系。

一种实施例中，如图3所示，步骤103可以细分为以下步骤。

步骤1301，根据多个预设类别和每一预设类别对应的社交信息，从多个预设类别中，确定第一社交信息对应的第一预设类别。

步骤1302，根据第一作品题材和第一预设类别，以及待翻译台词，确定第一输入特征。

本发明实施例中，预设类别用于对社交信息中包含的各种信息进行分类，如将身份关系进行分类，及对身份信息中的年龄、性别等进行分类等。每一预设类别对应的社交信息具有相似的特征，如性别相同、属于同一年龄段等。根据第一社交信息的第一预设类别确定预设翻译模型的第一输入特征。这减少了预设翻译模型的输入特征的种类数量，简化了预设翻译模型的复杂度，提高了预设翻译模型的训练效率以及台词翻译效率。

步骤1031中，预先设定社交信息与预设类别的对应关系，确定每一预设类别对应的社交信息。然后由多个预设类别中，查找到对应的社交信息为第一社交信息的预设类别，将该预设类别作为第一社交信息的第一预设类别。

例如，社交信息包括身份信息，身份信息包括性别和年龄。性别分别男、女和无性。年龄划分为1-10岁、11-20岁、21-30岁、31-40岁、41-50岁、51-60岁、61-70岁、71-80岁、81-90岁和91岁以上多个年龄段。

此时，预先设定了多个预设类别及每一预设类别对应的性别包括：{类别1，男}，{类别2，女}，{类别3，无性}。预先设定了多个预设类别及每一预设类别对应的年龄包括：{类别3，1-10岁}，{类别4，11-20岁}，{类别5，21-30岁}，{类别6，31-40岁}，{类别7，41-50岁}，{类别8，51-60岁}，{类别9，61-70岁}，{类别10，71-80岁}，{类别11，81-90岁}，{类别12，91岁以上}。

若获取到第一社交信息包括性别男以及23岁，由于类别1对应的性别为男，类别5对应的年龄段位21-30岁，则可确定第一社交信息包括的性别对应的预设类别为类别1，第一社交信息包括的年龄对应的预设类别为类别5，因此可以确定第一社交信息的第一预设类别包括类别1和类别5。

步骤1032中，在确定第一预设类别后，根据第一作品题材和第一预设类别以及待翻译台词，确定需要输入预设翻译模型的第一输入特征。

一种实施例中，步骤103还可以为：按照预设排序规则，对第一作品题材、第一社交信息、分隔符和待翻译台词进行排序，得到第一输入特征。其中，预设排序规则为：按照从作品题材至社交信息，再至分隔符，再至台词的顺序排序；或，预设排序规则为：按照从社交信息至作品题材，再至分隔符，再至台词的顺序排序；分隔符用于将台词与作品题材和社交信息分隔开。

本发明实施例中，分隔符用于将社交信息和作品题材与台词区分开，防止在对待翻译台词进行翻译时，预设翻译模型无法准确区分社交信息与作品题材和待翻译台词。此外，将社交信息与作品题材放置于台词前方，可以防止当待翻译台词过长，预设翻译模型自行将待翻译台词后半部分删除时，将社交信息与作品题材一并删除，从而无法有效的利用社交信息与作品题材进行台词翻译的问题。

本发明实施例中，第一输入特征可以为：第一作品题材、第一社交信息、分隔符、待翻译台词，也可以为第一社交信息、第一作品题材、分隔符、待翻译台词。本发明实施实例对第一社交信息与第一作品题材的先后位置不作具体限定。例如，第一作品题材为L1，第一社交信息为L2，分隔符为“；”，待翻译台词为C1，则第一输入特征可以为{L1 L2；C1}或{L2 L1；C1}。

例如，如图4所示的通过翻译模型翻译台词的示意图，f

本发明实施例中，若确定了第一社交信息的第一作品题材，则组合第一作品题材、第一社交信息的第一预设类别、分隔符和待翻译台词，得到第一输入特征。仍以图4为例进行说明，图4中f

在本发明的一种实施例中，为了提高台词翻译的准确性，本发明实施例还提供了一种翻译模型训练方法，如图5所示，该方法包括如下步骤。

步骤501，获取预设训练集，预设训练集包括源语言的多个样本台词以及每一样本台词对应的目标语言的标注台词。

步骤502，确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系。

步骤503，根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征。

步骤504，将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词。

步骤505，根据预测台词和标注台词，确定预设神经网络模型是否收敛，若是，则执行步骤506；若否，则执行步骤507。

步骤506，结束训练，将当前预设神经网络作为预设翻译模型。

步骤507，调整预设神经网络的参数，并返回步骤504。

本发明实施例中，通过上述方法训练得到的预设翻译模型，充分学习到了台词的第一人物对象的社交信息以及台词所属的作品的作品题材这两种特征。进而利用预设翻译模型可充分利用待翻译台词对应的第一人物对象的社交信息以及待翻译台词对应的作品题材，对台词进行翻译，增加台词翻译的信息量，进而提高台词翻译的准确度。

步骤501中，获取的预设训练集中，样本台词的语言种类包括需要翻译的台词的语言种类。例如，需要翻译的台词的语言种类为英语，则本台词的语言种类包括英语。

本发明实施例中，为了使预设翻译模型更为准确的翻译台词，预设训练集包括的样本台词的数量越多越好。

上述步骤502-504与上述步骤102-104相似，具体可参考上述步骤102-104部分的描述，此次不再赘述。

步骤505中，可以根据每一样本台词对应的预测台词和标注台词，确定台词翻译的损失值；根据台词翻译的损失值确定预设神经网络是否收敛。

步骤506中，根据预测台词与标注台词，确定台词翻译的损失值，若损失值指示预设神经网络收敛，则表示当前的预设神经网络可以作为预设翻译模型，则结束训练。

步骤507中，若台词翻译的损失值指示当前预设神经网络未收敛，则表示当前的预设神经网络未训练完成，因此调整预设神经网络的参数，重新将样本台词输入调整参数后的预设神经网络，进行新一轮的训练。

其中，台词翻译的损失值可以为预测台词与标注台词之间存在的误差。例如，可以基于预测台词与标注台词，统计台词翻译的正确率和错误率。可以将台词翻译的错误率作为台词翻译的损失值，或将台词翻译的正确率的倒数作为台词翻译的损失值。

根据损失值判定预设神经网络是否收敛的过程可以为：当损失值小于预设损失值阈值时，确定收敛；当损失值大于等于预设损失值阈值时，确定未收敛。根据损失值判定预设神经网络是否收敛的过程还可以为：当本次计算得到的损失值与上一次计算得到的损失值之差小于预设变化阈值时，确定收敛；当本次计算得到的损失值与上一次计算得到的损失值之差大于等于预设变化阈值时，确定未收敛。

本发明实施例中，还可以采用其他方式确定预设神经网络是否收敛，在此不做限定。例如，若迭代次数达到预设次数阈值，确定预设神经网络收敛。

一种实施例中，如图6所示，步骤502中确定每一样本台词的来源对象的样本社交信息的步骤，可以细化为以下步骤。

步骤5021，获取每一样本台词的来源对象的第一样本人脸图像，对第一样本人脸图像进行人脸识别，得到该样本台词的来源对象的第一样本身份信息；和/或获取每一样本台词的来源对象的第一样本语音信号，对第一样本语音信号进行声纹识别，得到该样本台词的来源对象的第一样本身份信息。

步骤5022，获取听取每一样本台词的对象的第二样本人脸图像，对第二样本人脸图像进行人脸识别，得到听取该样本台词的对象的第二样本身份信息；和/或获取听取每一样本台词的对象的第二样本语音信号，对第二样本语音信号进行声纹识别，得到听取该样本台词的对象的第二样本身份信息。

步骤5023，根据第一样本身份信息与第二样本身份信息，确定每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系，其中，每一样本台词的来源对象的样本社交信息包括第一样本身份信息，以及每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系。

上述步骤5021-5023与上述步骤1021-1023相似，具体可参考上述步骤1021-1023部分的描述，此次不再赘述。

本发明实施例中，样本台词的来源对象的社交信息包括样本台词的来源对象的身份信息，以及样本台词的来源对象与听取该样本台词的对象之间的样本身份关系。不同身份信息、不同身份关系对应的样本台词的来源对象与听取该样本台词的对象之间对话方式是不同的。基于此，依据包括身份信息和身份关系的社交信息进行台词翻译，以来训练得到预设翻译模型，可使预设翻译模型充分学习到不同身份信息和身份关系的说话方式的特点。利用该预设翻译模型对待翻译台词进行翻译，可充分利用不同身份信息和身份关系的特点，进一步有效提高台词翻译的准确性。

一种实施例中，如图7所示，步骤503可以细化为以下步骤。

步骤5031，根据多个预设类别和每一预设类别对应的社交信息，从多个预设类别中，确定样本社交信息对应的样本预设类别。

步骤5032，根据样本作品题材和样本预设类别，以及每一样本台词，确定样本输入特征。

上述步骤5031和5032与上述步骤1031和1032相似，具体可参考上述步骤1031和1032部分的描述，此次不再赘述。

本发明实施例中，每一种类别的社交信息具有相似的特征。按照样本社交信息对应的样本预设类别确定样本输入特征，通过样本输入特征来训练得到预设翻译模型，这减少了预设翻译模型的输入特征的种类数量，简化了预设翻译模型的复杂度，提高了预设翻译模型的训练效率以及台词翻译效率。

一种实施例中，步骤503还可以为：按照预设排序规则，对样本作品题材、样本社交信息、分隔符和每一样本台词进行排序，得到样本输入特征。其中，预设排序规则为：按照从作品题材至社交信息，再至分隔符，再至台词的顺序排序；或，预设排序规则为：按照从社交信息至作品题材，再至分隔符，再至台词的顺序排序；分隔符用于将台词与作品题材和社交信息分隔开。

上述步骤503上述步骤103相似，具体可参考上述步骤103部分的描述，此次不再赘述。

本发明实施例中，分隔符用于将样本作品题材和样本社交信息与样本台词区分开，以使预设翻译模型在对样本台词进行翻译时，能够准确区分样本作品题材、样本社交信息和待翻译台词。将样本作品题材和样本社交信息放置于样本台词前方，可以防止当样本台词过长，预设翻译模型自行将样本台词后半部分删除时，将社交信息与作品题材一并删除，从而无法有效的利用社交信息与作品题材进行台词翻译的问题。

为了提高台词翻译的准确性，如图8所示，本发明实施例还提供了一种台词翻译装置，该装置包括：

获取模块801，用于获取源语言的待翻译台词，待翻译台词来源于第一人物对象。

第一确定模块802，用于确定待翻译台词所属的作品的第一作品题材，以及确定第一人物对象的第一社交信息，第一社交信息包括第一人物对象的身份信息，及第一人物对象和第二人物对象的身份关系，第二人物对象为听取待翻译台词的人物对象。

第二确定模块803，用于根据第一作品题材和第一社交信息，以及待翻译台词，确定第一输入特征。

输入模块804，用于将第一输入特征输入预设翻译模型，得到待翻译台词对应的目标语言的台词。

一种实施例中，第一确定模块802可以包括：

第一获取子模块，用于获取第一人物对象的第一人脸图像，对第一人脸图像进行人脸识别，得到第一人物对象的第一身份信息；和/或获取第一人物对象的第一语音信号，对第一语音信号进行声纹识别，得到第一人物对象的第一身份信息。

第二获取子模块，用于获取第二人物对象的第二人脸图像，对第二人脸图像进行人脸识别，得到第二人物对象的第二身份信息；和/或获取第二人物对象的第二语音信号，对第二语音信号进行声纹识别，得到第二人物对象的第二身份信息。

第一确定子模块，用于根据第一身份信息与第二身份信息，确定第一人物对象与第二人物对象之间的身份关系，其中，第一人物对象的第一社交信息包括第一身份信息，以及第一人物对象与第二人物对象之间的身份关系。

一种实施例中，第二确定模块803可以包括：

第二确定子模块，用于根据多个预设类别和每一预设类别对应的社交信息，从多个预设类别中，确定第一社交信息对应的第一预设类别。

第三确定子模块，用于根据第一作品题材和第一预设类别，以及待翻译台词，确定第一输入特征。

一种实施例中，第二确定模块803具体可以用于：

按照预设排序规则，对第一作品题材、第一社交信息、分隔符和待翻译台词进行排序，得到第一输入特征；

其中，预设排序规则为：按照从作品题材至社交信息，再至分隔符，再至台词的顺序排序；或，预设排序规则为：按照从社交信息至作品题材，再至分隔符，再至台词的顺序排序；分隔符用于将台词与作品题材和社交信息分隔开。

一种实施例中，装置还包括训练模块，用于训练得到预设翻译模型；

训练模块包括：

第三获取子模块，用于获取预设训练集，预设训练集包括源语言的多个样本台词以及每一样本台词对应的目标语言的标注台词。

第四确定子模块，用于确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系。

第五确定子模块，用于根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征。

输入子模块，用于将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词。

第六确定子模块，用于根据预测台词和标注台词，确定预设神经网络模型是否收敛。

结束子模块，用于若预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型。

重新执行子模块，用于若预设神经网未收敛，则调整预设神经网络的参数，并重新执行将每一样本台词对应的样本输入特征输入预设神经网络，得到每一样本台词对应的目标语言的预测台词的步骤。

为了提高台词翻译的准确性，如图9所示，本发明实施例还提供了一种翻译模型训练装置，该装置包括：

获取模块901，用于获取预设训练集，预设训练集包括源语言的多个样本台词以及每一样本台词对应的目标语言的标注台词。

第一确定模块902，用于确定每一样本台词所属的作品的样本作品题材，以及确定每一样本台词的来源对象的样本社交信息，样本社交信息包括每一样本台词的来源对象的身份信息，及每一样本台词的来源对象和听取该样本台词的对象的身份关系。

第二确定模块903，用于根据每一样本台词对应的样本作品题材和样本社交信息，以及每一样本台词，确定每一样本台词对应的样本输入特征。

输入模块904，用于将每一样本台词对应的样本输入特征分别输入预设神经网络，得到每一样本台词对应的目标语言的预测台词。

第三确定模块905，用于根据预测台词和标注台词，确定预设神经网络模型是否收敛。

结束模块906，用于若预设神经网收敛，则结束训练，将当前预设神经网络作为预设翻译模型。

重新执行模块907，用于若预设神经网未收敛，则调整预设神经网络的参数，并重新执行将每一样本台词对应的样本输入特征输入预设神经网络，得到每一样本台词对应的目标语言的预测台词的步骤。

一种实施例中，第三确定模块902可以包括：

第一获取子模块，用于获取每一样本台词的来源对象的第一样本人脸图像，对第一样本人脸图像进行人脸识别，得到该样本台词的来源对象的第一样本身份信息；和/或获取每一样本台词的来源对象的第一样本语音信号，对第一样本语音信号进行声纹识别，得到该样本台词的来源对象的第一样本身份信息。

第二获取子模块，用于获取听取每一样本台词的对象的第二样本人脸图像，对第二样本人脸图像进行人脸识别，得到听取该样本台词的对象的第二样本身份信息；和/或获取听取每一样本台词的对象的第二样本语音信号，对第二样本语音信号进行声纹识别，得到听取该样本台词的对象的第二样本身份信息。

第一确定子模块，用于根据第一样本身份信息与第二样本身份信息，确定每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系，其中，每一样本台词的来源对象的样本社交信息包括第一样本身份信息，以及每一样本台词的来源对象和听取该样本台词的对象之间的样本身份关系。

一种实施例中，第二确定模块903可以包括：

第二确定子模块，用于根据多个预设类别和每一预设类别对应的社交信息，从多个预设类别中，确定样本社交信息对应的样本预设类别。

第三确定子模块，用于根据样本作品题材和样本预设类别，以及每一样本台词，确定样本输入特征。

一种实施例中，第二确定模块903具体可以用于：

按照预设排序规则，对样本作品题材、样本社交信息、分隔符和每一样本台词进行排序，得到样本输入特征；

本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现上述实施例中任一台词翻译方法或上述实施例中任一翻译模型训练方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一台词翻译方法或上述任一翻译模型训练方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序，当其在计算机上运行时，使得计算机执行上述实施例中任一台词翻译方法或上述实施例中任一翻译模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 台词翻译方法、装置及翻译模型训练方法、装置 [P] . 中国专利： CN112560511A . 2021-03-26
2. 语句翻译模型的训练方法及装置、语句翻译方法及装置 [P] . 中国专利： CN111222347B . 2020.07.28
3. METHOD AND APPARATUS FOR TRAINING TARGET LANGUAGE WORD INFLECTION MODEL BASED ON BILINGUAL CORPUS, TLWI METHOD AND APPARATUS, AND TRANSLATION METHOD AND SYSTEM FOR TRANSLATING SOURCE LANGUAGE TEXT INTO TARGET LANGUAGE [P] . 日本专利： JP2009140499A . 2009-06-25

机译：基于双语语料库，TLWI方法和装置的目标语言单词变形模型的训练方法和装置，以及将源语言文本翻译成目标语言的翻译方法和系统
4. TRANSLATION MODEL TRAINING METHOD, SENTENCE TRANSLATION METHOD AND APPARATUS, AND STORAGE MEDIUM [P] . EP3792789A1 . 2021-03-17

机译：翻译模型训练方法，句子翻译方法和装置和存储介质
5. IMAGE TRANSLATION METHOD AND DEVICE IMAGE TRANSLATION MODEL TRAINING METHOD AND DEVICE [P] . KR20210148836A . 2021-12-08

机译：图像翻译方法与设备图像翻译模型训练方法和装置