首页> 中国专利> 一种基于隐式音素转换的小语种迁移学习语音合成方法

一种基于隐式音素转换的小语种迁移学习语音合成方法

摘要

目前的语音合成技术通常只针对常用语音,如汉语、英语等。小语种的语音合成技术却少有人涉足,主要原因为小语种使用人数较少、语料搜集困难等。针对现有小语种语音合成的不足和难点,本发明提供了一种基于隐式音素转换的小语种迁移学习语音合成方法,主要利用迁移学习将主流语种中学到的知识应用到小语种合成中,并且提出音素转换网络解决了不同语种中输入特征不匹配的问题。该方法所需小语种预料数量低,训练速度快,能有效实现小语种的语音合成。

著录项

  • 公开/公告号CN114822488A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202210253668.1

  • 发明设计人 叶登攀;金鑫磊;李镜洋;田聪;

    申请日2022-03-15

  • 分类号G10L13/02(2013.01);G10L13/08(2013.01);G06N20/00(2019.01);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222;

  • 代理人罗飞

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G10L13/02 专利申请号:2022102536681 申请日:20220315

    实质审查的生效

说明书

技术领域

本发明涉及人工智能的语音合成技术领域,尤其涉及一种基于隐式音素转换的小语种迁移学习语音合成方法。

背景技术

随着计算机技术和人工智能技术的不断发展,语音合成技术取得了长足的进步,然而,目前的语音合成技术通常只针对常用语音,如汉语、英语等。小语种的语音合成技术研究相对较少,主要是因为小语种使用人数较少、语料搜集困难和语言模型复杂等。

发明内容

针对现有小语种语音合成的不足和难点,本发明提供了一种基于隐式音素转换的小语种迁移学习语音合成方法,主要利用迁移学习将主流语种中学到的知识应用到小语种合成中,并且提出音素转换网络解决了不同语种中输入特征不匹配的问题该方法所需小语种预料数量低,训练速度快,能有效实现小语种的语音合成。

本发明提供了一种基于隐式音素转换的小语种迁移学习语音合成方法,包括:

S1:收集大量主流语种语料与少量小语种语料;

S2:获得预训练的语音生成模型;

S3:利用收集的大量主流语种语料与少量小语种语料训练音素转换模型,得到训练好的音素转换模型,其中,音素转换模型包括一个编码器和两个解码器,编码器用以将词嵌入向量编码成隐向量且不区分语种,不同的语种具有不同的解码器,解码器用于从隐向量中解码出对应的语种音素;

S4:利用步骤S3训练好的音素转换模型对小语种数据进行音素转换,并利用因素转换得到的小语种音素数据重新对步骤S2中预训练的语音生成模型进行训练;

S5:利用步骤S4中训练好的语音合成模型,进行小语种语音合成。

在一种实施方式中,步骤S1包括:

S1.1:收集大量主流语种语料;

S1.2:收集和录制部分小语种语料数据;

S1.3:对收集的主流语种语料和小语种语料数据进行预处理。

在一种实施方式中,步骤S2中预训练的语音生成模型利用主流语种数据对预设语音生成模型进行预训练得到,或者直接使用已经预训练好的语音生成模型。

在一种实施方式中,步骤S3的训练过程中,将不同语种数据转换为词嵌入向量,并训练编码器和对应的解码器,使得各语种的解码器能够解码出对应语种的音素。

在一种实施方式中,步骤S5包括:

S5.1:输入小语种原始文本,生成小语种原始文本对应的词嵌入向量Embedding;

S5.2:利用步骤S3中训练好的音素转换模型对小语种原始文本对应的词嵌入向量进行音素转换;

S5.3:将转换后的音素利用步骤S4中训练好的语音合成模型进行语音合成,生成小语种语音。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提出了一种基于隐式音素转换的小语种迁移学习语音合成方法,利用迁移学习将主流语种中学到的知识应用到小语种合成中,利用收集的大量主流语种语料与少量小语种语料训练音素转换模型,得到了训练好的音素转换模型,音素转换模型包括一个编码器和两个解码器,编码器可以将词嵌入向量编码成隐向量且不区分语种,不同的语种具有不同的解码器,解码器可以从隐向量中解码出对应的语种音素;解决了不同语种中输入特征不匹配的问题,并且本发明的方法所需小语种预料数量低,训练速度快,能有效实现小语种的语音合成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的基于隐式音素转换的小语种迁移学习语音合成方法的流程图;

图2是本发明实施例中提供的语音合成方法采用的整理框架示意图;

图3是本发明实施例中音素转换模型的训练和转化过程。

具体实施方式

现有技术中,语音合成技术通常只针对常用(主流)语音,如汉语、英语等。小语种(日语、韩语等)的语音合成技术却少有人涉足,主要原因为小语种使用人数较少、语料搜集困难等。针对现有小语种语音合成的不足和难点,本发明提供了一种基于隐式音素转换的小语种迁移学习语音合成方法,主要利用迁移学习将主流语种中学到的知识应用到小语种合成中,并且提出音素转换网络解决了不同语种中输入特征不匹配的问题。该方法所需小语种预料数量低,训练速度快,能有效实现小语种的语音合成。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种基于隐式音素转换的小语种迁移学习语音合成方法,包括:

S1:收集大量主流语种语料与少量小语种语料;

S2:获得预训练的语音生成模型;

S3:利用收集的大量主流语种语料与少量小语种语料训练音素转换模型,得到训练好的音素转换模型,其中,音素转换模型包括一个编码器和两个解码器,编码器用以将词嵌入向量编码成隐向量且不区分语种,不同的语种具有不同的解码器,解码器用于从隐向量中解码出对应的语种音素;

S4:利用步骤S3训练好的音素转换模型对小语种数据进行音素转换,并利用因素转换得到的小语种音素数据重新对步骤S2中预训练的语音生成模型进行训练;

S5:利用步骤S4中训练好的语音合成模型,进行小语种语音合成。

请见图1,为本发明提供的一种基于隐式音素转换的小语种迁移学习语音合成方法的实现流程图,其中的常用语种数据即主流语种语料。

步骤S1中收集的大量主流语种语料与少量小语种语料,用于步骤S3中音素转换模型的训练。其中,语料的数量可以根据实际需要设置。

在一种实施方式中,步骤S1包括:

S1.1:收集大量主流语种语料;

S1.2:收集和录制部分小语种语料数据;

S1.3:对收集的主流语种语料和小语种语料数据进行预处理。

具体来说,步骤S1.1中的主流语种语料可以采用已有的公开数据集。步骤S1.3中的预处理包括因素对齐、标记等操作,以便于后续模型的训练。

在一种实施方式中,步骤S2中预训练的语音生成模型利用主流语种数据对预设语音生成模型进行预训练得到,或者直接使用已经预训练好的语音生成模型。

在一种实施方式中,步骤S3的训练过程中,将不同语种数据转换为词嵌入向量,并训练编码器和对应的解码器,使得各语种的解码器能够解码出对应语种的音素。

请参见图3,展示了音素转换模型的结构及训练和生成过程。音素转换模型由一个编码器和两个解码器组成。编码器将词向量Embedding编码成隐向量且不区分语种;不同的语种具有不同的解码器,从隐向量中解码出对应的语种音素。

实现原理如下:

训练阶段:如图3的(a)部分所示,将不同语种数据转换为Embedding,并训练编码器和对应的解码器,使得各语种的解码器能够解码出对应语种的音素。

合成阶段:如图3的(b)部分所示,使用训练好的编码器和解码器,完成不同语种的音素转换。输入小语种原始文本,转换为词向量编码,然后由编码器进行编码,最后使用主流语种的解码器进行解码,从而达到音素转换的目的。

步骤S4是利用步骤S3中训练好的音素转换模型进行音素转换,并重新训练语音合成模型。

请参见图2,展示了重新训练模型的整体结构和过程。在本实施方式中,语音合成模型采用FastSpeech模型,可以加快训练速度,并且可以平滑的调整语音速度。其具体步骤如下:

步骤S4.1:利用步骤S3中训练好的音素转换模型,对小语种数据进行音素转换;

步骤S4.2:利用步骤S4.1中对小语种数据进行音素转换得到的小语种音素数据作为数据集,重新训练步骤S2中的语音合成模型。

其中图2和图3所涉及的英文名称的解释如下:

RawText:原始文本,即需要进行语音合成的文本;

Embedding:词嵌入向量;

Phoneme Transformer Network:本发明提出的音素转换模型;

FastSpeech:本发明一种实施方式中采用的语音合成模型;

Audio:音频,即经过语音合成后的目标音频;

Encoder:编码器,用于将原始音素转换为隐向量表示;

Latent Vector:经过编码器编码后的隐向量,可看成一种编码表示;

Decoder:解码器,用于将隐向量恢复为原始音素;

Phoneme:音素,根据语音属性划分的最小语音单位,语音合成模型可将音素转化为音频。

在一种实施方式中,步骤S5包括:

S5.1:输入小语种原始文本,生成小语种原始文本对应的词嵌入向量Embedding;

S5.2:利用步骤S3中训练好的音素转换模型对小语种原始文本对应的词嵌入向量进行音素转换;

S5.3:将转换后的音素利用步骤S4中训练好的语音合成模型进行语音合成,生成小语种语音。

与现有技术相比较,本发明的有益效果在于:

1、提出了一种基于隐式音素转换的小语种迁移学习语音合成方法,解决了语音合成中小语种语料难以收集和标记的问题;

2、提出的方法不需要进行复杂的手工特征提取;

3、提出的方法解决了迁移学习中输入特征不匹配的问题;

4、提出的方法具有适应范围大、速度快等优点。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号