首页> 中国专利> 用于语音合成系统的韵律与声学联合建模的方法及装置

用于语音合成系统的韵律与声学联合建模的方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出一种用于语音合成系统的韵律与声学联合建模的方法及装置，其中，该方法包括：根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型；根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合；以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。本发明实施例的用于语音合成系统的韵律与声学联合建模的方法及装置，提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。

著录项

公开/公告号CN104916284A

专利类型发明专利
公开/公告日2015-09-16

原文格式PDF
申请/专利权人百度在线网络技术(北京)有限公司;
展开▼

申请/专利号CN201510315459.5
发明设计人康永国;付晓寅;
展开▼

申请日2015-06-10
分类号G10L15/06(20130101);G10L13/10(20130101);G10L13/02(20130101);
代理机构北京清亦华知识产权代理事务所(普通合伙);
代理人宋合成
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-22

授权

授权
2015-10-14

实质审查的生效 IPC(主分类):G10L15/06 申请日:20150610

实质审查的生效
2015-09-16

公开

公开

说明书

技术领域

本发明涉及计算机技术领域，特别涉及一种用于语音合成系统的韵律与声学联合建模的方法及装置。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。

在语音合成的过程中要用到两个模型，韵律模型和声学模型，这两个模型是通过对训练数据进行训练所建立的，目前这两个模型的训练过程是独立的，并且所建立的韵律模型是一种离散的韵律模型，该韵律模型所预测出的韵律特征是离散的。

目前韵律模型和声学模型独立建模存在的问题是韵律模型预测出的韵律层级仅有几种停顿层级，所合成的语音在韵律停顿上带有明显的阶梯性，在韵律模型预测出的韵律停顿层级发生错误时，所合成的语音在韵律停顿上的阶梯性尤其明显，合成语音的自然流畅度上和真人播放存在较大差距，用户听到的语音不够流畅，用户体验不理想。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种用于语音合成系统的韵律与声学联合建模的方法，该方法提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。

本发明的第二个目的在于提出一种用于语音合成系统的韵律与声学联合建模的装置。

为实现上述目的，本发明第一方面实施例的用于语音合成系统的韵律与声学联合建模的方法，包括：根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，其中，所述第一文本特征集合用于训练所述连续韵律预测模型，所述第二文本特征集合用于训练声学预测模型，所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应；根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合；以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型，其中，所述声学参数集合与所述第二文本特征集合对应。

本发明实施例的用于语音合成系统的韵律与声学联合建模的方法，首先根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，然后根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合，以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型，由此，提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。

为实现上述目的，本发明第二方面实施例的用于语音合成系统的韵律与声学联合建模的装置，包括：第一生成模块，用于根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，其中，所述第一文本特征集合用于训练所述连续韵律预测模型，所述第二文本特征集合用于训练声学预测模型，所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应；预测模块，用于根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合；以及第二生成模块，用于根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型，其中，所述声学参数集合与所述第二文本特征集合对应。

本发明实施例的用于语音合成系统的韵律与声学联合建模的装置，第一生成模块根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，然后预测模块根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合，以及第二生成模块根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型，由此，提出了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。

附图说明

图1是根据本发明一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。

图2是根据本发明另一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。

图3是联合建立连续韵律预测模型和声学预测模型的框架示意图。

图4是包含连续韵律预测模型和声学预测模型的语音合成系统的框架示意图。

图5是根据本发明一个实施例的用于语音合成系统的韵律与声学联合建模的装置的结构示意图。

图6是根据本发明另一个实施例的用于语音合成系统的韵律与声学联合建模的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成系统的韵律与声学联合建模的方法及装置。

目前，语音合成系统中的韵律模型所预测出的韵律停顿层级是离散的，一旦韵律模型所预测出的韵律停顿层级发生错误，将对后续的声学模型预测声学参数产生重大影响，进而影响后续合成的语音，所合成的语音在韵律停顿上带有明显的阶梯性，合成语音不流畅自然。例如，合成文本为：如果路人递给它一个空瓶；对应的正确韵律为：如果#1路人#1 递给#1它#2一个#1空瓶；假定韵律模型所预测的韵律预测结果为：如果#1路人#1递给#2 它#1一个#1空瓶。其中，#1表示一个小停顿，#2表示一个大停顿。如果按照预测的韵律进行合成“递给”和“它”之间会有一个很大的停顿，且“它”和“一个”之间，会有一个小停顿，这样会造成该句合成效果不流畅自然。为了解决上述问题，本发明提出了一种用于语音合成系统的韵律与声学联合建模的方法。

图1是根据本发明一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。

如图1所示，该用于语音合成系统的韵律与声学联合建模的方法包括：

S101，根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型。

其中，第一文本特征集合用于训练连续韵律预测模型，第二文本特征集合用于训练声学预测模型，第一韵律标注集合和第二韵律标注集合分别与第一文本特征集合和第二文本特征集合对应。

上述第一文本特征集合中包括词面(即词条本身)、词长、词性等内容，第一韵律标注集中包含四种停顿等级，分别是一级停顿、二级停顿、三级停顿和四即挺度，停顿级别越高表明此处需要停顿的时间越长。其中，一级停顿可用#0表示，一级停顿表示无停顿；一级停顿可用#1表示，二级停顿表示小停顿(对应韵律词)；三级停顿#2，三级停顿为大停顿(对应韵律短语)；四级停顿可用#3表示，三级停顿为超大停顿(对应语调短语)。

上述第二文本特征集合以音子(中文为声母或者韵母)为单位，文本特征包括当前音子以及前后的音子、当前音子所属语法词的韵律停顿层级等特征。第二韵律标注集合中包含人工为用于训练声学预测模型的训练数据所标注的韵律特征信息。

在本发明的一个实施例中，可通过深度神经网络算法对第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练，并根据训练结果建立连续韵律预测模型。

具体而言，深度神经网络算法是一种连续建模算法，神经网络节点的输出天然带有连续的特性，因此，深度神经网络算法根据训练数据的文本特征集合和韵律标注集合之间的映射关系所建立的韵律预测模型是连续的，该连续韵律预测模型输出连续韵律特征。

例如，将语法词“如果”输入到连续韵律预测模型后，连续韵律预测模型输出“如果”的韵律特征信息为：#0的概率为0.1，#1的概率为0.2，#2的概率0.6，#3的概率0.1，而传统的离散型韵律预测模型将直接输出“如果”的韵律停顿等级为#2，由此，可以看出，连续韵律预测模型与传统的韵律预测模型所预测出的韵律特征不同，该实施例的连续韵律预测模型预测出对应语法词在每个韵律停顿等级上的概率值。

S102，根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合。

具体地，在生成连续韵律预测模型后，可通过连续韵律预测模型生成第二文本特征集合的连续韵律特征集合，以方便后续基于连续韵律特征集合对声音预测模型进行训练，相对于传统的基于离散韵律特征对声学预测模型进行训练的方式来说，通过连续韵律特征对声学预测模型进行训练，可使声学参数在韵律上具有连续的特性。

其中，上述连续韵律特征集合中包括第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率。

S103，根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。

其中，上述声学参数集合与第二文本特征集合对应。上述声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息，其中，上述声学信息可以包括但不限于时长和和基频，例如，声学信息中还可以包括音调信息。

具体地，可通过深度神经网络算法对第二文本特征集合、连续韵律特征集合和声学参数集合进行训练，以获得语法词、韵律停顿等级的概率与声学信息的映射关系，然后可基于语法词、韵律停顿等级的概率与声学信息的映射关系建立声学预测模型。

需要说明的是，该实施例的声学预测模型可根据停顿等级的概率给出对应的声学参数信息，也就是说，声学预测模型建立了停顿等级概率与声学参数之间的对应关系，即同一停顿等级，其停顿等级概率不同，声学预测模型所预测出的声学参数信息不同。

在该实施例中，在线下通过韵律和声学参数信息联系建立连续韵律预测模型和声学预测模型后，可将连续韵律预测模型和声学预测模型加入至语音合成系统中，然后语音合成系统完成文本信息到语音的转换。

语音合成系统基于上述连续韵律预测模型和声学预测模型合成待处理的文本信息的语音的过程，如图2所示，具体包括：

S104，获得待处理的文本信息，并通过连续韵律预测模型生成文本信息的连续韵律特征信息。

需要说明的是，连续韵律预测模型以语法词为单位进行连续韵律预测。

例如，当前待处理的文本信息为“如果路人递给它一个空瓶”，假定正常韵律为：如果 #1路人#1递给#1它#2一个#1空瓶。在将该文本信息输入到连续韵律预测模型，该连续韵律预测模型可以输出每个语法词的特征信息，该文本信息的韵律特征信息如表1所示。

表1 文本信息的韵律特征信息

通过表1中可以看出“递给”后面的停顿等级概率中，#2的概率为0.55，三级停顿的概率较大；“它”后面的停顿等级概率中，#1的概率为0.6，二级停顿的概率较大。

S105，将文本信息和连续韵律特征信息输入声学预测模型，声学预测模型根据文本信息和连续韵律特征信息生成文本信息的声学参数信息。

例如，当前待处理的文本信息为“如果路人递给它一个空瓶”，在将文本信息和该文本信息的韵律特性信息(如表1所示)输入声学预测模型后，声学预测模型可根据韵律特征信息获得每个语法词的谱、时长、音频等声学参数。对于语法词“递给”，由于#2的概率为 0.55，此时，声学预测模型将获得三级停顿(#2)的概率为0.55时对应的谱、时长、音频等声学参数，对于语法词“它”，二级停顿(#1)的概率为0.6，通过该概率可以看出，“它” 后面对应一个弱二级停顿，此时，声学预测模型将输出二级停顿的概率为0.6时对应的谱、时长、音频等声学参数。

S106，根据声学参数信息合成文本信息的语音。

例如，通过韵律和声学参数信息联系建立声学预测模型后，声学预测模型建立的一级停顿等级与声学参数时长的对应关系如表2所示。需要说明的是，表1中的数据仅是一种示例，与实际应用的数据可能不同。

表2 一级停顿等级(#1)和时长的对应关系

假定对于某个词语，如果该词语后面的#1的概率为0.55，则在所合成的语音中该词语后面停顿的时长为2ms，如果词语后面的#1的概率为0.9，则在所合成的语音中该词语后面停顿的时长为7ms。

其中，联合建立连续韵律预测模型和声学预测模型的框架示意图如图3所示。

通过图3可以看出，与传统分别建立韵律预测模型和声学预测模型的方式相比：该方式在建立连续韵律预测模型的过程中应用到了训练声学预测模型的训练数据的文本特征集合和韵律特征集合。在建立声学预测模型的过程中，首先通过已经建立的连续韵律预测模型获得第二文本特征集合的连续韵律特征集合，然后使用连续韵律特征集合进行声学训练，并根据训练结果建立声学预测模型，使得声学预测模型预测出的声学参数在韵律上具有连续的特性。

其中，包含连续韵律预测模型和声学预测模型的语音合成系统的框架示意图，如图4 所示。

如图4所示，在获得待处理的文本信息后，可先对文本信息进行分词、词性等文本分析，并将文本分析的结果输入至连续韵律预测模型中，连续韵律预测模型生成连续韵律特征信息，然后将连续韵律特征信息和文本信息输入至声学预测模型中，声学预测模型合成该文本信息对应的声学特征信息，声码器或者波形拼接模块根据声学特征信息合成该文本信息对应的语音。

为了实现上述实施例，本发明还提出一种用于语音合成系统的韵律与声学联合建模的装置。

图5是根据本发明一个实施例的用于语音合成系统的韵律与声学联合建模的装置的结构示意图。

如图5所示，该用于语音合成系统的韵律与声学联合建模的装置包括第一生成模块 100、预测模块200和第二生成模块300，其中：

第一生成模块100用于根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，其中，第一文本特征集合用于训练连续韵律预测模型，第二文本特征集合用于训练声学预测模型，第一韵律标注集合和第二韵律标注集合分别与第一文本特征集合和第二文本特征集合对应；预测模块200 用于根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合；以及第二生成模块300用于根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型，其中，声学参数集合与第二文本特征集合对应。

上述第一生成模块100具体用于：通过深度神经网络算法对第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练，并根据训练结果建立连续韵律预测模型。

其中，上述连续韵律特征集合中包括第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率，声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息，上述声学信息可以包括但不限于时长和基频，例如，声学信息还可以包括音调信息。

具体地，第二生成模块300可通过深度神经网络算法对第二文本特征集合、连续韵律特征集合和声学参数集合进行训练，以获得语法词、韵律停顿等级的概率与声学信息的映射关系，并根据映射关系建立声学预测模型。

另外，如图6所示，上述装置还可以包括处理模块400，该处理模块400用于在第二生成模块300根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型之后，获得待处理的文本信息，并通过连续韵律预测模型生成文本信息的连续韵律特征信息；将文本信息和连续韵律特征信息输入声学预测模型，声学预测模型根据文本信息和连续韵律特征信息生成文本信息的声学参数信息；以及根据声学参数信息合成文本信息的语音。

在线下通过韵律和声学参数信息联系建立韵律预测模型和声学预测模型后，可将韵律预测模型和声学预测模型加入至语音合成系统中，然后语音合成系统完成文本信息到语音的转换。

需要说明的是，上述对用于语音合成系统的韵律与声学联合建模的方法实施例的解释说明也适用于该实施例的用于语音合成系统的韵律与声学联合建模的装置，此处不赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于语音合成系统的韵律与声学联合建模的方法及装置 [P] . 中国专利： CN104916284B . 2017.02.22
2. 用于语音合成系统的韵律与声学联合建模的方法及装置 [P] . 中国专利： CN104916284A . 2015-09-16
3. Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program [P] . 日本专利： JP6314828B2 . 2018-04-25

机译：韵律模型学习装置，韵律模型学习方法，语音合成系统以及韵律模型学习程序
4. Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program [P] . 日本专利： JPWO2014061230A1 . 2016-09-05

机译：韵律模型学习装置，韵律模型学习方法，语音合成系统以及韵律模型学习程序
5. Speech synthesis system and prosodic control method in the speech synthesis system [P] . 美国专利： US6477495B1 . 2002-11-05

机译：语音合成系统及语音合成系统中的韵律控制方法