首页> 中国专利> 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序

用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序

摘要

本发明提供一种能够基于仅少量学习(learning)数据高精度地再现目标语者语音(voice)的基频的特征的技术。学习装置学习目标语者的目标基频图形(F pattern)相对于作为基准的源基频图形(F0 pattern)的移动量。该学习装置通过将与学习文本(text)对应的源基频图形及与同一学习文本对应的目标基频图形,以其波峰与波峰及波谷与波谷相对应的方式相关联,针对目标基频图形上的各点,该学习装置参照该关联的结果而求出相对于源基频图形上的相应点的在时间轴方向上及在频率轴方向上的移动量,且使用作为学习文本的解析结果的语言信息作为输入特征量、使用计算出的移动量作为输出特征量而学习决策树。

著录项

  • 公开/公告号CN102341842A

    专利类型发明专利

  • 公开/公告日2012-02-01

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201080010199.6

  • 发明设计人 立花隆辉;西村雅史;

    申请日2010-03-16

  • 分类号G10L13/08;

  • 代理机构北京市金杜律师事务所;

  • 代理人陈伟

  • 地址 美国纽约

  • 入库时间 2023-12-18 04:30:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-06-05

    授权

    授权

  • 2012-03-28

    实质审查的生效 IPC(主分类):G10L13/08 申请日:20100316

    实质审查的生效

  • 2012-02-01

    公开

    公开

说明书

技术领域

本发明涉及一种合成语音的语者调适技术,尤其涉及一种基于基 频的语者调适技术。

背景技术

以往,公知有一种将语音合成成与系统的基准语音不同、听起来 与目标语者的说话声相似的合成语音的语者调适技术(例如参照专利 文献1、2)。还公知有一种当将所输入的文本变换成语音信号时,生 成具有指定说话风格的合成语音的语话风格调适(speaking-style  adaptation)的技术(例如参照专利文献3及4)。

在这样的语者调适及话语风格调适中,再现语音的音高、即再现 基频(F0)对于再现该语音的效果尤为重要。作为再现基频的以往方 法包括:线性变换基频的简单方法(例如参照非专利文献1);该简 单方法的变型(例如参照非专利文献2);采用高斯(Gaussian)混合模 型(GMM)来模型化频谱及频率的连结特征矢量的方法(例如参照 非专利文献3)。

在先技术文献

专利文献

专利文献1:日本特开11-52987号公报

专利文献2:日本特开2003-337592号公报

专利文献3:日本特开7-92986号公报

专利文献4:日本特开10-11083号公报

非专利文献

非专利文献1:Z.Shuang、R.Bakis、S.Shechtman、D.Chazan、 Y.Qin、“Frequency warping based on mapping format parameters”, Proc.ICSLP,2006年9月,Pittsburg PA,USA。

非专利文献2:B.Gillet、S.King、“Transforming F0、Contours”, in Proc.EUROSPEECH 2003。

非专利文献3:宇藤陽介、南角吉彦、李晃伸、德田惠一、「声質変換のた めのスペクトル·F0の同時モデリング」、信学技報NLC2007-50、SP2007 -117(2007-12)

发明内容

然而,在非专利文献1的技术中,仅移动表示基频的时间变化的 基频图形的曲线,而该基频图形的形状没有变化,因此表现于形状起 伏中的语者的特征无法表现。另一方面,非专利文献3的技术与非专 利文献1、2的技术相比精度高。

然而,由于需要结合频谱学习基频的模型,非专利文献3的技术 存在需要大量学习数据的问题。非专利文献3的技术还具有不能够考 虑诸如重音类型及音拍位置(mora position)等的重要背景信息 (context information)的问题及不能够表现如重音核(accent nucleus) 的提前出现或延迟上升这样的在时间轴方向上的偏差(移动)的问题。

上述专利文献1至4中公开了通过使用表示目标语者或指定说话 风格的特征的频率图形的差别数据来校正作为基准的语音的频率图 形的技术。然而,上述文献中的任一者中均未说明用以校正该作为基 准的语音频率图形的差别数据自身的具体计算方法。

本发明是为解决上述问题点而做出的,其目的在于提供一种能够 基于仅少量的学习数据来高精度地再现目标语者语音的基频的特征 的技术。另外,本发明的另一目的在于提供一种能够在再现目标语者 语音的基频的特征时,考虑重音类型、音拍位置等重要背景信息的技 术。此外,本发明的又一目的在于提供一种对于如重音核的提前出现 或延迟上升那样的在时间轴方向上的偏差(移动),也能再现目标语 者语音的基频的特征的技术。

为了解决上述问题,本发明的第一方案提供一种学习装置,学习 目标语者语音的基频图形相对于作为基准的语音的基频图形的移动 量,上述基频图形表示基频的时间变化,该学习装置包括:关联部, 将与学习文本对应的作为基准的语音的基频图形与同上述学习文本 对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对 应的方式相关联;移动量计算部,其对上述目标语者语音的基频图形 上的各点,参照关联结果,计算上述各点相对于上述作为基准的语音 的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上 的移动量;学习部,使用作为上述学习文本的解析结果的语言信息作 为输入特征量、使用计算出的上述移动量作为输出特征量,学习决策 树。

在此,作为基准的语音的基频图形可为由作为基准的特定语者 (以下称为源语者)的统计模型而得的合成语音的基频图形。由移动 量计算部计算出的在该频率轴方向上的该移动量可为频率的对数的 移动量。

优选是,上述关联部包括:仿射变换计算部,其计算如下这样的 仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进 行变换以使上述作为基准的语音的基频图形与上述目标语者语音的 基频图形之差最小;仿射变换部,其用于在将基频图形的时间轴方向 没为X轴、将频率轴方向设为Y轴的情况下,将上述作为基准的语 音的基频图形上的各点与上述目标语者语音的基频图形上的点相关 联,上述目标语者语音的基频图形上的点的X坐标值为使用对应的上 述仿射变换对该作为基准的语音的基频图形上的点的X坐标值进行 变换而得的值。

更优选是,上述仿射变换计算部在用于求出上述仿射变换的处理 单位的初始值设定语调片段(intonation phrase),并递归地等分上述 处理单位直至求出将上述作为基准的语音的基频图形变换成与上述 目标语者语音的基频图形之差最小的图形的仿射变换为止。

优选是,由上述关联部进行的关联及由移动量计算部进行的移动 量计算基于帧单位或音声单元单位来执行。

优选是,该学习装置还包括变化量计算部,该变化量计算部用于 对计算出的上述移动量中的每一者的相邻点之间的变化量进行计算, 上述学习部将作为静态特征量的上述移动量及作为动态特征量的上 述移动量的变化量作为输出特征量来学习决策树。

更优选是,上述移动量的变化量包括:作为上述移动量的斜率的 一次动态特征量和作为上述移动量的曲率的二次动态特征量。

上述变化量计算部进一步计算上述目标语者语音的基频图形上 的各点中相邻点之间的在时间轴方向上及在频率轴方向上的变化量, 上述学习部将上述目标语者语音的基频图形上的各点的在时间轴方 向及在该频率轴方向上的值与上述静态特征量相加、将在上述时间轴 方向上及在频率轴方向上的变化量与上述动态特征量相加,学习上述 决策树,针对所学习的上述决策树的各叶节点,求得分配给该叶节点 的各输出特征量及上述输出特征量的组合的分布。在上述频率轴方向 上的值及在上述频率轴方向上的变化量可分别为频率的对数或频率 的对数的变化量。

更优选是,上述学习部针对上述决策树的各叶节点使用多维单一 或高斯混合模型(GMM)来将分配给该叶节点的输出特征量的分布 模型化。

更优选是,针对上述目标语者语音的基频图形上的各点计算出的 上述移动量是基于帧单位或音声单元单位来计算出的移动量。

上述语言信息包括与重音类型、词性(part of speech)、音素 (phoneme)及音拍(mora)位置中的至少一者相关的信息。

为解决上述问题,本发明的第二方案提供一种基频图形生成装 置,其基于作为基准的语音的基频图形来生成目标语者语音的基频图 形,上述基频图形表示基频的时间变化,该基频图形生成装置包括: 关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学 习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与 波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音 的基频图形的各时间序列点,参照关联结果,计算相对于构成成为上 述基准的语音的基频图形的各时间序列点中对应的点在时间轴方向 上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出 的上述移动量分别计算相邻时间序列点之间的变化量;学习部,使用 作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为 静态特征量的上述移动量和作为动态特征量的上述移动量的变化量 作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节点, 求出分配给该叶节点的输出特征量的分布;分布序列预测部,其将作 为合成文本的解析结果的语言信息输入至上述决策树,预测上述各时 间序列点处的上述输出特征量的分布;最优化处理部,其通过求出使 根据所预测的上述输出特征量的分布序列计算出的似然度最大的移 动量的序列来最优化上述移动量;目标语者基频图形生成部,其通过 将上述移动量的序列与同合成文本对应的作为基准的语音的该基频 图形相加来生成与上述合成文本对应的上述目标语者语音的基频图 形。由移动量计算部计算出的在该频率轴方向上的移动量可为频率的 对数的移动量。

为解决上述问题,本发明的第三方案提供一种基频图形生成装 置,基于作为基准的语音的基频图形来生成目标语者语音的基频图 形,上述基频图形表示基频的时间变化,该基频图形生成装置包括: 关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学 习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与 波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音 的基频图形的各时间序列点,参照关联结果,计算相对于构成上述作 为基准的语音的基频图形的各时间序列点中对应的点在时间轴方向 上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出 的上述移动量和上述目标语者语音的基频图形的各点分别计算相邻 时间序列点之间的变化量;学习部,使用作为上述学习文本的解析结 果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和 上述目标语者语音的基频图形上的各点的值及作为动态特征量的上 述移动量的变化量和上述目标语者语音的基频图形上的各点的变化 量作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节 点,求出分配给该叶节点的各输出特征量及上述输出特征量的组合的 分布;分布序列预测部,其将作为合成文本的解析结果的语言信息输 入至上述决策树,预测上述各时间序列点处的上述各输出特征量及上 述输出特征量的组合的分布;最优化处理部,其通过求出使根据所预 测的上述输出特征量及该输出特征量的组合的分布序列计算出的似 然度最大的、上述目标语者语音的基频图形上的各点在时间轴方向上 及频率轴方向上的值,进行最优化处理;目标语者基频图形生成部, 其通过按时间排序由上述最优化处理求出的时间轴方向上的值与对 应的在频率轴方向上的值的组合,来生成上述目标语者语音的基频图 形。同样,在频率轴方向上的值及在该频率轴方向上的变化量可分别 为频率的对数及频率的对数的变化量。

上文基于学习目标语者语音的基频图形相对于作为基准的语音 的基频图形的移动量或该移动量与目标语者语音的基频图形的组合 的学习装置、及利用这样的学习装置的学习结果的目标语者语音的基 频图形生成装置,说明了本发明,但亦可将本发明理解为:用于使计 算机执行的、一种学习目标语者语音的基频图形的移动量或上述移动 量与该目标语者语音的基频图形的组合的学习方法、生成目标语者语 音的基频图形的生成方法、及一种学习目标语者语音的基频图形的移 动量或上述移动量与目标语者语音的基频图形的组合的学习程序。

在本发明中,为了通过校正作为基准的语音的频率图形而获得目 标语者语音的频率图形,学习目标语者语音的基频图形相对于作为基 准的语音的基频图形的移动量,或者学习该移动量与目标语者语音的 基频图形的组合,在进行上述学习时,通过将作为基准的语音的基频 图形与目标语者语音的基频图形以它们的波峰与波峰对应及波谷与 波谷对应的方式而相关联,以获得移动量。因此,使用上述所学习的 移动量而生成的目标语者语音的基频图形能够再现表现为形状起伏 的语者的特征,从而能够高精度地再现目标语者的基频特征。对于本 发明的其他效果,能够根据各实施方式而理解。

附图说明

图1表示本实施方式的学习装置50及基频图形生成装置100的 功能构成。

图2为表示利用本发明的实施方式的学习装置50进行的移动量 的学习处理的流程的实例的流程图。

图3为表示计算图2中所示的流程图的步骤225中F0图形的关 联的前半部分即仿射变换集合的处理流程的实例的流程图。

图4为表示在图3中所示的流程图的步骤305及345中执行的仿 射变换最优化的处理细节的流程图。

图5为表示图2中所示的流程图的步骤225中F0图形的关联的 后半部分处理即使用仿射变换集合的F0图形的关联处理流程的实例 的流程图。

图6的(a)为表示与学习文本对应的作为基准的语音的F0图形 及与同一学习文本对应的目标语者语音的F0图形的一个实例的图。 图6的(b)为表示对各处理单位的仿射变换的实例的图。

图7的(a)为表示通过使用图6的(b)所示的仿射变换集合来 变换后的、图6的(a)所示的作为基准的语音的F0图形的图。图7 的(b)为表示自图6的(a)所示的作为基准的语音的F0图形至图6 的(a)所示的目标语者语音的F0图形的移动量的图。

图8为表示利用本发明实施方式的基频图形生成装置100进行的 基频图形生成处理的流程的实例的流程图。

图9的(a)表示应用本发明而获得的目标语者的F0图形。图9 的(b)表示应用本发明而获得的目标语者的其他F0图形。

图10为表示用于实现本发明实施方式的学习装置50及基频图形 生成装置100的优选信息处理装置的硬件构成的实例的图。

具体实施方式

以下,基于附图详细说明用于实施本发明的实施方式。以下的实 施方式不是限定保护范围,上述实施方式中所说明的特征组合并非全 部为本发明的解决方案所必需。在对实施方式的所有说明中,对于相 同要素标注相同附图标记。

图1表示本实施方式的学习装置50及基频图形生成装置100的 功能构成。根据本实施方式的学习装置50为一种学习目标语者语音 的基频图形相对于作为基准的语音的基频图形的移动量或是学习该 目标语者语音的基频图形与其移动量的组合的学习装置,上述基频图 形表示基频的时间变化(以下称为F0图形)。本实施方式的基频图 形生成装置100为一种包括该学习装置50且使用学习结果基于作为 基准的语音的F0图形来生成目标语者的语音的F0图形(以下称为目 标F0图形)的基频图形生成装置。在本实施例中,作为成为基准的 语音的F0图形采用源语者的语音的F0图形(以下称为源F0图形)。 关于源F0图形,利用已知技术而基于源语者的大量语音数据预先获 得源F0图形的统计模型。

如图1所示,本实施例的学习装置50包括文本解析部105、语言 信息存储部110、F0图形分析部115、源语者模型信息存储部120、 F0图形预测部122、关联部130、移动量计算部140、变化量计算部 145、移动量/变化量学习部150及决策树信息存储部155。本实施例 的关联部130包括仿射变换集合计算部134及仿射变换部136。

此外,如图1所示,本实施方式的基频图形生成装置100包括学 习装置50,以及分布序列预测部160、最优化部165及目标F0图形 生成部170。以下,作为第一实施方式说明学习目标语者的语音的F0 图形的移动量的学习装置50,其后,作为第二实施方式说明使用第一 实施方式的学习装置50的学习结果的基频图形生成装置100。第二实 施方式的基频图形生成装置100,通过在学习处理中生成“移动量” 的模型,在生成处理首先预测“移动量”且接着将上述“移动量”与 “源F0图形”相加,从而生成“目标F0图形”。

最后,作为第二实施方式,说明学习目标语者语音的F0图形与 其移动量的组合的学习装置50及利用其学习结果的基频图形生成装 置100。第三实施方式的基频图形生成装置100,在学习处理将“移 动量”与“目标F0图形”组合而模型化,在生成处理通过最优化而 参照“源F0图形”直接生成“目标F0图形”。

(第一实施方式)

文本解析部105对所输入的文本执行构词分析、语法分析等,生 成语言信息。语言信息包括重音类型、词性、音素及音拍位置等背景 信息。第一实施方式的输入至文本解析部105的文本为用于学习目标 F0图形相对于源F0图形的移动量的学习文本。

语言信息存储部110存储由文本解析部105生成的语言信息。如 上所述,语言信息包括含有重音类型、词性、音素及音拍位置中的至 少一者的背景信息。

F0图形分析部115接收读取学习文本的目标语者的语音信息作为 输入,且分析目标语者语音的F0图形。由于可使用公知技术进行F0 图形分析,因此省略其详细说明。例如可使用praat等自相关的、基 于小波等技术的工具。其后,作为分析结果的F0图形从F0图形分析 部115传递至后述的关联部130。

源语者模型信息存储部120存储使用并学习源语者的大量语音数 据而获得的源语者的源F0图形的统计模型。可使用决策树、数量化 理论I(quantification theory I)等来获得F0图形统计模型。由于这样 的F0图形统计模型的学习是公知技术,因此在本文记载的是预先准 备了该模型,例如可使用C4.5、weka等工具。

F0图形预测部122通过使用存储于源语者模型信息存储部120中 的源语者的F0图形的统计模型来预测与学习文本对应的源语者的F0 图形。具体而言,F0图形预测部122自语言信息存储部110读取与 学习文本对应的语言信息,将该语言信息输入至源语者的F0图形的 统计模型中。并且,F0图形预测部122从源语者的F0图形的统计 模型取得源语者的F0图形作为输出。其后,将所预测的源F0图形从 F0图形预测部122传递至后述的关联部130。

关联部130将与学习文本对应的源F0图形及对应于同一学习文 本的目标F0图形以波峰与波峰对应及波谷与波谷对应的方式相关 联。作为将两个不同F0图形相关联的方法有称为动态时间扭曲 (Dynamic Time Warping)的方法。在该方法中,将一语音的各帧与 另一语音的相应帧基于其倒频谱(cepstrum)及F0相似度而相关联。 根据相似度的定义,可以是将F0图形的波峰、波谷的形状相关联, 也可以是着重于其倒频谱、F0图形的绝对值而相关联。本申请的发 明人为达成更准确的关联而进行努力研究,结果提出与上述方法不同 的新方法,其使用将源F0图形变换成近似于目标F0图形的图形仿射 变换。由于动态时间扭曲自身为公知方法,因此本实施例中采用使用 仿射变换的关联。下文说明使用仿射变换的关联。

使用仿射变换的本实施方式的关联部130包括仿射变换集合计算 部134及仿射变换部136。

仿射变换集合计算部134计算用于将源F0图形变换成与目标F0 图形之差最小的图形的仿射变换集合。具体而言,该仿射变换集合计 算部134将语调片段(出气段)设定为用以获得仿射变换的处理F0 图形的处理单位的初始值。接着,仿射变换集合计算部134递归地等 分该处理单位,直至求出将源F0图形变换成具有与目标F0图形之差 为最小的图形的仿射变换,并对新的处理单位求出仿射变换。最终, 仿射变换集合计算部134针对每一语调片段获得1个以上的仿真变 换。所求得的仿射变换分别连同在求得该仿射变换时使用的处理单位 和其源F0图形上的处理范围的起始信息临时地存储于存储区域中。 稍后将说明用于计算仿射变换集合的详细程序。

在此,参照图6及图7,说明由仿射变换集合计算部134计算出 的仿射变换集合。首先,图6的(a)所示的曲线图表示与同一学习 文本对应的源F0图形(参照附图标记A)及目标F0图形(参照附图 标记B)的一例。在图6的(a)中,曲线图的横轴表示时间,其单 位为音素。曲线图的纵轴表示频率,其单位为赫兹(Hz)。如图6所 示,横轴可使用音素数目或音节数目而代替秒。图6的(b)表示用 于将由附图标记A表示的源F0图形变换成近似于由附图标记B表示 的目标F0图形的形状的仿射变换集合。如图6的(b)所示,各仿射 变换所对应的处理单位在以语调片段为最大值的每一处理范围彼此 不同。

图7的(a)表示使用图6的(b)所示的仿射变换集合来实际变 换后的源F0图形(参照附图标记C)。如自图7的(a)清楚地看到, 变换后源F0图形的形状近似于目标F0图形(参照附图标记B)的形 状。

在将F0图形的时间轴及频率轴分别视作X轴及Y轴的情况下, 仿射变换部136将源F0图形上的各点与目标F0图形上的相应点相关 联,目标F0图形上的该点的X坐标值是通过使用相应的仿射变换来 变换源F0图形上的该点的X坐标值而获得的点。即,针对源F0图 形上的各点(Xs,Ys)的X坐标Xs,仿射变换部136通过使用关于其 范围获得的仿射变换进行变换来求得X坐标Xt。接着,仿射变换部 136求得X坐标为Xt的目标F0图形上的点(Xt,Yt),将该点(Xt,Yt) 与源F0图形上的点(Xs,Ys)相关联。关联结果临时存储于存储区域。 可基于帧单位或基于音声单元单位进行关联。

针对目标F0图形上的各点(Xt,Yt),移动量计算部140参照由 关联部130进行的关联的结果,计算出相对于源F0图形上的点(Xs, Ys)在时间轴方向上及在频率轴方向上的移动量(xd,yd)=(Xt,Yt) -(Xs,Ys)。在此,在频率轴方向上的移动量可为从目标F0图形上 的频率对数减去源F0图形上的对应点的频率对数而获得的值。基于 帧单位或音声单元单位计算出的各移动量在其后被从移动量计算部 140传递至后述的变化量计算部145和移动量/变化量学习部150。

图7的(b)中的箭头(参照附图标记D)表示参照由关联部130 进行的关联的结果而求得的、目标F0图形(参照附图标记B)上的 每一点相对于源F0图形(参照附图标记A)的移动量。图7的(b) 中所示的关联结果是通过使用图6的(b)及图7的(a)所示的仿射 变换集合而获得的。

针对由移动量计算部140计算出的在时间轴方向上及在频率轴方 向上的移动量中的每一个,变化量计算部145计算上述移动量与相邻 点的移动量之间的变化量。如上所述,频率轴方向上的移动量的变化 量可以是通过频率对数的移动量的变化量。在本实施例中,移动量的 变化量包括作为移动量的斜率的一次动态特征量及作为移动量的曲 率的二次动态特征量。在此,在完成三个帧的近似且第i个帧或音素 的值为V[i]的情况下,通常可如下这样表达某值V的一次动态特征量 及二次动态特征量:

AV[i]=0.5*(V[i+1]-V[i-1])

Δ2V[i]=0.5*(-V[i+1]+2V[i]-V[i-1])。

变化量计算部145将计算出的一次及二次动态特征量分布传递至 后述的移动量/变化量学习部150。

移动量/变化量学习部150使用自语言信息存储部110读取的与学 习文本对应的语言信息作为输入特征量及使用计算出的在时间轴方 向上及在频率轴方向上的移动量作为输出特征量来学习决策树。在决 策树的学习中,优选是输出特征量不仅包括作为静态特征量的移动 量,还包括作为动态特征量的移动量的变化量。此时,在其后的生成 目标F0图形的阶段,可能预测整个片语的最优移动量序列。

针对决策树的各叶节点,移动量/变化量学习部150使用多维单一 或高斯混合模型来将分配给该叶节点的输出特征量中的分布模型化。 模型化的结果是可获得每一输出特征量的平均值、方差及协方差。由 于如上所述决策树的学习方法是公知技术,因此省略其详细说明,例 如可使用C4.5、Weka等工具用于该学习。

决策树信息存储部155存储由移动量/变化量学习部150学习到的 该决策树的信息及该决策树的每一叶节点的输出特征量的分布信息 (平均值、方差及协方差)。如上所述,本实施例中的输出特征量包 括在时间轴方向上的移动量及在频率轴方向上的移动量,以及该移动 量的变化量(一次及二次动态特征量)。

接着,参照图2,说明第一实施方式的通过学习装置50来学习目 标F0图形的移动量的学习处理的流程。下文说明中所述的“在频率 轴方向上的移动量”及“移动量的变化量”分别包括频率的对数的移 动量及频率对数的移动量的变化量。图2为表示由作为学习装置50 的计算机执行的、学习目标F0图形相对于源F0图形的移动量的处理 的整体流程的实例的流程图。处理开始于步骤200,学习装置50读取 由使用者提供的学习文本。使用者可经由例如键盘等输入装置、记录 介质读取装置或通信接口而将该学习文本提供至学习装置50。

接着,读取学习文本的学习装置50对其进行解析,获得包括重 音类型、音素、词性、音拍位置等背景信息的语言信息(步骤205)。 接着,学习装置50自源语者模型信息存储部120读取源语者的统计 模型的信息,并输入所获得的语言信息,作为输出获取与学习文本对 应的源F0图形(步骤210)。

学习装置50还获取读取同一学习文本的目标语者的语音信息(步 骤215)。使用者可经由例如麦克风等输入装置、记录介质读取装置 或通信接口而将目标语者语音的信息提供至学习装置50。然后,学习 装置50分析所获得的目标语者的语音信息,获得目标语者的F0图形, 即目标F0图形(步骤220)。

接着,学习装置50通过将与学习文本对应的源F0图形及与同一 学习文本对应的目标F0图形以波峰与波峰对应及波谷与波谷对应的 方式相关联,将对应关系存储于存储区域中(步骤225)。稍后将参 照图3及图4说明关联的处理程序的详细说明。随后,针对构成目标 F0图形的时间序列点,学习装置50参照所存储的对应关系,求出构 成目标F0图形的时间序列点相对于构成源F0图形的时间序列点中的 对应时间序列点在时间轴方向上及在频率轴方向上的移动量,即对应 时间序列点之间的在时间轴方向上及在频率轴方向上的差,并将所获 得的移动量存储于存储区域中(步骤230)。

学习装置50自存储区域读取所获得的在时间轴方向上及在频率 轴方向上的移动量,针对时间序列点中的每一点,计算移动量的一次 动态特征量及二次动态特征量作为在时间轴方向上及在频率轴方向 上的变化量,并将其存储于存储区域(步骤235)。

最后,学习装置50使用作为学习文本的解析结果的语言信息作 为输入特征量、使用包括在时间轴方向上及在频率轴方向上的移动量 的静态特征量及与该静态特征量对应的一次及二次动态特征量作为 输出特征量来学习决策树(步骤240)。并且,针对学习的决策树的 各叶节点,学习装置50求得分配给该叶节点的输出特征量的分布, 且所学习的决策树的信息及各叶节点中的分布信息存储于决策树信 息存储部155中(步骤245)。接着,该处理结束。

在此,说明本申请的发明人最新提出的一种方法,其用于递归地 求得用于将源F0图形变换成近似于目标F0图形的形式的仿射变换集 合。

在该方法中,分别以语调片段来划分对应于同一学习文本的源F0 图形及目标F0图形中的两F0图形,且针对通过该划分而获得的两 F0图形的处理范围,分别独立地求得最优的1个以上仿射变换。在 此,最优仿射变换是指使该仿射变换后的源F0图形与目标F0图形在 处理范围中的误差最小的仿射变换。针对每一处理单位求得一个这样 的仿射变换。

即,例如在等分处理单位以生成两个较小处理单位时,分别针对 两个新处理单位重新求得一个最优仿射变换。因此,为了判定哪一仿 射变换为最优仿射变换,在等分处理单位之前与之后比较仿射变换后 源F0图形与目标F0图形的误差平方和(等分处理单位时的误差平 方和是指对等分之前部分和等分之后部分分别求得的误差平方和之 和)。但是,在可等分源F0图形的点与可等分目标F0图形的点的 所有组合中,仅对可使误差平方和最小的两个点的组合作出比较,以 避免做无用功。

若在等分之后的误差平方和未被判定为足够小,则针对等分之前 的处理单位求得的仿射变换为最优仿射变换。因此,递归地执行上述 一系列处理,直至判定在等分之后的误差平方和不足够小或在等分之 后的处理单位不足够大为止。

接着,参照图3至图5详细说明将分别对应于同一学习文本的源 F0图形与目标F0图形相关联的处理。图3为表示由仿射变换集合计 算部134执行的、仿射变换集合的计算处理的流程的实例的流程图。 图3所示的仿射变换集合的计算处理是对基于语调片段划分的两个 F0图形的每一处理单位来执行。图4为表示由仿射变换集合计算部 134执行的、仿射变换的最优化处理的流程的实例的流程图。图4表 示在图3中所示的流程图中的步骤305及345中执行的处理的细节。

图5为表示由仿射变换部136执行的、仿射变换及关联处理的流 程的实例的流程图。图5所示的处理是在对所有处理范围执行图3所 示的处理之后加以执行。图3至图5表示图2所示的流程图的步骤225 中所执行的处理的细节。

在图3中,处理开始于步骤300,仿射变换集合计算部134在源 F0图形的处理单位Us(0)的初始值及目标F0图形的处理单位Ut(0) 的初始值分别设定语调片段。接着,仿射变换集合计算部134针对当 前的处理单位求得最优仿射变换(步骤305)。稍后将参照图4说明 仿射变换最优化处理的细节。在获得仿射变换之后,仿射变换集合计 算部134使用计算出的仿射变换来变换源F0图形,获得变换后源F0 图形与目标F0图形的误差平方和e(0)(步骤310)。

接着,仿射变换集合计算部134判定当前处理单位是否足够大(步 骤315),当判定当前处理单位并不足够大(步骤315:否)时,该 处理结束。另一方面,当判定当前处理单位足够大(步骤315:是) 时,仿射变换集合计算部134将各源F0图形上的可等分当前处理单 位内的F0图形的所有点作为临时点,并分别存储于Ps(j)、Pt(k) (步骤320)。在此,变量j取整数1至N,变量k取整数1至M。

接着,仿射变换集合计算部134将变量j及变量k的初始值设定 为1(步骤325,步骤330),将在等分Ut(0)中的目标F0图形的 点Pt(1)之前的处理范围设定为Ut(1),将在等分Ut(0)中的目 标F0图形的点Pt(1)之后的处理范围设定Ut(2)(步骤335)。 同样,仿射变换集合计算部134将在等分Us(0)中的源F0图形的点 Ps(1)之前的处理范围设定为Us(1),将在等分Us(0)中的源F0 图形的点Ps(1)之后的处理范围设定Us(2)(步骤340)。并且, 仿射变换集合计算部134针对Ut(1)与Us(1)的组合及Ut(2)与 Us(2)的组合分别求出最优仿射变换(步骤345)。稍后将参照图4 说明仿射变换最优化处理的细节。

在针对各组合求出仿射变换后,仿射变换集合计算部134使用计 算出的仿射变换来变换各组合的源F0图形,分别求出各组合中的变 换后源F0图形与目标F0图形之间的误差平方和e(1)及e(2)(步 骤350)。在此,e(1)为针对等分之前部分的组合而求得的误差平 方和,e(2)为针对等分之后部分的组合而求得的误差平方和。仿射 变换集合计算部134将计算出的误差平方和e(1)与e(2)的总和 存储于E(1,1)。重复上述的一系列处理,即自步骤325至355的 处理,直至变量j的最终值为N且变量k的最终值为M为止,变量j 及k的初始值及增量各为1。变量j及k的增量彼此独立地进行。

在满足结束该环的条件时,该处理继续进行至步骤360,仿射变 换集合计算部134特定E(j,k)的值为最小的组合(l,m)。并且, 仿射变换集合计算部134判定E(l,m)是否足够小于在等分处理单 位之前求得的误差平方和e(0)(步骤365)。当E(l,m)并不足 够小(步骤365:否)时,该处理结束。另一方面,当E(l,m)足够 小于误差平方和e(0)(步骤365:是)时,该处理分别进行至两个 不同步骤,即,步骤370及375。

在步骤370中,仿射变换集合计算部134将在等分Ut(0)中的 目标F0图形的点Ps(l)之前的处理范围设定为目标F0图形的处理 范围的新初始值Ut(0),将在等分Us(0)中的源F0图形的点Ps(m)之前的处理范围设定为源F0图形的处理范围的新初始值Us(0)。 同样,在步骤375中,仿射变换集合计算部134将在等分Ut(0)中 的目标F0图形的点Ps(l)之后的处理范围设定为目标F0图形的处 理范围的新初始值Ut(0),将在等分Us(0)中的源F0图形的点Ps(m)之后的处理范围设定为源F0图形的处理范围的新初始值Us(0)。 该处理自步骤370及375独立地返回至步骤305,以递归地执行上述 一系列处理。

接着,参照图4说明用于仿射变换的最优化处理。在图4中,该 处理开始于步骤400,仿射变换集合计算部134重新取样一个F0图 形,以使得对于处理单位使上述F0图形数目一致。并且,仿射变换 集合计算部134计算变换源F0图形以使得源F0图形与目标F0图形 之间的误差最小的仿射变换(步骤405)。下文说明这样的仿射变换 的计算方法。

设X轴表示时间、Y轴表示频率,在时间轴上的刻度标记对应于 一帧或音素。在此,将取得关联的范围中构成源F0图形的时间序列 点的(X,Y)坐标设为(Uxi,Uyi),将构成目标F0图形的时间序列 点的(X,Y)坐标设为(Vxi,Vyi)。其中,变量i取整数1至N。由 于已完成重新取样,因此源F0图形及目标F0图形的时间序列点的数 目相同,或各点在X轴方向上等间隔并列。在此成为问题的是是否能 使用下文给定的表达式1来求得用于将(Uxi,Uyi)变换成近似于(Vxi, Vyi)的(Wxi,Wyi)的变换参数(a,b,c,d)。

[表达式1]

wx,iwy,i=a00bux,i-ux,1uy,i+cd

首先,论述X分量。由于前导点的X坐标Vx1必须与Wx1一致, 因此自动地求出参数c。即,c=Vx1。同样,由于最后点的X坐标亦需 要相互一致,因此如下求出参数a。

[表达式2]

a=vx,n-vx,1ux,n-ux,1

接着,论述Y分量。按照以下表达式定义通过变换而获得的Y坐 标Wyi与目标F0图形上的点的Y坐标Vyi的误差平方和。

[表达式3]

E=Σi=1n(wy,i-vy,i)2=Σi=1n{(buy,i+d)-vy,i}2

通过解出偏微分方程序,分别通过以下表达式求出使误差平方和 最小的参数b及d。

[表达式4]

b=Σi=1nuy,ivy,i-1nΣi=1nuy,iΣi=1nvy,iΣi=1nuy,i2-1n(Σi=1nuy,i)2

[表达式5]

d=Σi=1nvy,i-bΣi=1nuy,in+1

如上所述,求出对于处理单位的最优仿射变换。

返回图4,处理自步骤405进行至步骤410,仿射变换集合计算 部134判定当前的用于求得最优仿射变换的处理是否针对处理单位 Us(0)及Ut(0)。若当前处理并非针对处理单位Us(0)及Ut(0) (步骤410:否),则该处理结束。另一方面,若当前处理是针对处 理单位Us(0)及Ut(0)(步骤410:是),则仿射变换集合计算部 134将在步骤405中计算出的仿射变换与当前处理单位和源F0图形 上的当前处理位置相关联,并将结果临时地存储于存储区域中(步骤 415)。然后,该处理结束。

接着参照图5说明仿射变换部136的仿射变换及关联处理。在图 5,该处理开始于步骤500,仿射变换部136读取由仿射变换集合计算 部134计算并存储的仿射变换集合。当存在多个所对应处理位置重复 的仿射变换时,仅保存所对应处理单位最小的仿射变换,删除其余仿 射变换(步骤505)。

其后,对于构成源F0图形的各点(Xs,Ys),仿射变换部136使 用对其处理范围求得的仿射变换来变换X坐标Xs,分别获得值Xt(步 骤510)。X轴表示时间,Y轴表示频率。接着,对于计算出的各Xt, 仿射变换部136获得X坐标为Xt时的目标F0图形的Y坐标Yt(步 骤515)。最后,仿射变换部136将计算出的各点(Xt,Yt)与作为取 得该值的基础的(Xs,Ys)相关联,并存储于存储区域中(步骤520)。 接着,该处理结束。

(第二实施方式)

返回参照图1,接着说明使用第一实施方式的学习装置50的学习 结果的基频图形生成装置100的功能构成。基频图形生成装置100中 所包含的学习装置50的各构成部分与第一实施方式中所说明的相同, 因此在此不进行说明。然而,基频图形生成装置100中所包含的学习 装置50的构成部分之一的文本解析部105还作为输入文本而接收合 成文本,该合成文本希望对其生成目标语者的F0图形。因此,语言 信息存储部110存储与学习文本对应的语言信息及与合成文本对应的 语言信息。

此外,在合成时的F0图形预测部122使用存储于源语者模型信 息存储部120中的源语者的F0图形的统计模型来预测对应于合成文 本的源语者的F0图形。即,F0图形预测部122自语言信息存储部110 读取与合成文本对应的语言信息,将该语言信息输入至源语者的F0 图形的统计模型中。并且,F0图形预测部122从源语者F0图形的统 计模型获取源语者的F0图形作为输出。所预测的源F0图形其后从 F0图形预测部122传递至后述的目标F0图形生成部170。

分布序列预测部160将与合成文本对应的语言信息输入至学习结 果的决策树,预测各时间序列点的输出特征量的分布。即,分布序列 预测部160从决策树信息存储部155读取决策树的信息及决策树的每 一叶节点的输出特征量的分布信息(平均值、方差及协方差)。分布 序列预测部160从语言信息存储部110读取与合成文本对应的语言信 息。并且,分布序列预测部160将与合成文本对应的语言信息输入至 所读取的决策树,获取各时间序列点的输出特征量的分布(平均值、 方差及协方差)作为来自决策树的输出。

如上所述在本实施例中,作为输出特征量包括静态特征量及其动 态特征量。并且,该静态特征量包括在时间轴方向上的移动量及在频 率轴方向上的移动量。此外,对应于静态特征量的动态特征量包括一 次动态特征量及二次动态特征量。所预测的输出特征量的分布(平均 值、方差及协方差)的序列、即输出特征量的平均值向量及方差协方 差矩阵在其后从分布序列预测部160传递至后述的最优化部165。

最优化部165通过获得使自输出特征量的分布序列计算出的似然 度最大的移动量序列来最优化移动量。在下文中说明最优化处理的程 序。下文说明的最优化处理的程序是针对在时间轴方向上的移动量及 在频率轴方向上的移动量分别执行的。

首先,设输出特征值的变量为Ci。在此,i表示时间索引。即, 在针对时间轴方向的最优化处理的状况下,Ci为在时间轴方向上的第 i个帧或第i个音素的移动量。同样,在针对频率轴方向的最优化处 理的状况下,Ci为第i个帧或第i个音素的频率的对数的移动量。另 外,对应于Ci的一次动态特征量及二次动态特征量分别由ΔCi及Δ2Ci表示。如下定义具有这些静态及动态特征值的观测矢量o。

[表达式6]

o=...[ci-1,Δci-1,Δ2ci-1]T[ci,Δci,Δ2ci]T[ci+1,Δci+1,Δ2ci+1]T...

如第一实施方式中所说明,ΔCi及Δ2Ci为Ci的简单线性总和。因 此,可通过使用具有所有时间点的Ci的特征矢量c来按照o=Wc表达 观测矢量o。在此,矩阵W满足以下表达式。

[表达式7]

={wi,j}

=............wi3+1,j-1,wi3+1,j,wi3+1,j+1,......wi3+2,j-1,wi3+2,j,wi3+2,j+1,......wi3+3,j-1,wi3+3,j,wi3+3,j+1,............

=............0,1,0,......-1/2,0,1/2,......-1,2,-1,............

其中,i3=3(i-1)。

由分布序列预测部160求出观测矢量o的分布的序列λo。于是, 由于在本实施方式中观测矢量o的分量符合高斯分布,因此可按照以 下表达式表达观测矢量o相对于观测矢量o的所预测的分布序列λo的似然度。

[表达式8]

L1logPr(o|λo)

=logPr(Wc|λo)

=logPr(Wc;N(μo,Σo))

=-(Wc-μo)TΣo-1(Wc-μo)2+const.,

在上述表达式中,μo及∑o分别为平均值向量及方差协方差矩阵, 即是由分布序列预测部160计算出的分布序列λo的内容。并且,用 于将L1最大化的输出特征矢量c满足以下表达式。

[表达式9]

L1c=WTΣo-1(Wc-μo)2=0

可通过使用丘列斯基(Cholesky)分解或最陡下降法等的重复计 算来解答此方程序以获得特征矢量c,因此,可针对在时间轴方向上 的移动量及在频率轴方向上的移动量中分别求出最优解。如此,最优 化部165从输出特征量的分布的序列求出在时间轴方向上及在频率轴 方向上的移动量的最有可能的序列。计算出的在时间轴方向上及在频 率轴方向上的各个移动量序列在其后从最优化部165传递至后述的目 标F0图形生成部。

目标F0图形生成部170通过将在时间轴方向上及在频率轴方向 上的各移动量序列与对应于合成文本的源F0图形相加而生成对应于 合成文本的目标F0图形。

接着参照图8,说明由本发明的第二实施方式的基频图形生成装 置100进行的目标F0图形的生成处理的流程。图8为表示由作为基 频图形生成装置100的计算机执行的、对应于源F0图形的目标F0图 形的生成处理的整体流程的实例的流程图。处理开始于步骤800,基 频图形生成装置100读取由使用者提供的合成文本。使用者可经由例 如键盘等输入装置、记录介质读取装置或通信接口而将合成文本提供 至基频图形生成装置100。

读取了合成文本的基频图形生成装置100接着解析该合成文本, 取得包括重音类型、音素、词性及音拍位置等背景信息的语言信息(步 骤805)。并且,基频图形生成装置100自源语者模型信息存储部120 读取源语者的统计模型信息,将所获得的语言信息输入至该统计模型 中,作为输出而取得对应于合成文本的源F0图形(步骤810)。

随后,基频图形生成装置100自决策树信息存储部155读取关于 决策树信息,对其输入与合成文本对应的语言信息,作为其输出而取 得在时间轴方向上及在频率轴方向上的移动量及上述移动量的变化 量(包括一次及二次动态特征量)的分布序列(步骤815)。并且, 基频图形生成装置100求出使自取得的移动量及移动量的变化量的分 布序列计算出的似然度最大的移动量序列,从而取得最优化的移动量 序列(步骤820)。

最后,基频图形生成装置100将在时间轴方向上及在频率轴方向 上的最优化移动量与对应于合成文本的源F0图形相加,由此生成对 应于同一合成文本的目标F0图形(步骤825)。然后,该处理结束。

图9表示应用如第二实施方式所说明的本发明而获得的目标F0 图形。其中,图9的(a)中作为合成文本使用学习文本中所包含的 句子,而图9的(b)中作为合成文本使用并不在学习文本中的句子。 在图9的(a)及图9的(b)中的任一者中,附图标记A的实线图形 表示作为基准的源语者语音的F0图形,附图标记B的点划线图形表 示通过分析实际的目标语者语音而获得的F0图形,附图标记C的点 线图形表示应用本发明而生成的目标语者的F0图形。

首先,论述图9的(a)。对附图标记B表示的F0图形与附图标 记A表示的F0图形进行比较可看到该目标语者具有以下趋势:在片 语的结束处具有高频率的趋势(参照附图标记P1),及频率波谷向 前移动的趋势(参照附图标记P2)。因此观察由附图标记C表示的 F0图形,这些趋势必然再现于应用本发明而生成的目标语者的F0图 形中(参照附图标记P1及P2)。

接着,论述图9的(b)。对附图标记B表示的F0图形与附图标 记A表示的F0图形进行比较可看到目标语者具有在片语的结束处频 率提高的趋势(参照附图标记P3)。因此观察附图标记C表示的F0 图形,该趋势恰当地再现于应用本发明而生成的目标语者的F0图形 中(参照附图标记P3)。图9的(b)中所示的附图标记B表示的F0 图形的特性在于:在第三个语调片段中,第二个重音片语(第二个频 率波峰)具有比第一个重音片语(第一个频率波峰)的波峰高的波峰 (参照附图标记P4及P4′)。因此观察附图标记C表示的F0图形可 看出在应用本发明而生成的目标语者的F0图形中,减小第一个重音 片语而增大第二个重音片语的倾向(参照附图标记P4及P4′)。若强 调位置(在此状况下为第二个重音片语)包括于语言信息,可能可更 明显地表现该部分的特性。

(第三实施方式)

返回图1,说明学习目标语者语音的F0图形与其移动量的组合的 学习装置50、及使用其学习结果的基频图形生成装置100。第三实施 方式的学习装置50的各构成部分与第一及第二实施方式中所说明的 学习装置50的各构成部分基本上相同。因此,仅说明具有不同功能 的构成部分,即变化量计算部145、移动量/变化量学习部150及决策 树信息存储部155。

第三实施方式的变化量计算部145除了具有第一实施方式的变化 量计算部145的功能之外,还具有以下功能:即,第三实施方式的变 化量计算部145还针对目标F0图形上的各点计算该点与相邻点之间 的在时间轴方向上的变化量及在频率轴方向上的变化量。在此的变化 量包括一次及二次动态特征量。频率轴方向上的变化量可为频率对数 的变化量。计算出的一次及二次动态特征量分别被传递至后述的移动 量/变化量学习部150。

第三实施方式的移动量/变化量学习部150使用自语言信息存储 部110读取的作为学习文本的解析结果的语言信息作为输入特征量、 及将作为静态特征量的移动量和目标F0图形上的各点的值及作为动 态特征量的移动量的变化量和目标F0图形上的各点的变化量作为输 出特征量,来学习决策树,并针对所学习的决策树的每一叶节点,求 出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。 该情况下,在使用该学习结果生成目标F0图形的阶段,可在绝对值 比移动量具特性的位置处生成绝对值的模型。目标F0图形上的在频 率轴方向上的值可为频率的对数。

在本实施例中,移动量/变化量学习部150针对决策树的各叶节 点,使用多维单一或高斯混合模型(GMM)来生成分配给该叶节点 的输出特征量的分布的模型。模型化的结果,可获得输出特征量及输 出特征量的组合的各自的平均值、方差及协方差。由于如上所述决策 树的学习方法是公知技术,因此省略其详细说明,例如可使用C4.5 及weka等工具用于该决策树学习。

第三实施方式的决策树信息存储部155存储由移动量/变化量学 习部150学习的决策树的信息,以及决策树的每一叶节点的输出特征 量及输出特征量的组合的分布信息(平均值、方差及协方差)。具体 而言,存储的分布信息包括关于以下各者的分布:在时间轴方向上及 在频率轴方向上的移动量;在时间轴方向上及在频率轴方向上的目标 F0图形上的各点的值;这些移动量与值的组合,即在时间轴方向上 的移动量与在时间轴方向上的目标F0图形上的相应点的值的组合, 及在频率轴方向上的移动量与在频率轴方向上的目标F0图形上的该 相应点的值的组合。另外,决策树信息存储部155存储关于上述移动 量及目标F0图形上的各点的变化量的(一次及二次动态特征量)分 布信息。

由第三实施方式的学习装置50进行的移动量的学习处理的流程 与由第一实施方式的学习装置50进行的移动量的学习处理的流程基 本上相同。然而,第三实施方式的学习装置50在图2中所示的流程 图的步骤235中还执行以下处理,即,学习装置50对目标F0图形上 的在时间轴方向上及在频率轴方向上的值计算一次动态特征量及二 次动态特征量,且将计算出的量存储于存储区域中。

在之后的步骤240中,第三实施方式的学习装置50将作为学习 文本的解析结果的语言信息作为输入特征量及将包括在时间轴方向 上及在频率轴方向上的移动量和目标F0图形的在时间轴方向上及在 频率轴方向上的值的静态特征量、及对应于该静态特征量的一次动态 特征量及二次动态特征量作为输出特征量,来学习一决策树。在最后 的步骤245中,第三实施方式的学习装置50针对所学习的决策树的 每一叶节点,求得分配给该叶节点的输出特征量及输出特征量的组合 的分布,将所学习的决策树的信息及每一叶节点的分布信息存储于决 策树信息存储部155中,该处理结束。

接着,说明使用第三实施方式的学习装置50的学习结果的基频 图形生成装置100的构成部分中的除学习装置50的外的构成部分。 第三实施方式的分布序列预测部160将与合成文本对应的语言信息输 入至学习结果的决策树,预测各时间序列点的输出特征量及输出特征 量的组合的分布。

即,分布序列预测部160自决策树信息存储部155读取关于决策 树的信息及决策树的每一叶节点的输出特征量及输出特征量的组合 的分布信息(平均值、方差及协方差),分布序列预测部160自语言 信息存储部110读取与合成文本对应的语言信息。然后,分布序列预 测部160将与合成文本对应的语言信息输入至读取的决策树,作为其 输出取得各时间序列点的输出特征量及输出特征量的组合的分布(平 均值、方差及协方差)。

如上所述,在本实施例中,作为输出特征量包括静态特征量及动 态特征量。静态特征量包括在时间轴方向上及在频率轴方向上的移动 量,以及目标F0图形上的在时间轴方向上及在频率轴方向上的值。 另外,对应于静态特征量的动态特征量包括一次动态特征量及二次动 态特征量。预测的输出特征量及输出特征量的组合的分布序列(平均 值、方差及协方差)即输出特征量及输出特征量的组合的平均值向量 和方差协方差矩阵在其后从分布序列预测部160传递至后述的最优化 部165。

最优化部165通过求出使自输出特征量的组合的分布序列计算出 的似然度最大的移动量序列来最优化移动量。在下文中说明最优化处 理的程序。下文说明的最优化处理的程序是分别针对在时间轴方向上 的移动量与在时间轴方向上的目标F0图形上的值的组合、及在频率 轴方向上的移动量与在频率轴方向上的目标F0图形上的值的组合而 单独执行。

首先,设目标F0图形上的值为yt[j],移动量的值为δy[i]。yt[j] 与δy[i]具有关系δy[i]=yt[j]-ys[i],其中ys[i]为在源F0图形上的对应 于yt[j]的点的值。在此,j表示时间索引。即,当针对时间轴方向执 行最优化处理时,yt[j]为第j个帧或第j个音素的在时间轴方向上的值 (位置)。同样,当针对频率轴方向执行最优化处理时,yt[j]为在第 j个帧或第j个音素处的频率的对数。另外,Δyt[j]及Δ2yt[j]分别表示对 应于yt[j]的一次动态特征量及二次动态特征量。同样,Δδy[i]及Δ2δy[i] 分别表示对应于δy[i]的一次动态特征量及二次动态特征量。如下定义 具有这些组合量的观测矢量o。

[表达式10]

(zyt[j]T,dy[i]T)T

=(yt[j],Δyt[j],Δ2yt[j])T(δy[i],Δδy[i],Δ2δy[i])T

可如下表达如上文所定义的观测矢量o。

[表达式11]

o=zytdy=Wyty

=WytW(yt-ys)

=Uyt-Vys

其中,U=(WTWT)T、V=(0TWT)T,在此0表示零矩阵,矩阵 W满足表达式7。

通过分布序列预测部160求出观测矢量o的分布序列λo。于是, 可按照以下表达式表达观测矢量o相对于观测矢量o的所预测的分布 序列λo的似然度。

[表达式12]

L=-12(o-μo)TΣo-1(o-μo)

=-12{Uyt-Vys-μo}TΣo-1{Uyt-Vys-μo}

=-12(Uyt-μo)TΣo-1(Uyt-μo)

其中,μo′=Vyso。另外,如上所述,ys为源F0图形上的在时 间轴方向上或频率轴方向上的值。

在上述表达式中,μo及∑o分别为平均值向量及方差协方差矩阵, 且为由分布序列预测部160计算出的分布序列λo的内容。具体而言, 如下表达μo及∑o

[表达式13]

μo=μzyμdy

其中,μzy为zy的平均值向量,μdy为dy的平均值向量,在此 zy=Wys、dy=Wδy。在此,矩阵W也满足表达式7。

[表达式14]

Σo=ΣzytΣzytdyΣzytdyΣdy

其中,∑zyt为目标F0图形(在时间轴方向上或在频率轴方向上) 的协方差矩阵,∑dy为移动量(在时间轴方向上或在频率轴方向上) 的协方差矩阵,∑zytdy为目标F0图形和移动量(时间轴方向彼此或频 率轴方向彼此的组合)的协方差矩阵。

另外,可通过以下表达式求得将L最大化的yt的最优解。

[表达式15]

y~t=(UTΣo-1U)-1UTΣo-1μo

=R-1r

其中,R=UT∑o-1U,r=UT∑o-1μo′。需要获得∑o的反矩阵以得到 R,若协方差矩阵∑zyt、∑zytdy及∑dy分别为对角矩阵,则可容易地获 得∑o的反矩阵。例如,若对角分量依次为a[i]、b[i]及c[i],则可通过 c[i]/(a[i]c[i]-b[i]2)获得∑o的反矩阵的对角分量。

如上所述,在本实施例中,可利用最优化处理而非使用移动量来 直接求得目标F0图形。应注意,在求得yt的最优解时,需要参照ys即源F0图形的值。所计算出的在时间轴方向上及在频率轴方向上的 各值的序列在稍后从最优化部165传递至后述的目标F0图形生成部 170。

目标F0图形生成部170通过按时间排序排列由最优化部165求 出的在时间轴方向上的值及对应的在频率轴方向上的值的组合,来生 成对应于合成文本的目标F0图形。

利用第三实施方式的基频图形生成装置100进行的目标F0图形 的生成处理的流程与利用第二实施方式的基频图形生成装置100进行 的目标F0图形的生成处理的流程基本上相同。然而,在图8中所示 的流程图的步骤815中,第三实施方式的基频图形生成装置100自决 策树信息存储部155读取决策树信息,将与合成文本对应的语言信息 输入至决策树中,作为其输出而取得输出特征量及输出特征量的组合 的分布(平均值、方差及协方差)的序列。

然后,在其后的步骤820中,基频图形生成装置100通过自输出 特征量的组合的分布序列当中求出使所计算出的似然度最大的目标 F0图形在时间轴方向上的值的序列及目标F0图形在频率轴方向上的 值的序列,来执行最优化处理。

在最后的步骤825中,基频图形生成装置100通过按时间排序排 列在由最优化部165求出的时间轴方向上的值及对应的在频率轴方向 上的值的各组合,来生成对应于合成文本的目标F0图形。

图10为表示用于实现本发明的实施方式的实施学习装置50及基 频图形生成装置100的优选的计算机硬件构成的实例的图式。该计算 机包括:与总线2连接的CPU(中央处理装置)1及主存储器4。硬 盘装置13和30、CD-ROM装置26和29、软盘装置20、MO装置28 以及DVD装置31这样的可卸除式存储器(允许更换记录介质的外部 存储系统)经由软盘控制器19、IDE控制器25、SCSI控制器27等而 与总线2连接。

软盘、MO、CD-ROM及DVD-ROM这样的存储介质插入可卸除 式存储器中。可将对与操作系统协作的CPU等给予指令、执行用于 实施本发明的计算机程序的代码记录于这些存储介质、硬盘装置13 及30或ROM14上。即,本发明的移动量或该移动量与目标F0图形 的组合的学习程序、基频图形生成程序、上文所说明的源语者模型信 息等数据可存储于作为学习装置50或基频图形生成装置100的计算 机的上文所说明的各种存储装置中。接着,通过将多个计算机程序载 入主存储器4上来执行计算机程序。计算机程序可以压缩形式存储, 或可划分为多个部分而存储于多个介质中。

计算机经由键盘/鼠标控制器5而接收来自键盘6及鼠标7那样的 输入装置的输入。计算机经由音频控制器21而接收来自麦克风24的 输入,自扬声器23输出语音。计算机经由图形控制器10而与用于向 使用者呈现视觉数据的显示装置11连接。计算机可通过经由网络适 配器18(乙太网络(注册商标)卡、符记环卡)等与网络连接,与另 一计算机等通信。

自上述说明应易于理解:用于实现本发明的实施方式的学习装置 50及基频图形生成装置100的优选计算机,可通过通常的个人计算 机、工作站或计算机主机等信息处理装置或通过这些装置的组合来实 现。上文所说明的构成部分仅为实例,且并非所有上述构成部分均为 本发明所必需。

上文已使用实施方式说明了本发明,然而,本发明的保护范围不 限于上述实施方式记载的范围。作为本领域技术人员显而易见,可对 上述实施方式作出各种变更及改良。例如,在本实施例中,基频图形 生成装置100包括学习装置50。然而,该基频图形生成装置100可仅 包括学习装置50的一部分(文本解析部105、语言信息存储部110、 源语者模型信息存储部120、F0图形预测部122及决策树信息存储部 155)。通过作出这样的变更及改良而获得的方案自然包括于本发明 的保护范围中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号