...
【24h】

DNN音声合成における感情付与のためのモデル構造の検討

机译:DNN语音合成情绪赋予模型结构的检查

获取原文
获取原文并翻译 | 示例
           

摘要

DNN音声合成は,従来のHMM音声合成に比べ,より自然な音声が合成可能であることが示されている.また,HMM音声合成では合成音声を多様化するために感情付与の手法が研究されている.しかし,DNN音声合成においても感情付与が可能であるかは明らかでない.そこで,DNNに基づく音声合成システムの表現力を向上させる方法として,本報告では感情付与のためのDNNのモデル構造を検討した.感情付与のためのモデル構造として,次の3種類を比較した.すなわち,(1)parallel Model:出力層が話者依存の層と感情依存の層からなる構造,(2)Serial Model:話者依存の層から感情依存の出力層へと伝播する構造,(3)Auxiliary Input Model:言語特徴量ベクトルと同様に話者IDと感情IDを入力する構造,の3種類である.話者24名の平常音声と話者24名中の5名の喜びと悲しみの音声により学習を冶こなった.客観評価実験と主観評価実験により,各モデル構造を比較した.実験の結果,学習データに平常音声しかない話者の声質で感情音声を合成する場合,Parallel ModelがSerial Modelよりも良く,Auxiliary Input Modelよりもわずかに良いことが明らかとなった.また,学習データ中に感情音声を含む話者の声質で感情音声を合成する場合,Serial Modelが最も良い性能を示した.
机译:已经显示DNN语音合成,与传统的HMM语音合成相比,可以合成更多的自然语音。此外,在肝脏语音合成中,正在研究一种情绪化的方法来使合成语音多样化。但是,目前尚不清楚是否在DNN语音合成中赋予。因此,作为改进基于DNN的语音合成系统的表达力的方法,该报告研究了DNN的情感模型结构。将以下三种类型进行比较,作为情绪的模型结构。即,(1)并行模型:一种结构,它由一个说话者相关层和情感依赖层,(2)SERIAL MODEL:从一个说话者相关层到一种情感有关的输出层的结构传播,(3 )辅助输入模型:类似于语言特征量矢量,扬声器ID的结构和情感ID是三种类型。在24次普通的演讲和24个扬声器中,这些学习符合5种乐趣和悲伤的声音。通过客观评估实验和主观评估实验比较每个模型结构。由于实验,如果将情绪音频与扬声器的语音质量相结合,只有正常语音是学习数据,并行模型的串行模型更好,并且已经比辅助输入模型变得更加辅助。此外,如果您将情感声音与扬声器的语音质量相结合,包括情感语音,串行模型表现出最佳性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号