DNN音声合成における感情付与のためのモデル構造の検討

井上勝喜; 原直; 阿部匡伸; 北条伸克; 井島勇祐

首页> 外文期刊>電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding >DNN音声合成における感情付与のためのモデル構造の検討

【24h】

DNN音声合成における感情付与のためのモデル構造の検討

机译：DNN语音合成情绪赋予模型结构的检查

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

DNN音声合成は，従来のHMM音声合成に比べ，より自然な音声が合成可能であることが示されている．また，HMM音声合成では合成音声を多様化するために感情付与の手法が研究されている．しかし，DNN音声合成においても感情付与が可能であるかは明らかでない．そこで，DNNに基づく音声合成システムの表現力を向上させる方法として，本報告では感情付与のためのDNNのモデル構造を検討した．感情付与のためのモデル構造として，次の3種類を比較した．すなわち，（1）parallel Model：出力層が話者依存の層と感情依存の層からなる構造，（2）Serial Model：話者依存の層から感情依存の出力層へと伝播する構造，（3）Auxiliary Input Model：言語特徴量ベクトルと同様に話者IDと感情IDを入力する構造，の3種類である．話者24名の平常音声と話者24名中の5名の喜びと悲しみの音声により学習を冶こなった．客観評価実験と主観評価実験により，各モデル構造を比較した．実験の結果，学習データに平常音声しかない話者の声質で感情音声を合成する場合，Parallel ModelがSerial Modelよりも良く，Auxiliary Input Modelよりもわずかに良いことが明らかとなった．また，学習データ中に感情音声を含む話者の声質で感情音声を合成する場合，Serial Modelが最も良い性能を示した．

机译：已经显示DNN语音合成，与传统的HMM语音合成相比，可以合成更多的自然语音。此外，在肝脏语音合成中，正在研究一种情绪化的方法来使合成语音多样化。但是，目前尚不清楚是否在DNN语音合成中赋予。因此，作为改进基于DNN的语音合成系统的表达力的方法，该报告研究了DNN的情感模型结构。将以下三种类型进行比较，作为情绪的模型结构。即，（1）并行模型：一种结构，它由一个说话者相关层和情感依赖层，（2）SERIAL MODEL：从一个说话者相关层到一种情感有关的输出层的结构传播，（3 ）辅助输入模型：类似于语言特征量矢量，扬声器ID的结构和情感ID是三种类型。在24次普通的演讲和24个扬声器中，这些学习符合5种乐趣和悲伤的声音。通过客观评估实验和主观评估实验比较每个模型结构。由于实验，如果将情绪音频与扬声器的语音质量相结合，只有正常语音是学习数据，并行模型的串行模型更好，并且已经比辅助输入模型变得更加辅助。此外，如果您将情感声音与扬声器的语音质量相结合，包括情感语音，串行模型表现出最佳性能。

著录项

来源
《電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding》 |2017年第105期|共6页
作者
井上勝喜; 原直; 阿部匡伸; 北条伸克; 井島勇祐;
展开▼
作者单位

岡山大学大学院自然科学研究科;

岡山大学大学院自然科学研究科;

岡山大学大学院自然科学研究科;

日本電信電話株式会社;

日本電信電話株式会社;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类图像通信、多媒体通信;
关键词
音声合成; DNN; 感情付与; マルチタスク学習;

机译：语音合成;DNN;情绪应用;多任务学习;

相似文献

外文文献
中文文献
专利

1. DNN音声合成における感情付与のためのモデル構造の検討 [J] . 井上勝喜, 原直, 阿部匡伸, 電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding . 2017,第105期

机译：DNN语音合成情绪赋予模型结构的检查
2. 感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討 [J] . 相澤佳孝, 加藤正治, 小坂哲夫, 電子情報通信学会技術研究報告. 音声. Speech . 2017,第368期

机译：用情感数据库JTES检查情绪语音识别模型适应性能提高
3. 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討 [J] . 中鹿亘, 立花隆輝, 西村雅史, 電子情報通信学会技術研究報告. 音声. Speech . 2009,第356期

机译：通过使用多个beta混合模型对调谐时间结构进行建模来检查语音合成
4. DNN音声合成における感情付与のための継続時間長モデルの検討 [C] . 井上勝喜, 原直, 阿部匡伸, 日本音響学会2018年春季研究発表会講演論文集 . 2018

机译：DNN语音合成中情绪加成的持续时间模型研究
5. 大腸菌持続注入による腹膜炎ラットモデルにおけるアラニルグルタミン投与の評価 : 特に全身及び臓器蛋白代謝の検討を中心に利用統計を見る [D] . 仲秀司 1994

机译：连续输注大肠杆菌评价腹膜炎大鼠模型中丙氨酰谷氨酰胺的施用：特别是在全身和器官蛋白质代谢的利用统计上
6. （書評）林毅著「「中世ドイツ市民の法創造的業績―W・エーベルの見解の検討―」(「阪大法学」四四巻一号)「西洋中世都市の理論的把握のために」(「阪大法学」四四巻二・三号)「ドイツ中世都市法研究の意義と問題点―ディルヒャー教授の論文の紹介を兼ねて―」(佐藤篤士先生還暦記念論文集刊行委員会編「歴史における法の諸相」敬文堂)」 [O] . 1996

机译：（图书评论）Hayashi课程“中世纪的法律创意表现德国公民 - 奥比尔的意见 - ”（“大阪大学法”4卷1）“用于西部中世纪城市的理论抓住”（“大阪大学法”四 -第四卷2·第三卷“德国中世纪城市法学研究的意义和问题 - 迪克斯克斯 - atsushi sato tensho sato房产Sato纪念刊物委员会”历史阶段“history ke霍多）”

DNN音声合成における感情付与のためのモデル構造の検討

摘要

著录项

相似文献

相关主题

期刊订阅