本報告では,雑音環境下における統計的声質変換(VC:Voice Conversion)の頑健性に関する調査を行う.VCでは,入力音声と目標音声の音響特徴量間の対応関係を統計的にモデル化することで,入力音声から目標音声への変換を実現する.本技術により,発声機能や歌唱機能の拡張といった応用技術の実現が期待されるが,実環境下での利用時には,環境音や伴奏といった外部雑音の混入に対応する必要がある.本報告では,ボコーダを用いる変換法と波形加工に基づく差分スペクトル補正を用いる変換法(DIFFVC:VC based on log-Spectral differential compensation)による歌声変換に着目し,環境音や伴奏が重畳された入力歌声を変換した際に,外部雑音が変換性能に与える影響を調査する.主観評価結果より,DIFFVCがボコーダを用いた変換法と比べ,背景音に対し頑健であることを示す.また,パワースペクトルの分布の変化量を捉えるカートシス比を用いて,DIFFVCの頑健性を客観的に分析する.
展开▼