音声認識技術において,ノイズは認識率の低下の大きな要因のーつである.ノイズにロバストな音声認識システムを実現するため,近年,マルチモーダル手法が注目されている.これは音声だけでなく,口唇の動きなどの画像など,異なる種類の情報を用いることによって認識率を向上させる手法である.マルチモーダル音声認識は,音声と画像をどのように統合するかが問題となる.統合法は結果統合と初期統合の大きく2つに分けることができる.結果統合は対数尤度ベースでの統合であり,音声と画像のァライメントがー致しないため認識率が低下する可能性がある.それに対し,初期統合は特徴量ベースでの統合である.本稿では特徴量強調手法であるSPLICEに基づく音声と口唇画像を用いた新しいマルチモーダル音声認識システムを提案する.これは初期統合の一種であるが,従来から用いられている初期統合と違い,画像情報を音声信号からの雑音除去にのみ用い,認識のためのモデル構築には画像情報を直接用いない.音声と画像の対応が取れたコーパスであるCENSREC-1-AVを利用した評価実験により,特に雑音の大きな環境では従来手法のSPLICEに対し,約13%のエラー削滅率を得た.%A large number of efforts have been devoted to realize noise robust speech recognition systems. Among them, multimodal approach currently attains researchers' special attention. It utilizes different kinds of information, e.g. audio and visual information, and significant improvements in recognition performance were made. Although various methods for audio-visual integration were already developed, feature fusion is known as a promising technique. In this paper, a new method of feature fusion is proposed based on SPLICE (Stereo-based Piecewise Linear Compensation for Environments). Different from other feature fusion methods, the proposed method utilizes visual information only to facilitate the speech compensation process and is not required to include visual features in the vectors used for training acoustic models. For the CENSREC-1-AV task, about 13% error reduction rates are realized in low SNR conditions compared to naive fusion of audio and visual features.
展开▼