首页> 外文期刊>電子情報通信学会技術研究報告 >SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識
【24h】

SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識

机译:在嘈杂环境中使用语音和嘴唇图像信息的基于SPLICE的语音识别

获取原文
获取原文并翻译 | 示例
           

摘要

音声認識技術において,ノイズは認識率の低下の大きな要因のーつである.ノイズにロバストな音声認識システムを実現するため,近年,マルチモーダル手法が注目されている.これは音声だけでなく,口唇の動きなどの画像など,異なる種類の情報を用いることによって認識率を向上させる手法である.マルチモーダル音声認識は,音声と画像をどのように統合するかが問題となる.統合法は結果統合と初期統合の大きく2つに分けることができる.結果統合は対数尤度ベースでの統合であり,音声と画像のァライメントがー致しないため認識率が低下する可能性がある.それに対し,初期統合は特徴量ベースでの統合である.本稿では特徴量強調手法であるSPLICEに基づく音声と口唇画像を用いた新しいマルチモーダル音声認識システムを提案する.これは初期統合の一種であるが,従来から用いられている初期統合と違い,画像情報を音声信号からの雑音除去にのみ用い,認識のためのモデル構築には画像情報を直接用いない.音声と画像の対応が取れたコーパスであるCENSREC-1-AVを利用した評価実験により,特に雑音の大きな環境では従来手法のSPLICEに対し,約13%のエラー削滅率を得た.%A large number of efforts have been devoted to realize noise robust speech recognition systems. Among them, multimodal approach currently attains researchers' special attention. It utilizes different kinds of information, e.g. audio and visual information, and significant improvements in recognition performance were made. Although various methods for audio-visual integration were already developed, feature fusion is known as a promising technique. In this paper, a new method of feature fusion is proposed based on SPLICE (Stereo-based Piecewise Linear Compensation for Environments). Different from other feature fusion methods, the proposed method utilizes visual information only to facilitate the speech compensation process and is not required to include visual features in the vectors used for training acoustic models. For the CENSREC-1-AV task, about 13% error reduction rates are realized in low SNR conditions compared to naive fusion of audio and visual features.
机译:背景技术在语音识别技术中,噪声是降低识别率的主要原因之一,近年来,为了实现对噪声的鲁棒性,多模式方法受到关注。这是一种利用诸如嘴唇运动图像之类的不同信息来提高识别率的方法,在多峰语音识别中,如何将语音与图像融合成为一个难题。结果积分是基于对数可能性的积分,并且由于语音和图像的对齐方式不匹配,因此识别率可能会降低。在本文中,我们提出了一种基于语音和嘴唇图像的基于SPLICE的多模态语音识别系统,这是一种特征增强方法,是一种初始集成。与常规的初始积分不同,图像信息仅用于去除语音信号中的噪声,而图像信息不直接用于识别的模型构建。通过使用CENSREC-1-AV进行的评估实验,与传统的SPLICE方法相比,尤其是在嘈杂的环境中,错误减少率达到了约13%。%为实现噪声鲁棒性付出了大量努力。语音识别系统,其中,多模式方法目前受到研究人员的特别注意,它获得了诸如视听信息之类的各种信息,并且在识别性能上有了显着的改进,尽管已经开发了各种视听集成方法,特征融合是一种很有前途的技术。融合是基于SPLICE(基于环境的分段线性补偿)提出的,与其他特征融合方法不同,该方法仅导出视觉信息以促进语音补偿过程,并且不需要在用于向量的矢量中包括视觉特征。训练声学模型。对于CENSREC-1-AV任务,与幼稚的音频和视觉特征融合相比,在低SNR条件下可实现约13%的错误减少率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号