SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識

柏木　陽佑; 鈴木　雅之; 峯松　信明; 広瀬　啓吉

首页> 外文期刊>電子情報通信学会技術研究報告 >SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識

【24h】

SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識

机译：在嘈杂环境中使用语音和嘴唇图像信息的基于SPLICE的语音识别

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

音声認識技術において，ノイズは認識率の低下の大きな要因のーつである.ノイズにロバストな音声認識システムを実現するため，近年，マルチモーダル手法が注目されている.これは音声だけでなく，口唇の動きなどの画像など，異なる種類の情報を用いることによって認識率を向上させる手法である.マルチモーダル音声認識は，音声と画像をどのように統合するかが問題となる.統合法は結果統合と初期統合の大きく2つに分けることができる.結果統合は対数尤度ベースでの統合であり，音声と画像のァライメントがー致しないため認識率が低下する可能性がある.それに対し，初期統合は特徴量ベースでの統合である.本稿では特徴量強調手法であるSPLICEに基づく音声と口唇画像を用いた新しいマルチモーダル音声認識システムを提案する.これは初期統合の一種であるが，従来から用いられている初期統合と違い，画像情報を音声信号からの雑音除去にのみ用い，認識のためのモデル構築には画像情報を直接用いない.音声と画像の対応が取れたコーパスであるCENSREC-1-AVを利用した評価実験により，特に雑音の大きな環境では従来手法のSPLICEに対し，約13%のエラー削滅率を得た.%A large number of efforts have been devoted to realize noise robust speech recognition systems. Among them, multimodal approach currently attains researchers' special attention. It utilizes different kinds of information, e.g. audio and visual information, and significant improvements in recognition performance were made. Although various methods for audio-visual integration were already developed, feature fusion is known as a promising technique. In this paper, a new method of feature fusion is proposed based on SPLICE (Stereo-based Piecewise Linear Compensation for Environments). Different from other feature fusion methods, the proposed method utilizes visual information only to facilitate the speech compensation process and is not required to include visual features in the vectors used for training acoustic models. For the CENSREC-1-AV task, about 13% error reduction rates are realized in low SNR conditions compared to naive fusion of audio and visual features.

机译：背景技术在语音识别技术中，噪声是降低识别率的主要原因之一，近年来，为了实现对噪声的鲁棒性，多模式方法受到关注。这是一种利用诸如嘴唇运动图像之类的不同信息来提高识别率的方法，在多峰语音识别中，如何将语音与图像融合成为一个难题。结果积分是基于对数可能性的积分，并且由于语音和图像的对齐方式不匹配，因此识别率可能会降低。在本文中，我们提出了一种基于语音和嘴唇图像的基于SPLICE的多模态语音识别系统，这是一种特征增强方法，是一种初始集成。与常规的初始积分不同，图像信息仅用于去除语音信号中的噪声，而图像信息不直接用于识别的模型构建。通过使用CENSREC-1-AV进行的评估实验，与传统的SPLICE方法相比，尤其是在嘈杂的环境中，错误减少率达到了约13％。％为实现噪声鲁棒性付出了大量努力。语音识别系统，其中，多模式方法目前受到研究人员的特别注意，它获得了诸如视听信息之类的各种信息，并且在识别性能上有了显着的改进，尽管已经开发了各种视听集成方法，特征融合是一种很有前途的技术。融合是基于SPLICE（基于环境的分段线性补偿）提出的，与其他特征融合方法不同，该方法仅导出视觉信息以促进语音补偿过程，并且不需要在用于向量的矢量中包括视觉特征。训练声学模型。对于CENSREC-1-AV任务，与幼稚的音频和视觉特征融合相比，在低SNR条件下可实现约13％的错误减少率。

著录项

来源
《電子情報通信学会技術研究報告》 |2012年第47期|155-160|共6页
作者
柏木　陽佑; 鈴木　雅之; 峯松　信明; 広瀬　啓吉;
展开▼
作者单位

東京大学　〒113-8656　東京都文京区本郷　7-3-1;

東京大学　〒113-8656　東京都文京区本郷　7-3-1;

東京大学　〒113-8656　東京都文京区本郷　7-3-1;

東京大学　〒113-8656　東京都文京区本郷　7-3-1;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
SPLICE; マルチモーダル; 特徴量強調; メディア変換; 口唇画像;

机译：SPLICE;多模式;功能增强;媒体转换;嘴唇图像;

相似文献

外文文献
中文文献
专利

1. SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識 [J] . 柏木　陽佑, 鈴木　雅之, 峯松　信明, 電子情報通信学会技術研究報告 . 2012,第49期

机译：在嘈杂环境中使用语音和嘴唇图像信息的基于SPLICE的语音识别
2. SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識 [J] . 柏木　陽佑, 鈴木　雅之, 峯松　信明, 電子情報通信学会技術研究報告 . 2012,第48期

机译：在嘈杂环境中使用语音和嘴唇图像信息的基于SPLICE的语音识别
3. SPLICEに基づく音声·口唇画像情報を用いた雑音環境下音声認識 [J] . 柏木陽佑, 鈴木雅之, 峯松信明, 電子情報通信学会技術研究報告. 信号処理. Signal Processing . 2012,第48期

机译：使用基于SPLICE的语音和嘴唇图像信息在嘈杂的环境中进行语音识别
4. 平滑化調波構造パラメータマスクを用いた凸最適化に基づく雑音環境下音声強調手法の性能改善 [C] . 王浩南, 若林佑幸, 福森隆寛, 日本音響学会;日本音響学会研究発表会 . 2020

机译：使用平滑变量参数掩模基于凸优化的噪声环境音频增强方法的性能提高
5. 日本人の自然発話を対象とした音声感情認識 -感情音声の訓練サンプル数最適化を用いて- [D] . 市川朋輝 2020

机译：日本自然语音的语音情感识别-利用情感语音训练样本的优化-
6. 音声区間検出を用いた雑音環境下で頑健な単語音声認識に関する研究 [O] . 有冨智志 2016

机译：语音区间检测在嘈杂环境中的健壮词语音识别研究

SPLICEに基づく音声•口唇画像情報を用いた雑音環境下音声認識

摘要

著录项

相似文献

相关主题

期刊订阅