長時間分析に基づく位相情報を用いた音声認識の検討

山本　一公; 末吉　英一; 中川　聖一

首页> 外文期刊>電子情報通信学会技術研究報告 >長時間分析に基づく位相情報を用いた音声認識の検討

【24h】

長時間分析に基づく位相情報を用いた音声認識の検討

机译：基于长期分析的基于相位信息的语音识别研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Current speech recognition systems use mainly amplitude spectrum-based features such as MFFC for acoustic feature parameters, while discarding phase spectral information. The results of perceptual experiments, however, suggested that phase spectral information based on long-term analysis includes certain linguistic information. In this paper, we propose the use of phase features based on long-term analysis for speech recognition. We use two types of parameters: the delta phase parameter as a group delay and analytic group delay features. Isolated word and continuous digit recognition experiments were performed, resulting in a greater than 90% word or digit accuracy for each of the experiments. The experimental results confirmed that a long-term phase spectrum includes sufficient information for recognizing speech. Furthermore, combining likelihoods of MFCC and long-term group delay cepstrum outperformed the baseline MFCC by relatively 20% for clean speech.%現在の音声認識システムでは，音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられており，一方で位相情報は無視されている．しかし，Liuらの行った聴覚実験の結果では，長時間分析に基づく位相スペクトルには言語的な情報が含まれていることが示唆されている．そこで，本稿では長時間分析に基づく位相特徴量を用いて音声認識を行う手法を提案する．我々は，位相特徴量として群遅延特徴を用いるが，本稿では2種類の求め方について検討する．1つば，位相スペクトル領域における周波数軸方向の傾きとして求めた群遅延特徴量，もう1つは解析的手法により求めた群遅延特徴量である．孤立単語認識実験と連続数字認識実験により評価を行い．それぞれで90％以上の単語・数字正解精度を得た．これにより，位相特徴に音声認識能力があることが確かめられた．また，尤度レベルでMFCC特徴量との結合を行うことで，連続数字音声認識において，クリーン音声に対して20％以上の誤り削減率を得た．

机译：当前的语音识别系统主要使用基于幅度频谱的特征（例如MFFC）作为声学特征参数，同时丢弃相位频谱信息。然而，感知实验的结果表明，基于长期分析的相位谱信息包括某些语言信息。在本文中，我们建议使用基于长期分析的相位特征进行语音识别。我们使用两种类型的参数：增量相位参数作为群延迟和解析群延迟特征。进行了隔离的单词和连续数字识别实验，结果每个实验的单词或数字准确度均高于90％。实验结果证实，长期相位谱包含足以识别语音的信息。此外，结合MFCC的可能性和长期的群延迟倒频谱，干净语音的表现比基线MFCC高出20％。％现在の音声认识システムでは，音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられてしかし，一方で位相情报は无视されている。しかし，Liuらの行った聴覚実験の结果では，连续分析に基づく位相ペストクにはルには言语的な情报が含まれていることが示唆されている。我々は，位相特では量として群遅延特徴を用いする，本稿では2种の求め方について検讨する．1単，位相スペクトル领域における周波数轴方向の倾きとして求めた群遅延特徴量，もう1つは解析的手法により求めた群遅延特徴量である。これにより90％以上の単语・数字正解精度を得た。これにより，位相特徴に音声认识能力があることが确かめられた。また，尤度レベルでMFCC特徴量との结合を行うことで，连続数字音声认识において，クリーン音声に対して20％以上の误り削减率を得た。

著录项

来源
《電子情報通信学会技術研究報告》 |2010年第143期|p.31-36|共6页
作者
山本　一公; 末吉　英一; 中川　聖一;
展开▼
作者单位

豊橋技術科学大学情報・知能工学系　〒441-8580愛知県豊橋市天伯町雲雀ケ丘1-1;

豊橋技術科学大学情報・知能工学系　〒441-8580愛知県豊橋市天伯町雲雀ケ丘1-1;

豊橋技術科学大学情報・知能工学系　〒441-8580愛知県豊橋市天伯町雲雀ケ丘1-1;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
音声認識; 位相情報; 長時間分析; 群遅延スペクトル;

机译：语音识别;相位信息;长期分析;群时延谱;

相似文献

外文文献
中文文献
专利

1. 長時間分析に基づく位相情報を用いた音声認識の検討 [J] . 山本一公, 末吉英一, 中川聖一電子情報通信学会技術研究報告. 音声. Speech . 2010,第143期

机译：使用基于长期分析的相位信息进行语音识别检查
2. 長時間分析に基づく位相情報を用いた音声認識の検討 [J] . 山本一公, 末吉英一, 中川聖一電子情報通信学会技術研究報告. 音声. Speech . 2010,第143期

机译：在语音识别上的长期分析使用阶段基于信息的研究
3. 重畳区間の推定情報を用いたHMM合成に基づくロバスト音声認識の検討 [J] . 井坂直人, 大須賀洋, 山田武志, 電子情報通信学会技術研究報告. 音声. Speech . 2003,第26期

机译：使用重叠部分的估计信息基于HMM合成的鲁棒语音识别检查
4. 錯聴を利用した音声認識のためのデータ拡張：時間反転音声に基づく検討 [C] . 芦原孝典, 田中智大, 森谷崇史, 日本音響学会;日本音響学会研究発表会 . 2020

机译：语音识别的数据扩展使用听力：时间逆转声音的研究
5. 日本人の自然発話を対象とした音声感情認識 -感情音声の訓練サンプル数最適化を用いて- [D] . 市川朋輝 2020

机译：日本自然语音的语音情感识别-利用情感语音训练样本的优化-
6. Dynamical Recognizerモデルを用いた学習の非決定性の問題と空間/時間認識の構造(基研研究会「認知科学の数理的基礎づけに向けて」,研究会報告) [O] . 池上高志 2001

机译：学习的不确定性问题和使用动态识别器模型的时空识别结构

長時間分析に基づく位相情報を用いた音声認識の検討

摘要

著录项

相似文献

相关主题

期刊订阅