Current speech recognition systems use mainly amplitude spectrum-based features such as MFFC for acoustic feature parameters, while discarding phase spectral information. The results of perceptual experiments, however, suggested that phase spectral information based on long-term analysis includes certain linguistic information. In this paper, we propose the use of phase features based on long-term analysis for speech recognition. We use two types of parameters: the delta phase parameter as a group delay and analytic group delay features. Isolated word and continuous digit recognition experiments were performed, resulting in a greater than 90% word or digit accuracy for each of the experiments. The experimental results confirmed that a long-term phase spectrum includes sufficient information for recognizing speech. Furthermore, combining likelihoods of MFCC and long-term group delay cepstrum outperformed the baseline MFCC by relatively 20% for clean speech.%現在の音声認識システムでは,音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられており,一方で位相情報は無視されている.しかし,Liuらの行った聴覚実験の結果では,長時間分析に基づく位相スペクトルには言語的な情報が含まれていることが示唆されている.そこで,本稿では長時間分析に基づく位相特徴量を用いて音声認識を行う手法を提案する.我々は,位相特徴量として群遅延特徴を用いるが,本稿では2種類の求め方について検討する.1つば,位相スペクトル領域における周波数軸方向の傾きとして求めた群遅延特徴量,もう1つは解析的手法により求めた群遅延特徴量である.孤立単語認識実験と連続数字認識実験により評価を行い.それぞれで90%以上の単語・数字正解精度を得た.これにより,位相特徴に音声認識能力があることが確かめられた.また,尤度レベルでMFCC特徴量との結合を行うことで,連続数字音声認識において,クリーン音声に対して20%以上の誤り削減率を得た.
展开▼