...
首页> 外文期刊>電子情報通信学会技術研究報告. 応用音響. Engineering Acoustics >時間反転音声を用いた音声認識のためのデータ拡張特徴量系列における反転
【24h】

時間反転音声を用いた音声認識のためのデータ拡張特徴量系列における反転

机译:使用时间反转语音的语音识别数据扩展特征数量系列的反转

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

音声認識システムにおいて,学習データの音響的な網羅性を可能な限り担保し,過学習を防ぐ事を目的としたアプローチの一つにdata augmentation(データ拡張)がある.これは,与えられたオリジナルの学習データに対して何かしらの変動を加え,新しい学習データとして生成することで,より一層の汎化性能を獲得しようとするアプローチである.本稿では,このデータ拡張の音響的変動として,錯聴を用いることを考える.音声に関係のある錯聴はこれまで種々提案されてきているが,その中でも特に時間反転音声(Locally Time-reversed Speech)を検討した.我々はこれまで音声波形上での時間反転処理を検討してきたが,本稿では更にその発展として,特徴量系列において反転させるアプローチを提案する.音声波形に対する反転とは異なり,特徴量系列において反転させることで新たな追加データ生成が不要となり,学習時にオンラインでのデータ拡張が可能となる.CSJコーパスにおいて,本データ拡張を適用したモデルの評価実験の結果,ベースラインに対し認識率が改善(8.4%の相対改善率)し本アプローチの有効性を確認した.
机译:在语音识别系统中,在其中一个方法中存在数据增强(数据扩展),以尽可能多地保护学习数据的声学覆盖并防止覆盖。这是通过向给定原始学习数据添加一些波动并生成新的学习数据来获得更多泛化性能的方法。在本文中,我们考虑使用照度作为此数据扩展中的声波波动。到目前为止,已经提出了与声音相关的疾病,但其中,我们检查了一个时间倒置的声音(当地时间反转的演讲)。我们已经考虑了到目前为止的音频波形上的时间反转处理,但在本文中,我们提出了一种在特征数量中逆转的方法作为其开发。与语音波形的反转不同,不需要在特征量序列中反转以生成新的附加数据,并且可以在学习时执行数据扩展。在CSJ语料库中,由于应用了该数据扩展的模型的评估实验,得到了改善的识别率(相对提高率为8.4%),确认了这种方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号