首页> 外文会议>日本音響学会研究発表会 >Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応
【24h】

Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応

机译:基于使用Twitter中的改变和语言模型语言模型的改变,发现未知数未知数

获取原文

摘要

本稿では,Twitter を用いて新しく使用されるようになった音声認識システムにとって正しく認識されないと考えられる未知語の発見手法の提案と,発見した未知語に対応した言語モデルを作成し,音声認識システムに適用する手法の提案を行った.Twitterから取得したツイートを,新しいツイートと過去のツイートとで比較することにより,ユーザー間の使用単語の変化が取得でき,そこから新しく使用されるようになった未知語の取得が可能となる.これらの未知語を基に未知語事例とBCCWJ を用いて言語モデルを作成する手法と,BCCWJ に未知語トークンを挿入する手法を用いて言語モデルを作成する手法を提案した.提案手法を用いて作成した言語モデルでは,ベースラインと比較して補正パープレキシティの改善が得られ,取得した未知語が含まれる評価セットにおいてパープレキシティ及び補正パープレキシティの改善が得られた.音声認識実験では,作成した言語モデルを適用した音声認識システムで未知語が含まれる文を認識した場合,音声認識システム全てにおいて,ベースライン音声認識システムより良い単語誤り率と未知語誤り率を得られた.BCCWJ に未知語トークンを約25,000 個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが,単語認識において最も良い結果となり,ベースラインシステムと比較して相対的に約52%の単語誤り率の改善された.BCCWJ に未知語トークンを約50,000個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが,未知語認識において最も良い結果となり,ベースラインシステムと比較して相対的に約91%の未知語誤り率の改善が得られた.これによって,未知語誤り率の改善が全体的な単語誤り率の改善へと繋がる結果となった.
机译:在本文中,它是使用Twitter新使用的它被正确地识别出语音识别系统被认为是未知词的发现方法的提议创建一种与未知单词兼容的语言模型,适用于系统的方法的提案。推特从新推文和过去收购的推文通过与推文进行比较来使用用户使用可以从那里获得和新使用单词的变化可以获得出现的未知单词。这些使用基于未知单词和BCCWJ的未知单词在BCCWJ中创建Dell和Unknown Token的方法使用方法创建语言模型的方法建议。在使用所提出的方法创建的语言模型中,补偿擦除局部与基线相比改善包含所得未知数的和评估集贴片城市和更正净化获得了TEE的改善。在语音识别实验中,应用语言模型的语音识别系统中的未知单词如果您识别句子,则所有语音识别系统比基线语音识别系统更好获取字错误率和未知的无状态错误率。 BCCWJ.使用一种插入约25,000个未知令牌的方法应用要创建的语言模型的语音识别系统,最好的结果词识别,基线与系统相比相对大约52%的字错误率改善。 BCCWJ中约有50,000个未知令牌应用使用该方法插入创建的语言模型语音识别系统是未知语言识别最重要的它变成了良好的结果,与基线系统相比提高未知错误率约为91%。孩子整体单词误差改善不可知的错误率这是导致速度的提高。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号