...
首页> 外文期刊>電子情報通信学会技術研究報告 >確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討
【24h】

確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討

机译:基于概率语言模型的基于Web的语音文档检索模型扩展研究

获取原文
获取原文并翻译 | 示例
           

摘要

音声ドキュメントのアドホック検索に対する需要が近年増加している.音声認識を利用して音声ドキュメントをテキストへ変換することで既存のテキスト検索の技術が利用可能であるが,音声認識誤りにより,検索性能が大きく劣化することが知られている.この間題を解決するために,以前我々は認識誤りによって欠落してしまった単語を対象音声に関連するWeb文書を利用して補間する方法を提案した.本稿では新たに情報検索モデルとして近年注目されている確率的言語モデルに焦点を当てる.Webを利用した補間のアイデアを確率的言語モデルを利用する枠組みに観み込むために,我々はWeb検索ヒット数を用いた新たなスムージング方法,およびWeb関連文書を用いた混合モデル化による文書モデル拡張手法を提案する.%In recent years, there has been more and more demands for ad hoc retrieval of spoken documents. We can use existing text retrieval method by trascribing the spoken document into text using a Large Vocabulary Continuous Speech Recognizer (LVCSR). However, it is well known that the retrieval performance deteriorates severely by recognition errors. To solve this problem, we previously proposed a method which interpolate lacked words using relevant Web documents to the target spoken document. In this paper, we newly focus on probabilistic language model which is attracted attention as a information retrieval model. To introduce Web-based interpolation idea into language modeling approach, we propose new smoothing method using Web hit counts and mixture modeling method using relevant Web documents.
机译:近年来,对语音文档进行临时搜索的需求不断增长。尽管可以通过使用语音识别将语音文档转换为文本来使用现有的文本搜索技术,但是众所周知,由于语音识别错误,搜索性能会大大降低。为了解决此问题,我们先前提出了一种使用与目标语音相关的Web文档对由于识别错误而遗漏的单词进行插值的方法。在本文中,我们关注于一种概率语言模型,该模型最近作为信息检索模型引起了人们的注意。为了将使用Web进行插值的思想整合到使用概率语言模型的框架中,我们提出了一种使用Web搜索命中数的新平滑方法,以及一种通过使用Web相关文档进行混合建模的文档模型。我们提出一种扩展方法。近年来,对语音文档进行临时检索的需求越来越多,我们可以使用现有的文本检索方法,即使用大词汇量连续语音识别器(LVCSR)将语音文档翻译成文本。已知由于识别错误导致检索性能严重下降。为解决此问题,我们先前提出了一种使用相关Web文档将缺少的单词插值到目标语音文档的方法。本文主要关注概率语言模型,该模型引起了关注为了将基于Web的插值思想引入语言建模方法,我们提出了使用Web命中次数的平滑方法和使用相关Web文档的混合建模方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号