大词汇量连续语音识别系统的统计语言模型应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着语音识别技术深入广泛的应用，它越来越将成为模式识别中的一个非常重要的研究课题，它的发展将会对未来的生活、工作带来极大的影响，而且该技术也将会成为未来十年的主流技术。近年来，由于在语音识别的研究中大词汇量、非特定人、连续语音识别是最困难、也最具有挑战性的一个课题和其广泛的应用前景，所以，它吸引众多的机构和公司相继投入研究和开发。虽然基于汉语的大词汇量连续语音识别系统近年来取得了快速的发展，但其性能还远远不能满足大规模应用的要求，为此对该技术进一步的研究有着非常重要的意义和价值。在大词汇量连续语音识别系统中，语言模型的地位是非常重要。其性能的好坏直接影响到整个语音识别系统的使用范围和识别效果。因此，构建和更新一个可靠的语言模型对语音识别系统是非常关键的。本文首先详细讨论了统计语言模型的工作原理、平滑技术、评价标准等相关理论。接着，在Linux环境下搭建HTK建模平台，利用Linux下强大的命令工具并通过编写Bash和Perl脚本程序，完成对训练数据的预处理和分词，建立了能够达到HTK中语言建模工具HLM要求的语料库。然后，利用HLM建模工具完成对训练数据的不断训练，并生成一个Tri-gram的语言模型，然后对该语言模型的性能进行评估。由于识别领域内容的不断更新，导致语音识别系统中语言模型性能变差，在识别过程中出现大量的集外词。因此，提出了一种利用HTML Parser和PDFBox开发工具包进行编程来提取网页内容和PDF文档作为训练数据来源自动构建更新语言模型的完整的解决方案，采用该方案可较好地改善语言模型的性能。最后，本文大概地介绍了大词汇量连续语音识别系统的整体框架，并通过具体的实验来验证了所建立语言模型在语音识别系统中的识别效果。由于识别结果不可能完全正确，因此本文探讨了一种对识别后的内容、时间进行修改和调整的方法，保证了识别后结果与说话人真实内容的一致，从而提高了语音识别的正确性。

著录项

作者
张强;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机应用技术
授予学位硕士
导师姓名陶宏才;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
语音识别系统; 大词汇量连续语音识别; 统计语言模型; 语料库;

相似文献

中文文献
外文文献
专利

1. 汉语大词汇量连续语音识别系统研究进展 [J] . 倪崇嘉 ,刘文举 ,徐波 . 中文信息学报 . 2009,第001期
2. 汉语大词汇量连续语音识别系统 [J] . 张爱英 ,倪崇嘉 . 科学中国人 . 2008,第011期
3. 汉语大词汇量连续语音识别系统研究进展 [J] . 刘加 . 电子学报 . 2000,第001期
4. 特定人大词汇量语音识别系统的研究及实现 [J] . 周光霞 . 智能计算机与应用 . 1998,第003期
5. 大词汇量语音识别系统ESRS [J] . 孙苏辉 . 微型机与应用 . 1989,第004期
6. 话者无关无限词汇量连续语音识别系统 [C] . 郁百超 . 第一届全国语言识别学术报告与展示会 . 1990
7. 大词汇量连续语音识别系统中统计语言模型的研究 [A] . 邹荣 . 2006

大词汇量连续语音识别系统的统计语言模型应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅