首页> 中文学位 >汉字种子混淆集的构建方法研究
【6h】

汉字种子混淆集的构建方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1自然语言处理概述

1.2文本自动校对概述

1.3 研究背景与意义

1.4国内研究现状

1.5研究内容与方法

1.6论文的主要内容和章节安排

1.7本章小结

第2章 种子错别字混淆集和错别字混淆集图的构造

2.1 中文文本常见错误分类

2.2种子错别字混淆集字典构造

2.3错别字混淆集图的构造

2.4本章小结

第3章 错别字混淆集的自扩展

3.1相关概念及表示方法

3.2自扩展算法

3.3 部分算法思想

3.4本章小结

第4章 大数据补充混淆集

4.1中文分词

4.2 生词处理

4 . 3双数组t rie树

4.4散串合并和模糊匹配

4.5 统计与规则相结合

4.6 本章小结

第5章 实验结果

5.1实验结果

5.2错别字混淆集的排序方法

5.3实验结果分析

5.4本章小结

总结与展望

参考文献

攻读学位期间发表的学术论文

致谢

展开▼

摘要

汉字种子混淆集技术的研究一直是中文文本自动校对技术的一个重要的基础性课题,也是一个瓶颈问题,它对中文文本自动校对技术的发展有巨大的推动作用。本文对汉字种子混淆集领域涉及到的主要技术进行了比较全面和仔细的研究,包括汉字种子在中文文本中出现的错误类型、大数据词典的存储方式、中文文本分词算法、混淆集的排序。
  本文从一个新的角度对汉字混淆集进行了研究,通过错别字出现的各种类型来人工创建11935个汉字可能的错别字;以这些汉字为节点,“可错成”的关系为边,将混淆集构造成一个错别字混淆集图;在错别字混淆集图的基础上,设计了自扩展算法来发现内部规则进行补充和验证错别字混淆集;通过外部大数据来开源补充混淆集,发现新的错别字对,并对每个种子汉字的混淆集进行了排序,最终构建一个种子汉字混淆集字典。根据实验,经过随机抽样校对,准确率达到87.35%。
  本文的主要贡献如下:
  首先,对中文文本中出现的错别字形式进行了广泛而深入的研究,通过对大批量的文本进行发现,整理出中文文本错别字出现的错误类型,包括音似、形似、相邻键位击键错误、拼音相同词组误选等文本的错误形式,并对其进行分析,并提出解决的方法。
  其次,对汉字种子的错别字混淆集从一个崭新的角度对其进行自动添加,提出了错别字混淆集图的概念,并通过对错别字图的研究,发现规则对其补充。
  再次,进一步通过大数据对混淆集进行自动补充,最终形成一部种子汉字混淆集字典。
  最后,通过错别字的字频和形相似度对错别字混淆集进行排序,对混淆集进行了排序,对后续的纠错系统能够起到很好的帮助。并且通过大规模语料获取的错别词词典和生词词典不受领域的限制,应用的领域广泛,对文本校对有很大的帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号