汉字种子混淆集的构建方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

汉字种子混淆集技术的研究一直是中文文本自动校对技术的一个重要的基础性课题，也是一个瓶颈问题，它对中文文本自动校对技术的发展有巨大的推动作用。本文对汉字种子混淆集领域涉及到的主要技术进行了比较全面和仔细的研究，包括汉字种子在中文文本中出现的错误类型、大数据词典的存储方式、中文文本分词算法、混淆集的排序。
　　本文从一个新的角度对汉字混淆集进行了研究，通过错别字出现的各种类型来人工创建11935个汉字可能的错别字；以这些汉字为节点，“可错成”的关系为边，将混淆集构造成一个错别字混淆集图；在错别字混淆集图的基础上，设计了自扩展算法来发现内部规则进行补充和验证错别字混淆集；通过外部大数据来开源补充混淆集，发现新的错别字对，并对每个种子汉字的混淆集进行了排序，最终构建一个种子汉字混淆集字典。根据实验，经过随机抽样校对，准确率达到87.35％。
　　本文的主要贡献如下：
　　首先，对中文文本中出现的错别字形式进行了广泛而深入的研究，通过对大批量的文本进行发现，整理出中文文本错别字出现的错误类型，包括音似、形似、相邻键位击键错误、拼音相同词组误选等文本的错误形式，并对其进行分析，并提出解决的方法。
　　其次，对汉字种子的错别字混淆集从一个崭新的角度对其进行自动添加，提出了错别字混淆集图的概念，并通过对错别字图的研究，发现规则对其补充。
　　再次，进一步通过大数据对混淆集进行自动补充，最终形成一部种子汉字混淆集字典。
　　最后，通过错别字的字频和形相似度对错别字混淆集进行排序，对混淆集进行了排序，对后续的纠错系统能够起到很好的帮助。并且通过大规模语料获取的错别词词典和生词词典不受领域的限制，应用的领域广泛，对文本校对有很大的帮助。

著录项

作者
施恒利;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科计算机技术
授予学位硕士
导师姓名张再跃;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
汉字种子; 错别字混淆集; 质量控制; 自扩展算法;

相似文献

中文文献
外文文献
专利

1. 汉字种子混淆集的构建方法研究 [J] . 施恒利 ,刘亮亮 ,王石 . 计算机科学 . 2014,第008期
2. 基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建 [J] . 汪舸 ,吴方君 . 计算机工程与科学 . 2020,第007期
3. 航天器软件缺陷预测数据集构建方法研究 [J] . 郑小萌 ,高猛 ,滕俊元 . 计算机科学 . 2021,第0z1期
4. LDPC码陷阱集知识图谱构建方法研究 [J] . 郭军军 ,王乐 ,荆心 . 信息与电脑 . 2020,第004期
5. 公安视频监控中行人重识别数据集的构建方法研究 [J] . 杨天奥 ,李心果 ,邹佳琦 . 科技视界 . 2020,第019期
6. 汉字种子混淆集的构建方法研究 [C] . SHI Heng-li ,施恒利 ,LIU Liang-liang . 2013年全国理论计算机科学学术年会 . 2013
7. 基于大字符集脱机手写体汉字识别方法研究 [A] . 周双飞 . 2011

汉字种子混淆集的构建方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅