首页> 中文学位 >面向特定字符集的脱机手写体文字识别算法研究
【6h】

面向特定字符集的脱机手写体文字识别算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 OCR技术

1.2.3 手写体文字识别技术

1.3 研究的主要内容

1.4 论文的组织结构

1.5 本章小结

第2章 脱机手写体文字识别相关技术

2.1 预处理

2.1.1 二值化

2.1.2 常规噪声消除

2.1.3 倾斜校正

2.1.4 文字切分

2.1.5 规范化

2.1.6 细化

2.2 文字识别

2.2.1 特征提取

2.2.2 特征匹配

2.3 本章小结

第3章 手写体文字噪声消除算法研究

3.1 文字细化引入噪声的消除

3.1.1 笔画节点判定

3.1.2 笔画交差点分离的去重

3.1.3 笔锋错误突出的恢复

3.1.4 断裂笔画的修复

3.2 无约束手写笔画的恢复

3.2.1 线性退化

3.2.2 异常笔画的恢复

3.3 本章小结

第4章 手写体文字特征识别算法研究

4.1 文字特征提取与匹配的基本流程

4.2 特征提取算法改进

4.2.1 基于像素点分布的笔画提取法

4.2.2 基于方向与长度的笔画提取法

4.2.3 一种依据平均值的笔画角度确认算法

4.3 分类器设计

4.4 面向特定字符集的特征匹配算法

4.4.1 笔画模板数据库的建立

4.4.2 一种基于相似度的特征匹配算法

4.5 本章小结

第5章 原型系统开发与算法测试

5.1 原型系统开发

5.1.1 系统需求分析

5.1.2 系统总体设计

5.1.3 系统流程图

5.1.4 系统开发

5.2 测试及结果分析

5.2.1 测试环境说明

5.2.2 结果分析

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,对手写体文件的保密检查是检查工具下一步研究的重点。由于手写笔画的无约束性与笔顺的不确定性,脱机手写体识别一直是一个难以解决的问题,而现有的识别技术针对特定字符集(“保”、“守”、“国”、“家”、“秘”、“密”等等)的识别,远远达不到保密检查准确性、高效性的要求。本文致力于研究一种针对特定字符集的脱机手写文字识别方法,包括去除噪声、恢复笔画原有特征及相应的特征识别算法,并完成一个原型系统的开发与测试,实现特定字符的大部分手写字体的脱机识别功能。
  论文针对手写识别几个关键步骤进行研究,主要工作如下:
  (1)去噪算法的研究:细化引入噪声的消除和无约束手写笔画的恢复。针对细化操作所引入的噪声问题,文章描述了一种判定交叉点、端点的方法,并以判定结果为依据分别进行了交叉点分离的去重、笔锋错误突出的恢复与笔画断裂的修复。针对无约束手写笔画的恢复工作,文章提出了一种人工神经网络的训练方法,解决了手写文字连笔和笔画省略的问题,降低了由于手写习惯不同所造成的识别困难。
  (2)特征识别算法的研究:优化特征提取算法并设计了一种特征匹配算法。首先针对手写体极大的随意性提出了一种笔画内部特征恢复方法,将各种内部特征进行提取并大致分类;其次根据这些特征设计了一个三层分类器,避免了识别一个文字就要进行字典查找的大量时间消耗;最后设计了一个笔画特征库并依此提出匹配方法和笔画相似度计算方法,让文字与库内标准模板进行相似度计算,从而识别出手写体文字。
  (3)原型系统开发与测试:基于以上研究与保密检查工具的要求进行原型系统开发,通过原型系统进行算法测试和验证并对采集的数据进行分析。在特定字符集中抽取的6个文字1530个样本的实验中,三种主流识别软件对于脱机手写体特定字符集的识别率均未超过50%,而此文档识别系统能够始终保持90%以上的平均识别率。
  对比结果表明,论文提出的独创性设计与相关技术改进有效地提高了特定字符集的识别率。若制作更多的字体模板,那么识别率将还会继续上升。在同等时间和环境下,将此系统作为主要检查工具,最适合于国家保密检查工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号