要解决的问题:提供一种能够准确地提取电子文档的文档布局结构的文档分析程序,一种存储该文档布局分析程序的计算机可读存储介质,一种文档布局分析方法以及一种文档布局分析装置。
解决方案:获取有关文档图像中各个字符的坐标信息,根据获取的坐标信息检测文档图像中的字符串,并逐一选择包含在检测到的字符串中的字符。在以包围该字符串的外接矩形的预定角度为一个角度并且包括围绕所选择的字符的外接矩形的矩形检查区域中,通过对各个字符进行编号来设置字符串,以使得具有较大字符的字符被设置。不包括比所选字符大的数字,并根据给定的数字顺序一一添加字符。在包含已添加到字符串中的字符和新添加的字符的矩形检查区域中,如果包含已添加的字符以外的字符和新添加的字符,则在合并已添加的字符的同时删除新添加的字符。一起重新设置为一个句子。
版权:(C)2005,JPO&NCIPI