首页> 中国专利> 常用字体汉字笔画拆解方法、系统、装置

常用字体汉字笔画拆解方法、系统、装置

摘要

本发明属于图像处理技术领域,具体涉及一种常用字体汉字笔画拆解方法、系统、装置,旨在解决机器人无法实现同一汉字不同字体的笔画拆解的问题。本发明方法包括:获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;提取目标字形各联通区域外轮廓上的像素点并降采样,得到目标字形外轮廓稀疏点集;以稀疏点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割、重排序、凸多边形分割,得到凸多边形集合;对模板字形在绘制过程中各联通区域外轮廓上的像素点,进行位置调整;调整后,获取凸多边形集合中各最小凸外接多边形的笔画类别,并根据笔画类别进行笔画拆解。本发明实现同一汉字不同字体的笔画拆解。

著录项

  • 公开/公告号CN112598768A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN202110239167.3

  • 发明设计人 陈艳红;王彦情;崔晓光;温大勇;

    申请日2021-03-04

  • 分类号G06T11/60(20060101);G06T11/40(20060101);G06T7/11(20170101);G06K9/46(20060101);G06K9/00(20060101);G06F40/186(20200101);

  • 代理机构11576 北京市恒有知识产权代理事务所(普通合伙);

  • 代理人郭文浩;尹文会

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明属于图像处理技术领域,具体涉及一种常用字体汉字笔画拆解方法、系统、装置。

背景技术

书法机器人是具备自主书写汉字能力的机器人,它将先进的人工智能技术以普通民众可以理解的形式呈现,既起到了普及科学知识的作用,又丰富了人们的日常谈资。如果想通过书法机器人展示流畅的书写过程和作品,除了要采用灵活的机械结构,掌握字体形态的走笔等运笔技巧也至关重要,实现这一目的的基础是掌握将要书写的汉字的每一个笔画及其先后顺序。

汉字的呈现样式有多种字体,比如楷书、宋体等等,人们书写汉字往往是一笔一画有顺序的完成,而不同字体库一般只会给出每个汉字的整体字形,鲜少提供汉字的顺序笔画。学习过汉字知识的自然人可以容易地拆解汉字笔画,但对于机器人的算法实现却存在困难,尤其对于笔画有交叠的汉字字形,而且不同字体、同一汉字的形态间存在差异也给通过算法拆解汉字笔画提出挑战。

目前,在公开的资料中有一个汉字教学项目“MakeMeaHanzi”,该项目采用“文鼎中楷”作为示例字体,并公开了该字体样式下的汉字笔画数据包,除此之外不能获得其他多种字体的汉字笔画数据库,因此需要一种常用字体汉字笔画拆解方法,以得到采用不同字体呈现的汉字的笔画及先后顺序。针对上述问题,本发明提出了一种常用字体汉字笔画拆解方法。

发明内容

为了解决现有技术中的上述问题,即为了解决现有机器人无法实现同一汉字不同字体的笔画拆解的问题,本发明提出了一种常用字体汉字笔画拆解方法,该方法包括:

S10,获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;所述目标字形为待笔画拆解的字体形状;所述模板字形为已知笔画及书写顺序的其他字体形状;

S20,提取目标字形图像中目标字形各联通区域外轮廓上的像素点,构建目标字形外轮廓稠密点集,作为第一点集;对所述第一点集中的像素点降采样,得到目标字形外轮廓稀疏点集,作为第二点集;

S30,以所述第二点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割,并以三个顶角中张角最小的角度为三角形的排序属性进行三角形重排序,并依次取重排序后的三角形的顶点构建第三点集;对所述第三点集中的像素点进行凸多边形分割,得到凸多边形区域集合;

S40,求解源点集到所述第一点集的旋转、平移矩阵,并对所述源点集中各像素点 进行位置调整;位置调整后,将第一点集中与源点集中梯度方向距离小于设定阈值

S50,获取所述源点集中各像素点的笔画类别,并其作为对应点对中第一点集的像素点的笔画类别;统计所述凸多边形区域集合中各凸多边形覆盖所述第一点集中像素点的笔画类别数目,并将笔画类别数目最多的类别作为凸多边形的笔画类别;

S60,新建累计笔画图像、单一笔画图像,并按照模板字形的笔画及书写顺序,将同一笔画类别的所有凸多边形绘制在单一笔画图像上,比较累计笔画图像与单一笔画图像的重叠区域,若单一笔画图像删除重叠区后仍为单一联通区,则在单一笔画图像中将重叠区去除,并将单一笔画图像添加到累计笔画图像上;将绘制后的各单一笔画图像顺序输出,作为目标字形顺序笔画拆解结果。

在一些优选的实施方式中,步骤S30中“对所述第一点集中的像素点降采样”,其方法为:

对于所述第一点集中连续的三个像素点

在一些优选的实施方式中,所述张角,其计算方法为;

其中,

在一些优选的实施方式中,步骤S30中“对所述第三点集中的像素点进行凸多边形分割”,其方法为:

S331,初始设置第三点集中每个像素点的访问状态为未访问;

S332,对所述第三点集中的任一像素点

S333,统计步骤S332获取的最小外接凸多边形内包含的目标字形图像背景区域的 像素数,若该像素数小于设定阈值

S334,对所述第三点集中的像素点

S335,统计步骤S334获取的最小外接凸多边形内包含的目标字形图像背景区域的 像素数,若该像素数小于设定阈值

在一些优选的实施方式中,步骤S40中“求解所述源点集到所述第一点集的旋转、平移矩阵”,其方法为:通过迭代最近邻算法对所述源点集、所述第一点集进行点集位置配置,得到所述源点集到所述第一点集的旋转、平移矩阵。

在一些优选的实施方式中,所述第一点集、所述源点集中各像素点的梯度方向,其计算方法为:

采用sobel算子对目标字形图像、模板字形图像进行卷积,融合x、y方向的图像卷积结果计算每个像素点的梯度方向。

在一些优选的实施方式中,所述梯度方向距离,其计算方法为:

其中,

本发明的第二方面,提出了一种常用字体汉字笔画拆解系统,该系统包括:字形获取模块、提取模块、分割模块、调整模块、笔画类别获取模块、输出模块;

所述字形获取模块,配置为获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;所述目标字形为待笔画拆解的字体形状;所述模板字形为已知笔画及书写顺序的其他字体形状;

所述提取模块,配置为提取目标字形图像中目标字形各联通区域外轮廓上的像素点,构建目标字形外轮廓稠密点集,作为第一点集;对所述第一点集中的像素点降采样,得到目标字形外轮廓稀疏点集,作为第二点集;

所述分割模块,配置为以所述第二点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割,并以三个顶角中张角最小的角度为三角形的排序属性进行三角形重排序,并依次取重排序后的三角形的顶点构建第三点集;对所述第三点集中的像素点进行凸多边形分割,得到凸多边形区域集合;

所述调整模块,配置为求解源点集到所述第一点集的旋转、平移矩阵,并对所述源 点集中各像素点进行位置调整;位置调整后,将第一点集中与源点集中梯度方向距离小于 设定阈值

所述笔画获取模块,配置为获取所述源点集中各像素点的笔画类别,并其作为对应点对中第一点集的像素点的笔画类别;统计所述凸多边形区域集合中各凸多边形覆盖所述第一点集中像素点的笔画类别数目,并将笔画类别数目最多的类别作为凸多边形的笔画类别;

所述输出模块,配置为新建累计笔画图像、单一笔画图像,并按照模板字形的笔画及书写顺序,将同一笔画类别的所有凸多边形绘制在单一笔画图像上,比较累计笔画图像与单一笔画图像的重叠区域,若单一笔画图像删除重叠区后仍为单一联通区,则在单一笔画图像中将重叠区去除,并将单一笔画图像添加到累计笔画图像上;将绘制后的各单一笔画图像顺序输出,作为目标字形顺序笔画拆解结果。

本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的常用字体汉字笔画拆解方法。

本发明的第四方面,提出了一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的常用字体汉字笔画拆解方法。

本发明的有益效果:

本发明实现了同一汉字不同字体的笔画拆解。

本发明使用轮廓提取得到的目标字形各像素点沿着联通区的边缘依次排布,对目标字形外轮廓稠密点集降采样得到目标字形外轮廓稀疏点集,可以提高算法计算效率。降采样后,分割三角形将稀疏点集中的像素点与跨越局部联通区的对面点连接,基于分割三角形对稀疏点集中的像素点重排序并进行凸多边形分割,得到凸多边形区域集合。获取凸多边形区域集合中各最小外接凸多边形的笔画类别,根据笔画类别进行目标字形笔画拆解。从而实现了同一汉字不同字体的笔画拆解。

另外,本发明可以优化选择待拆解字体和模板字体,得到待拆解字体的汉字顺序笔画数据库后,可以作为新的模板字形对其他字体进行笔画拆解。解决了缺乏不同字体开源汉字笔画数据及笔画拆解方法的问题,可以为书法机器人等需要按笔画书写汉字的应用提供技术基础。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。

图1 是本发明一种实施例的常用字体汉字笔画拆解方法的流程示意图;

图2为本发明一种实施例的常用字体汉字笔画拆解系统的框架示意图;

图3是本发明一种实施例的目标字形与模板字形示例图以及目标字形与模板字形配准结果示例图;

图4 是本发明一种实施例的目标字形外轮廓上稠密像素点点和稀疏像素点的示例图;

图5是本发明一种实施例的目标字形三角形分割结果示例图;

图6是本发明一种实施例的目标字形凸多边形分割结果示例图;

图7是本发明一种实施例的目标字形像素点与模板字形笔画对应图;

图8是本发明一种实施例的目标字形笔画拆解结果示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种常用字体汉字笔画拆解方法,如图1所示,该方法包括以下步骤:

S10,获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;所述目标字形为待笔画拆解的字体形状;所述模板字形为已知笔画及书写顺序的其他字体形状;

S20,提取目标字形图像中目标字形各联通区域外轮廓上的像素点,构建目标字形外轮廓稠密点集,作为第一点集;对所述第一点集中的像素点降采样,得到目标字形外轮廓稀疏点集,作为第二点集;

S30,以所述第二点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割,并以三个顶角中张角最小的角度为三角形的排序属性进行三角形重排序,并依次取重排序后的三角形的顶点构建第三点集;对所述第三点集中的像素点进行凸多边形分割,得到凸多边形区域集合;

S40,求解源点集到所述第一点集的旋转、平移矩阵,并对所述源点集中各像素点 进行位置调整;位置调整后,将第一点集中与源点集中梯度方向距离小于设定阈值

S50,获取所述源点集中各像素点的笔画类别,并其作为对应点对中第一点集的像素点的笔画类别;统计所述凸多边形区域集合中各凸多边形覆盖所述第一点集中像素点的笔画类别数目,并将笔画类别数目最多的类别作为凸多边形的笔画类别;

S60,新建累计笔画图像、单一笔画图像,并按照模板字形的笔画及书写顺序,将同一笔画类别的所有凸多边形绘制在单一笔画图像上,比较累计笔画图像与单一笔画图像的重叠区域,若单一笔画图像删除重叠区后仍为单一联通区,则在单一笔画图像中将重叠区去除,并将单一笔画图像添加到累计笔画图像上;将绘制后的各单一笔画图像顺序输出,作为目标字形顺序笔画拆解结果。

为了更清晰地对本发明常用字体汉字笔画拆解方法进行说明,下面对本发明方法一种实施例中各步骤进行展开详述。

S10,获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;所述目标字形为待笔画拆解的字体形状;所述模板字形为已知笔画及书写顺序的其他字体形状;

在本实施例中,先获取目标字形和模板字形,目标字形为汉字对应待拆解字体的 形状,模板字形为同一汉字的已知笔画及书写顺序的其他字体形状,两种字形采用相同字 号,分别绘制在目标字形图像

另外,在载入模板字形时,按照其笔画顺序依次绘制每个笔画区域,并提取该笔画 联通区的外轮廓

S20,提取目标字形图像中目标字形各联通区域外轮廓上的像素点,构建目标字形外轮廓稠密点集,作为第一点集;对所述第一点集中的像素点降采样,得到目标字形外轮廓稀疏点集,作为第二点集;

在本实施例中,采用opencv开源函数提取目标字形图像

对目标字形外轮廓稠密点集中的像素点进行降采样,得到目标字形外轮廓稀疏点集,降采样过程具体如下:

对于目标字形外轮廓稀疏点集中连续的三个像素点

S30,以所述第二点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割,并以三个顶角中张角最小的角度为三角形的排序属性进行三角形重排序,并依次取重排序后的三角形的顶点构建第三点集;对所述第三点集中的像素点进行凸多边形分割,得到凸多边形区域集合;

在本实施例中,先对目标字形进行分割,具体为:

以目标字形外轮廓稀疏点集所有外轮廓的像素点为顶点,对目标字形图像中的目 标字形区域进行三角形分割,每个三角形的三个顶点均在目标字形外轮廓稀疏点集中,两 两三角形的边线不交叉,目标字形外轮廓稀疏点集中的每一个顶点至少是一个三角形的某 一顶点,得到三角形集合

基于分割三角形对目标字形外轮廓稀疏点集进行重排序,并以三个顶角中张角最小的角度为该三角形的排序属性,对三角形从大到小排序,依次取排序后的三角形的三个顶点,得到重排序后的目标字形外轮廓稀疏点集。

其中,张角的计算过程,如公式(1)所示:

其中,

使用轮廓提取得到的第一点集中的像素点沿着联通区的边缘依次排布,对第一点集降采样得到第二点集可以提高算法计算效率,分割三角形将第二点集中的像素点与跨越局部联通区的对面点连接,基于分割三角形对第二点集中的像素点重排序有利于对目标字形区进行凸多边形分割。

对目标字形进行凸多边形分割,具体过程如下:

S331,初始设置第三点集中每个像素点的访问状态为未访问;

S332,对所述第三点集中的任一像素点

S333,统计步骤S332获取的最小外接凸多边形内包含的目标字形图像背景区域的 像素数,若该像素数小于设定阈值

S334,对所述第三点集中的像素点

S335,统计步骤S334获取的最小外接凸多边形内包含的目标字形图像背景区域的 像素数,若该像素数小于设定阈值

上述步骤为一个像素点的凸多边形分割,当分割完成后,循环执行步骤S332- S335,对第三点集中的其他像素点进行凸多边形分割,直到第三点集中每个像素点的访问 状态为已访问,并构建凸多边形区域集合

S40,求解源点集到所述第一点集的旋转、平移矩阵,并对所述源点集中各像素点 进行位置调整;位置调整后,将第一点集中与源点集中梯度方向距离小于设定阈值

在本实施例中,获取模板字形图像

迭代最近邻方法是一种基本、有效的点集位置配准方法,其实现原理和算法均开源;未配准和配准后目标字形与模板字形的相对位姿如图3所示。

位置变换后,计算目标字形外轮廓稠密点集、模板字形外轮廓稠密点集中各外轮 廓上的每个像素点的梯度方向。本发明中采用sobel算子对图像进行卷积,融合x、y方向的 图像卷积结果计算每个点的梯度方向,梯度方向范围为

根据目标字形外轮廓稠密点集、模板字形外轮廓稠密点集各像素点的梯度方向进行配准,具体如下:

对模板字形外轮廓稠密点集中的点

其中,

以对应点对中第一点集的像素点构建目标点集,采用最小二乘法求解源点集向目 标点集变换的旋转、平移矩阵

S50,获取所述源点集中各像素点的笔画类别,并其作为对应点对中第一点集的像素点的笔画类别;统计所述凸多边形区域集合中各凸多边形覆盖所述第一点集中像素点的笔画类别数目,并将笔画类别数目最多的类别作为凸多边形的笔画类别;

在本实施例中,对目标字形外轮廓稠密点集的每个轮廓的每个像素点

对于最小凸外接多边形,即凸多边形,在目标字形外轮廓稠密点集中查找被凸多 边形区域集合中最小凸外接多边形覆盖的子点集

汉字实例有13个笔画,目标字形轮廓点的对应模板字形轮廓点笔画分类为10的对应点对示例如图7所示,凸多边形可能的笔画类别有13种。

S60,新建累计笔画图像、单一笔画图像,并按照模板字形的笔画及书写顺序,将同一笔画类别的所有凸多边形绘制在单一笔画图像上,比较累计笔画图像与单一笔画图像的重叠区域,若单一笔画图像删除重叠区后仍为单一联通区,则在单一笔画图像中将重叠区去除,并将单一笔画图像添加到累计笔画图像上;将绘制后的各单一笔画图像顺序输出,作为目标字形顺序笔画拆解结果。

在本实施例中,进行目标字形顺序笔画拆解过程如下:

S61,新建累计笔画图像、单一笔画图像,累计笔画图像、单一笔画图像与目标字形图像大小相同,且为空白图像。

S62,依照模板字形的笔画书写顺序,对于笔画

对于存在笔画交叠的汉字,目标字形中的部分区域可能同时包含在不同笔画中;对于上述交叠区域,在不造成断笔的前提下,本发明只在一个笔画中显示交叠区域。

S63,对所有笔画重复执行步骤S62、S63,将绘制后的图像输出,得到目标字形顺序笔画拆解结果,如图8所示。

本发明第二实施例的一种常用字体汉字笔画拆解系统,如图2所示,包括:字形获取模块100、提取模块200、分割模块300、调整模块400、笔画类别获取模块500、输出模块600;

所述字形获取模块100,配置为获取汉字的目标字形以及模板字形,并绘制在图像上,得到目标字形图像、模板字形图像;所述目标字形为待笔画拆解的字体形状;所述模板字形为已知笔画及书写顺序的其他字体形状;

所述提取模块200,配置为提取目标字形图像中目标字形各联通区域外轮廓上的像素点,构建目标字形外轮廓稠密点集,作为第一点集;对所述第一点集中的像素点降采样,得到目标字形外轮廓稀疏点集,作为第二点集;

所述分割模块300,配置为以所述第二点集中的像素点为顶点,对目标字形图像中的目标字形进行三角形分割,并以三个顶角中张角最小的角度为三角形的排序属性进行三角形重排序,并依次取重排序后的三角形的顶点构建第三点集;对所述第三点集中的像素点进行凸多边形分割,得到凸多边形区域集合;

所述调整模块400,配置为求解源点集到所述第一点集的旋转、平移矩阵,并对所 述源点集中各像素点进行位置调整;位置调整后,将第一点集中与源点集中梯度方向距离 小于设定阈值

所述笔画获取模块500,配置为获取所述源点集中各像素点的笔画类别,并其作为对应点对中第一点集的像素点的笔画类别;统计所述凸多边形区域集合中各凸多边形覆盖所述第一点集中像素点的笔画类别数目,并将笔画类别数目最多的类别作为凸多边形的笔画类别;

所述输出模块600,配置为新建累计笔画图像、单一笔画图像,并按照模板字形的笔画及书写顺序,将同一笔画类别的所有凸多边形绘制在单一笔画图像上,比较累计笔画图像与单一笔画图像的重叠区域,若单一笔画图像删除重叠区后仍为单一联通区,则在单一笔画图像中将重叠区去除,并将单一笔画图像添加到累计笔画图像上;将绘制后的各单一笔画图像顺序输出,作为目标字形顺序笔画拆解结果。

所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的常用字体汉字笔画拆解系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的常用字体汉字笔画拆解方法。

本发明第四实施例的一种处理装置,包括处理器和存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的常用字体汉字笔画拆解方法。

所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号