首页> 中国专利> 一种盲人视觉补偿方法以及实现该方法的系统

一种盲人视觉补偿方法以及实现该方法的系统

摘要

本发明公开了一种盲人视觉补偿方法以及实现该方法的系统。该系统包括模板盲用标识资源单元,模板盲用标识资源单元用于预先存储不同的盲用标识的特征数据以代表不同的信息;移动捕捉灰度图像单元,该移动捕捉灰度图像单元用于手持移动设备捕捉标识图像;定位盲用标识单元,该定位盲用标识单元用于定位所捕捉的图像中的盲用标识;识别盲用标识单元,该识别盲用标识单元用于识别已定位到的盲用标识;语音合成输出单元,该音合成输出单元用于将已定位到的盲用标识中所包含的信息以语音形式输出。该系统在计算性能较弱的终端平台同样能保证良好的实时性。

著录项

  • 公开/公告号CN102090947A

    专利类型发明专利

  • 公开/公告日2011-06-15

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201110033786.3

  • 发明设计人 朱珍民;唐熊;陈援非;何哲;叶剑;

    申请日2011-01-31

  • 分类号A61F9/08;G06K9/00;G10L13/00;

  • 代理机构北京律诚同业知识产权代理有限公司;

  • 代理人祁建国

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-12-18 02:39:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-09-11

    授权

    授权

  • 2011-08-10

    实质审查的生效 IPC(主分类):A61F9/08 申请日:20110131

    实质审查的生效

  • 2011-06-15

    公开

    公开

说明书

技术领域

本发明涉及一种盲人视觉补偿方法以及实现该方法的系统,尤其是涉及一种基于快速图像识别的盲人视觉补偿系统和补偿方法用于向盲人用户提供随时随地的场景识别分析与导盲服务,在残疾人信息无障碍研究领域的场景感知方向提出了一种实现方案。

背景技术

图像识别技术可以帮助盲人感知生活场景,在移动计算环境下更加能够发挥导盲助残作用。传统的图像识别通常经过均衡化、降噪、锐化、纹理检测等数据处理,这样庞大的计算量适合用于PC或者DSP平台。对于以手机为代表的移动计算环境,传统图像识别技术应用于导盲助残领域实现困难。

专利申请号200910053318.5,名称为“DSP路牌识别导盲装置及其方法”公开了一种实现导盲功能的系统和方法。该方法使用直方图均衡化、二值化、去点状噪声、梯度锐化、纹理检测、图像旋转的方法对摄像头采集的图像进行预处理,定位具有箭头特征的路牌图像区域;对路牌图像区域进行字符分割;对分割的字符进行特征模板匹配;语音提示路牌字符。

上述专利方法用于识别道路上提示方向的路牌,识别对象单一;使用了直方图均衡化、二值化、去点状噪声、梯度锐化、纹理检测、图像旋转等数字信号处理算法,并且需要对每个字符进行模板匹配,计算量大,适用于DSP或者PC平台。

发明内容

本发明所要解决的问题在于提供一种基于盲用标识定位、识别算法简单,能识别多种类别的生活场景,而且具备可扩展性;在计算性能较弱的终端平台同样能保证良好实时性的导盲系统和导盲方法。

为实现本发明目的而提供的一种盲人视觉补偿系统,包括:

模板盲用标识资源单元,用于预先存储不同的模板盲用标识的特征数据,这些模板盲用标识对应盲人识别环境所用的不同的物体;

捕捉灰度图像单元,用于盲人使用手持移动设备拍摄周边环境图像,并将拍摄的图像处理成灰度图像;

定位周边盲用标识单元,用于在定位所述灰度图像中的所有周边盲用标识以及所述周边盲用标识与盲人间的相对方向和距离;

识别周边盲用标识单元,用于将所述灰度图像中已定位的的周边盲用标识与模板盲用标识对比,以确认盲人所处环境周围包含的可以对应物体信息的模板盲用标识;

语音合成输出单元,用于为盲人以声音形式获得上述定位周边盲用标识单元和识别周边盲用标识单元提供的物体信息。

模板盲用标识资源单元包括:

多类别的模板盲用标识,其中包含数字类,交通标识类,生活用品类,安全提示类,体育场馆设施类,公共场所设施类;

模板盲用标识工具,用于生成与所述多类别的模板盲用标识对应的特征数据;

模板盲用标识特征数据库,用于存储所述盲用标识工具得到的包含特征值,能量值,盲用标识名称、类别的特征数据。

所述移动捕捉灰度图像单元包括:

原始图像数据采集模块,用于拍摄盲人周边环境图像;

灰度图像图像处理模块,用于将拍摄到的周边环境图像处理成灰度图像。

所述识别周边盲用标识单元,其特征识别算法步骤是:对周边盲用标识区域去边界;利用插值算法缩小去边界后的周边盲用标识图形,归一化为64x64;计算归一化图形去均值后的能量;计算64x64像素图像与模板盲用标识特征数据库中的图形互相关系数,选择互相关值最大的模板盲用标识作为识别结果。

所述语音合成输出单元包括:

待合成的文本,该文本与模板盲用标识的特征信息对应;

语音合成引擎,将待合成的文本合成为语音信息;

语音输出设备,将语音信息以声波形式传递到盲人耳中。

本发明还提供了一种盲人视觉补偿方法,包括:

步骤1:使用模板盲用标识资源单元预先存储不同的模板盲用标识的特征数据,这些模板盲用标识对应盲人识别环境所用的不同的物体信息;

步骤2:盲人使用手持移动设备拍摄周边环境图像,并将拍摄的图像处理成灰度图像;

步骤3:使用定位盲用标识单元定位所述灰度图像中周边盲用标识与盲人间的相对方向和距离;

步骤4:使用识别盲用标识单元将所述灰度图像中的周边盲用标识与模板盲用标识对比,以确认盲人所处环境周围包含的可以对应物体信息的模板盲用标识;

步骤5:使用语音合成输出单元为盲人以声音形式获得定位周边盲用标识单元和识别周边盲用标识单元提供的物体信息。

所述步骤1包括如下步骤:

步骤1.1:设计数字类,交通标识类,生活用品类,安全提示类,体育场馆设施类,公共场所设施类的多类别的模板盲用标识;

步骤1.2:使用模板盲用标识工具生成与所述多类别的模板盲用标识对应的特征数据;

步骤1.3:使用模板盲用标识特征数据库存储所述盲用标识工具生成的包含特征值,能量值,盲用标识名称、类别的特征数据。

所述步骤2包括:

步骤2.1:使用原始图像数据采集模块拍摄盲人周边环境图像;

步骤2.2:使用灰度图像图像处理模块将拍摄到的周边环境图像处理成灰度图像。

所述步骤3包括:

首先执行步骤301从黑白图像的中间行开始行扫描;判断发现有效边框点302,如果找到两个有效边框点,就从两个点的中间位置开始列扫描以定位周边盲用标识303,如果不是有效边框点则判断是否扫描到达图像边界304,如果是则执行步骤305,如果不是进行下一轮行扫描返回步骤301,直到图像边界为止执行步骤305从黑白图像中间列开始列扫描;判断是否发现有效边框点306;如果找到两个有效边框点,则从两个点的中间位置开始行扫描以定位周边盲用标识307,如果不是有效边框点则判断是否扫描到达图像边界308,不是的话,进行下一轮列扫描返回步骤305,直到图像边界为止执行步骤309输出周边盲用标识定位结果。

所述步骤4包括:

步骤4.1:对周边盲用标识区域去边界;

步骤4.2:利用插值算法缩小去边界后的周边盲用标识图形,归一化为64x64;

步骤4.3:计算归一化图形去均值后的能量;

步骤4.4:计算64x64像素图像与模板盲用标识特征数据库中的特征值图形的互相关系数,选择互相关值最大的模板盲用标识作为识别结果。

所述步骤5包括:

步骤5.1:使用语音合成引擎将待合成的文本合成为语音信息;

步骤5.2:使用语音输出设备将语音信息以声波形式传递到盲人耳中。

附图说明

图1是本发明的系统图;

图2是本发明整个处理流程图;

图3-5是本发明中不同类型的模板盲用标识;

图6是本发明中更多类型的模板盲用标识;

图7是本发明中处理盲用标识图片的流程图;

图8是本发明中不同角度的模板盲用标识;

图9是本发明中灰度图像捕捉流程参图;

图10是本发明中主程序与动态链接库之间的交互图;

图11是本发明中定位算法流程;

图12是本发明中周边盲用标识九宫格图;

图13是本发明中语音合成输出流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种盲人视觉补偿方法以及实现该方法的系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

按照功能,整个系统和方法可分为五个部分附图1为本发明的系统图,图2为本发明的整个处理流程图:

建立模板盲用标识特征库100

模板盲用标识资源单元1通过盲用标识识别场景,附图3,4,5。不同模板盲用标识代表不同场景,比如男子可以代表男厕所,飞机可以代表飞机场,书可以代表图书馆,电话可以代表公用电话亭等。实际使用中,模板盲用标识必须出现在其代表的场景中。通过盲用标识工具SignSample,可以得到更多的模板盲用标识的特征,把这些特征添加到特征库中,从而更多的模板盲用标识可以被本系统识别,如附图6中图标。通过盲用标识工具处理模板盲用标识图片即输入模板盲用标识101,得到并保存64x64的模板特征数据102。使用流程如附图7。处理完毕,特征数据用一组数据结构表式:

Struct SsignSample{

wchar_t*name;

wchar_t*class;

short image[64*64];

double energy;

}

name是模板盲用标识名称,class是模板盲用标识类别,image数组包括了模板盲用标识灰度图像,energy是模板盲用标识图像去均值后能量。每个模板盲用标识有4组数据结构,对应向上,向左,向右,向下四个方向的图像特征,因此模板盲用标识旋转90、180、270都可以识别。如附图8所示。

灰度图像捕捉200

灰度图像捕捉单元2执行该过程包含一主程序210和一动态链接库220,主程序包括了图像处理模块,算法模块和语音输出模块,动态链接库包括图像获取和摄像头控制模块。灰度图像捕捉流程参照附图9。首先摄像头驱动201,然后进行视频采集202,最后进行图像数据处理203从而得到图像数据流。动态链接库提供了五个接口给主程序:建立数据会话,销毁数据会话,数据会话开始数据流动,数据会话暂停数据流动,注册主程序的回调函数。主程序与动态链接库之间的交互如附图10所示。首先初始化界面211,然后建立数据会话212,注册回调函数213,激活数据会话214,图像处理算法识别215。其中图像处理算法识别模块从动态链接库220中回调函数处获取图像视频流。在建立数据会话212和激活数据会话214的步骤中,使用了动态链接库提供的建立数据会话命令和开始数据会话命令。如果采集RGB数据,在识别盲用标识区域之前,需要从RGB数据得到灰度图像数据,Y=0.30R+0.59G+0.11B。

定位周边盲用标识300

定位周边盲用标识单元3在执行该步骤时,首先执行步骤301从黑白图像的中间行开始行扫描;判断发现有效边框点302,如果找到两个有效边框点,就从两个点的中间位置开始列扫描以定位周边盲用标识303,如果不是有效边框点则判断是否扫描到达图像边界304,如果是则执行步骤305,如果不是进行下一轮行扫描返回步骤301,直到图像边界为止执行步骤305从黑白图像中间列开始列扫描;判断是否发现有效边框点306;如果找到两个有效边框点,则从两个点的中间位置开始行扫描以定位周边盲用标识307,如果不是有效边框点则判断是否扫描到达图像边界308,不是的话,进行下一轮列扫描返回步骤305,直到图像边界为止执行步骤309输出周边盲用标识定位结果。

假设图像大小800*600,依次扫描图像第(300±n*5)行(n=0,1,…,59),定位周边盲用标识区域,如果周边盲用标识区域未被识别单元处理过,则截取周边盲用标识,规范化为64*64大小的图像;为了确保能定位到图像中的所有盲用标识,以同样方法再作一次列扫描。依次扫描图像第(400±n*5)列(n=0,1,…,79),定位盲用标识区域,如果盲用标识区域未被识别周边盲用标识单元处理过,则由识别模块截取该区域,规范化为64*64大小的图像;计算截取周边盲用标识与各个模板盲用标识的去均值规范化互相关系数;选择相关系数最大的模板盲用标识作为结果。定位算法流程参照附图11。截取和规范化图像区域,算法如下:

源图像区域左上角(x1,y1);

源图像区域右上角(x2,y2);

源图像区域右下角(x3,y3);

源图像区域左下角(x4,y4);

目标图像(x,y)(x=0,1,…,63;y=0,1,…,63);

计算源图像上边插值点:(x1+(x/64)*(x2-x1),y1+(y/64)*(y2-y1));

计算源图像下边插值点:(x4+(x/64)*(x4-x3),y4+(y/64)*(y4-y3));

计算经过上下插值点的直线方程L1;

计算源图像左边插值点:(x1+(x/64)*(x4-x1),y1+(y/64)*(y4-y1));

计算源图像右边插值点:(x2+(x/64)*(x3-x2),y2+(y/64)*(y3-y2));

计算经过左右插值点的直线方程L2;

计算源图像上,直线L1和L2的交点(x’,y’);

双线性插值,计算源图像(x′,y′)的灰度:作为目标图像(x,y)处灰度。

计算盲用标识区域方位和距离如下方式:

盲用标识区域左上角(x1,y1);

盲用标识区域右上角(x2,y2);

盲用标识区域右下角(x3,y3);

盲用标识区域左下角(x4,y4);

盲用标识区域中心点(x1+x2)/2,(y1+y4)/2,利用九宫图算法确定中心点的方位,以中心点的方位作为盲用标识相对盲人用户的方位。所述九宫格参照附图12。

识别周边盲用标识400

识别周边盲用标识单元4截取由定位模块得到的图像中所有的周边盲用标识区域,并且规范化为64*64大小的图像。图像去均值后能量公式MeanEnergy:

Σi=1n(Vi-V)2,V=Σi=1nVi/n.

两图像去均值归一化互相关系数NCC:

设:模板图像T(x,y),(x=0,1,…,63;y=0,1,…,63)

截取的图像S(x,y),(x=0,1,…,63;y=0,1,…,63)

则:NCC(T,S)为:

NCC(S,T)=ΣxΣy(T(x,y)-T)(S(x,y)-S)ΣxΣy(T(x,y)-T)2×ΣxΣy(S(x,y)-S)2

其中T′=∑xyT(x,y)/4096,S′=∑xyS(x,y)/4096。

将生成最大互相关系数NCC的模板盲用标识作为识别结果。

语音合成输出500

语音合成输出单元5将识别的结果传送至语音合成引擎从而生成语音数据给盲人用户提供随时随地的场景识别分析与导盲服务。语音合成输出流程图参加附图13。首先将待合成的文本510输入到语音合成引擎520最后将合成的语音信息输出设备530.

通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号