首页> 中国专利> 一种基于视觉语言建模网络的场景文字识别方法

一种基于视觉语言建模网络的场景文字识别方法

摘要

本发明公开了一种基于视觉语言建模网络的场景文字识别方法,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,整个字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,不引入额外的计算开销。

著录项

  • 公开/公告号CN112541501B

    专利类型发明专利

  • 公开/公告日2021-09-07

    原文格式PDF

  • 申请/专利号CN202011502420.1

  • 发明设计人 张勇东;王裕鑫;谢洪涛;柳轩;

    申请日2020-12-18

  • 分类号G06K9/32(20060101);G06K9/62(20060101);G06N5/04(20060101);

  • 代理机构11260 北京凯特来知识产权代理有限公司;

  • 代理人郑立明;韩珂

  • 地址 100193 北京市海淀区西北旺东路10号院5号楼

  • 入库时间 2022-08-23 12:25:49

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号