首页> 中国专利> 一种基于视觉语言建模网络的场景文字识别方法

一种基于视觉语言建模网络的场景文字识别方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于视觉语言建模网络的场景文字识别方法，训练过程中，通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果，引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容，从而赋予视觉模型语言能力；因此，在不需要引入额外语言模型结构的情况下，视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征，从而提升识别能力。并且，整个字符级掩码的生成过程只需要原有的词级标注，不需要引入额外的标注信息；测试过程中只使用了主干网络和视觉语义推理模块进行识别，因此位置感知的掩码生成模块只在训练过程中使用，不引入额外的计算开销。

著录项

公开/公告号CN112541501B

专利类型发明专利
公开/公告日2021-09-07

原文格式PDF
申请/专利权人北京中科研究院;中国科学技术大学;人民网股份有限公司;
展开▼

申请/专利号CN202011502420.1
发明设计人张勇东;王裕鑫;谢洪涛;柳轩;
展开▼

申请日2020-12-18
分类号G06K9/32(20060101);G06K9/62(20060101);G06N5/04(20060101);
代理机构11260 北京凯特来知识产权代理有限公司;
代理人郑立明;韩珂
地址 100193 北京市海淀区西北旺东路10号院5号楼
入库时间 2022-08-23 12:25:49

相似文献

专利
中文文献
外文文献

1. 一种基于视觉语言建模网络的场景文字识别方法 [P] . 中国专利： CN112541501B . 2021.09.07
2. 一种基于线性约束矫正网络的场景文字识别方法 [P] . 中国专利： CN113435436A . 2021-09-24
3. A method for improved image formation based on semantic processing and dynamic scene modeling [P] . JP2021517682A . 2021-07-26

机译：一种基于语义处理和动态场景建模改进图像形成的方法
4. A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks [P] . AU2020101229A4 . 2020-08-06

机译：基于残差卷积和递归神经网络的中文场景文本行识别方法
5. SOUND MODELING AND VOICE RECOGNIZING METHOD FOR LONG-DISTANCE VOICE RECOGNITION BASED ON MULTI-INPUT DEEP NEURAL NETWORK [P] . 韩国专利： KR20180084464A . 2018-07-25

机译：基于多输入深度神经网络的长途语音识别的声音建模与语音识别方法