首页> 中国专利> 一种视觉语言室内导航方法、系统、终端及应用

一种视觉语言室内导航方法、系统、终端及应用

摘要

本发明属于视觉语言导航技术领域,公开了一种视觉语言室内导航方法、系统、终端及应用,利用序列到序列的方法,将自然语言命令和视觉信息相结合,分别对自然语言命令信息和视觉图像信息进行特征提取,在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。本发明采用结合机器人的视觉信息和自然语言的信息来进行机器人的室内导航,采用注意力机制使得机器人能够更有效的理解人的语言指令并结合视觉信息,使机器人能按照人类的指令到达目的地,完成任务。本发明主要通过设计一种注意力机制,这种机制可以有效的利用自然语言和视觉信息相结合来实现机器人在未知的室内寻找到一条最优的路径。

著录项

  • 公开/公告号CN112710310A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 深圳龙岗智能视听研究院;

    申请/专利号CN202011428332.1

  • 申请日2020-12-07

  • 分类号G01C21/20(20060101);

  • 代理机构11440 北京京万通知识产权代理有限公司;

  • 代理人万学堂;魏振华

  • 地址 518116 广东省深圳市龙岗区龙城街道腾飞路龙岗创投大厦37楼

  • 入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明属于视觉语言导航技术领域,尤其涉及一种视觉语言室内导航方法、系统、终端及应用。

背景技术

目前:视觉语言导航技术是一项最近发展起来的智能导航方法,这项导航任务要求机器人在给定的语言指令下,从一个初始的随机位置,利用自己获取的视觉图像信息到达指定的目标技术。例如,给机器人一个命令“沿着走廊直走,进入右边的卧室,停在卧室的床边”,机器人便遵循指令,结合自己观测到视觉不断调整前进的方向,直到到达目的地。其方法可以广泛应用于无人驾驶汽车、智能机器人以及无人送货送餐车等多个场景。与直接基于视觉导航的任务不同,基于视觉语言的导航要求使用综合的使用自然语言信息和计算机视觉信息,通过机器人不断的与所获取的环境进行交互,获取所处环境的必要信息,进而完成人类给的指定任务。在综合了自然语言信息和计算机视觉信息的要素后,智能体还需要对自己的行动进行规划。

通过上述分析,现有技术存在的问题及缺陷为:现有技术一方面由于数据繁杂而带来的计算力需求的提升,另一方面,多个维度的输入信息导致关键信息提取困难,同时还需要面临着网络的复杂高的问题,降低了提取信息的准确率和效率。

解决以上问题及缺陷的难度为:解决该类问题主要难度是:存在系统复杂,信息输入维度较高,尤其涉及自然语言处理和计算机视觉两大人工智能分支领域,改进难度较高,具有一定的挑战性。

解决以上问题及缺陷的意义为:解决上述信息繁杂,关键信息提取不到问题,可以有效的减少计算的复杂度,提升导航的效果,减少了噪音和无用特征对模型的干扰,提高了模型的效率,增加了模型的准确率。

发明内容

针对现有技术存在的问题,本发明提供了一种视觉语言室内导航方法、系统、终端及应用。

本发明是这样实现的,一种视觉语言室内导航方法,所述视觉语言室内导航方法利用序列到序列的方法,将自然语言命令和视觉信息相结合,分别对自然语言命令信息和视觉图像信息进行特征提取,在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。

进一步,所述视觉语言室内导航方法将自然语言命令信息和视觉图像信息进行融合编码,让深度模型关注某个局部信息;即从大量信息中有选择的筛选出局部信息,并聚焦在这些局部信息当中,其中涉及对特征向量进行编码,然后再对向量进行解码,解码后成为机器人行动的指令。

进一步,所述视觉语言室内导航方法具体包括:

第一步,初始化,将语言描述指令输入给机器人中,机器人位于初始位置;

第二步,利用LSTM提取语言描述指令的自然语言特征;

第三步,利用自然语言注意力机制对语言描述指令关键信息进行提取,筛除无关信息的干扰;

第四步,对于获取到的图像,利用CNN卷积神经网络对计算机视觉特征进行提取;

第五步,利用视觉注意力机制从获取的第四步中的视觉特征中提取视觉的关键信息;

第六步,将提取的第五步中的视觉关键信息和第三步中的语言描述指令的关键信息进行相互融合;

第七步,再次利用注意力机制对第六步中融合后的特征进行关键信息的提取;

第八步,对于从第七步获得关键信息进行解码评估,获得机器人的前进方向;

第九步,重复第二步-第八步;

第十步,到达目的地,停止前进。

进一步,所述视觉语言室内导航方法采取经典卷积神经网络ResNet-50网络进行特征提取,ResNet-50提取特征前,经过国际知名图像数据集ImageNet的数据进行预训练,经过训练的ResNet-50用来提取特征向量,对于t时刻机器人观测的全景图像的特征向量V

利用注意力机制提取注意力特征向量v

v

演化后:

v

H

其中v

进一步,所述视觉语言室内导航方法对于输入的一串自然语言指令W(w

Y

进一步,所述视觉语言室内导航方法通过分别对机器人视觉信息和自然语言信息进行编码提取后,再对机器人视觉信息和自然语言信息的特征向量进行融合的注意力提取,融合提取的所有信息加上机器人历史信息,评估下一步机器人进行的步骤,前进方向的概率P,并根据最大的概率决定机器人最应该走的方向:

D

P=softmax([H

其中D

本发明的另一目的在于提供一种机器人视觉语言导航信息数据处理终端,所述机器人视觉语言导航信息数据处理终端用于实现所述的视觉语言室内导航方法。

本发明的另一目的在于提供一种实施所述视觉语言室内导航方法的视觉语言室内导航系统,所述视觉语言室内导航系统包括:

命令和信息结合模块,用于利用序列到序列的方法,将自然语言命令和视觉信息相结合;

特征提取模块,用于分别对自然语言命令信息和视觉图像信息进行特征提取;

关键信息筛选模块,用于在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:注意力机制是一种借鉴人类注意力的一种方法,当人类大脑在处理视觉信息的时候,人类大脑会快速扫描全局图像,获取到需要关注的重点区域,人类的这种注意力机制极大的提高了视觉处理的效率以及准确率。注意力机制的目的是从众多的信息中选出具有重要意义的关键信息,这种注意力机制最早被自然语言处理所借鉴,目的是筛选出具有重要语义的词组。后来,注意力机制广泛应用于语音识别、图像处理等多个场景中。本发明采用结合机器人的视觉信息和自然语言的信息来进行机器人的室内导航,采用注意力机制使得机器人能够更有效的理解人的语言指令并结合视觉信息,使机器人能按照人类的指令到达目的地,完成任务。本发明主要通过设计一种注意力机制,这种机制可以有效的利用自然语言和视觉信息相结合来实现机器人在未知的室内寻找到一条最优的路径。

本方明提出的视觉语言室内导航任务中需要利用自然语言命令信息和视觉图像信息相结合,而数据量大涉及的关键信息较多,如果不利用注意力机制,将会由于数据繁杂而带来的计算力需求的提升,而且还需要面临这网络的复杂高的问题。为了提高提取信息的准确率和效率,本发明提出了基于注意力机制的视觉语言室内导航方法。

本发明将自然语言命令信息和视觉图像信息进行融合编码,让深度模型关注某个局部信息。即从大量信息中有选择的筛选出局部信息,并聚焦在这些局部信息当中,其中涉及对特征向量进行编码,然后再对向量进行解码,解码后成为机器人行动的指令。其中在对特征向量编码过程中采用了注意力机制,自然语言和计算机视觉的特征的注意力机制的提取是不同的,而融合后的特征也需要注意力进行关键信息进行提取,使得编码效率更高,提取的信息更有价值。

本发明提供先进的视觉语言的机器人的室内导航方法,这种方法有效的结合了自然语言命令和视觉信息相结合,能让机器人在未知的室内空间按照人类的命令到达目的地,使得导航的更接近真实场景的应用。本发明设计了注意力机制,由于视觉语言室内导航需要获取大量自然语言信息和视觉信息,注意力机制可以对语言特征和视觉特征进行提炼,精炼了获得的信息,使得获得的特征更加精细。减少了噪音和无用特征对模型的干扰,提高了模型的效率,增加了模型的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视觉语言室内导航方法流程图。

图2是本发明实施例提供的视觉语言室内导航系统的结构示意图;

图中:1、命令和信息结合模块;2、特征提取模块;3、关键信息筛选模块。

图3是本发明实施例提供的视觉语言室内导航方法的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种视觉语言室内导航方法、系统、终端及应用,下面结合附图对本发明作详细的描述。

如图1所示,本发明提供的视觉语言室内导航方法包括以下步骤:

S101:利用序列到序列的方法,将自然语言命令和视觉信息相结合;

S102:分别对自然语言命令信息和视觉图像信息进行特征提取;

S103:在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。

本发明提供的视觉语言室内导航方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的视觉语言室内导航方法仅仅是一个具体实施例而已。

如图2所示,本发明提供的视觉语言室内导航系统包括:

命令和信息结合模块1,用于利用序列到序列的方法,将自然语言命令和视觉信息相结合;

特征提取模块2,用于分别对自然语言命令信息和视觉图像信息进行特征提取;

关键信息筛选模块3,用于在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示,本发明提出的方法主要应用于机器人语言视觉导航模块,不涉及整个机器人的设计,目前其实施方法主要依靠计算机进行模拟实现该模块,具体包括以下步骤:

第一步,初始化,将语言描述指令输入给机器人中,机器人位于初始位置;

第二步,利用LSTM提取语言描述指令的自然语言特征;

第三步,利用自然语言注意力机制对语言描述指令关键信息进行提取,筛除无关信息的干扰;

第四步,对于获取到的图像,利用CNN卷积神经网络对计算机视觉特征进行提取;

第五步,利用视觉注意力机制从获取的第四步中的视觉特征中提取视觉的关键信息;

第六步,将提取的第五步中的视觉关键信息和第三步中的语言描述指令的关键信息进行相互融合;

第七步,再次利用注意力机制对第六步中融合后的特征进行关键信息的提取;

第八步,对于从第七步获得关键信息进行解码评估,获得机器人的前进方向;

第九步,重复第二步-第八步;

第十步,到达目的地,停止前进。

在本发明中,对于计算机视觉图像,本发明采取ResNet-50网络进行特征提取,ResNet-50提取特征前,经过ImageNet的数据进行预训练,经过训练的ResNet-50用来提取特征向量,对于t时刻机器人观测的全景图像的特征向量V

利用注意力机制提取注意力特征向量v

v

演化后:

v

H

其中v

在本发明中,对于输入的一串自然语言指令W(w

Y

在本发明中,通过分别对机器人视觉信息和自然语言信息进行编码提取后,因为自然语言信息是对视觉信息的高度描述,二者相关性很好,再对二者的特征向量进行融合的注意力提取,然后融合提取的所有信息加上机器人历史信息,评估下一步机器人进行的步骤,前进方向的概率P,并根据最大的概率决定机器人最应该走的方向:

D

P=softmax([H

其中D

本发明在公开的模拟数据集R2R上对本发明的效果进行测试,该数据集收集了99个不同场景的数据,测试结果显示,本发明提出的方法对导航性能有明显的提升,本发明测试效果如表1。

表1测试效果

表1中,Our表示本发明提出的方法,seq2seq表示现有基础的导航方法,RCM表示其它的知名的导航方法。TL是指路径长度评测,NE是指导航误差评测,OSR是指数据库成功率,SR表示成功率,SPL是指反向路径长度的加权成功率,这五个指标均是国际评测导航精度的公认指标。箭头向下表示该评测标准下值越小越好,而箭头朝上则刚好相反,表示该评测标准下,值越大越好,加粗字体表示获得最好的结果。从表中可以看出,在五个评测指标中,有四个指标中本发明提出的方法获得最优,有一个指标,本发明获得次优。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号