首页> 中国专利> 一种用于场景图检测的关系图学习方法

一种用于场景图检测的关系图学习方法

摘要

本发明公开了一种用于场景图检测的关系图学习方法。本发明步骤:1、对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系;2、分别对数据集Ⅰ中的每张图像用目标检测网络Faster R‑CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;3、利用关系提取网络对得到的关系数据进行筛选,过滤冗余信息关系和无效性关系;4、构建一个关系图注意力网络,该网络由两部分组成:视觉‑空间图注意力子网络和语义‑空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。本发明实验结果表明比现有的最优方法效果提升数个百分点。

著录项

  • 公开/公告号CN113139423A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202110256665.9

  • 发明设计人 俞俊;张昊文;李亚楠;

    申请日2021-03-09

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱月芬

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明提到了一种用于场景图检测的关系图学习方法(Relationship GraphLearning Network For Scene Graph Detection),主要涉及一种利用图注意力网络,对得到图片中的视觉信息、语义信息、空间信息进行融合从而学习预测目标之间关系的方法,以构建一个与人工评价结果更加一致的准确率较高的场景图关系检测方法。

背景技术

视觉关系检测的目的是检测图像中的物体并预测物体之间的关系。近年来,视觉关系检测一直是一个热门话题,在视觉关系检测中,关系一般表示为主语、谓词和宾语的三元组,例如,女人-戴-帽子。

大多数视觉关系检测方法仅利用两个物体之间的特征来计算两个物体之间的关系。然而,这些方式忽略了整个图像的全局信息。最近,视觉关系检测方法通常专注于探索图像组件之间的相关性。图像组件包含图像里对象和对象之间的关系。然而,大多数当前的方法只利用了对象之间的相关性,和他们仍然忽视关系之间的相关性。因此这些方法可以建模对象之间的相关性,比如利用图像中女人的共现,但是不能建模关系之间的相关性,比如从刀-在-桌,与盘子-在-桌这两对三元组去推测出盘子-相邻-刀,据我们所知,只有少数方法试图探索对象之间关系的相关性,然而大多数这些方法,没有达到令人满意的结果。如何有效地建模对象之间的关系仍然是一个挑战。

发明内容

本发明的目的是针对现有技术的不足,提供一种利用图注意力网络进行建模用于场景图关系检测的方法。对两个个大型目标检测数据集VG,VRD上进行了有效性验证。实验结果表明比现有的最优方法效果提升数个百分点。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤(1)数据预处理

对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;

步骤(2)目标提取和关系检测

分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;

步骤(3)关系提取

利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;

步骤(4)关系图学习

构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。

进一步的,步骤(1)所述的数据预处理:

1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;

1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;

1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。

进一步的,步骤(2)所述的目标提取和关系检测:

2-1、通过Faster R-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:

2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;

2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;

2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;

2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。

进一步的,步骤(3)所述的关系提取:

首先假设(O

进一步的,步骤(4)所述的关系图学习:

4-1、首先定义关系图注意力网络,网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络;

4-2、在视觉-空间图注意力子网络中,每一个关系提议都由视觉特征和空间特征进行初始化;视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到,而空间特征由成对目标的相对位置和区域相对位置计算得出;利用图注意力网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;

4-3、在语义-空间图注意力子网络中,每一个关系提议都由语义特征和空间特征进行初始化;首先根据Faster R-CNN得到目标的类别,其次通过将类别送入Glove得到语义特征,一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到;而空间特征由成对目标的相对位置和区域相对位置计算得出;然后利用图注意网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;

4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果,根据最终关系分数确定关系;

4-5、最终实验结果在VRD数据集上,phrase detection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%。

进一步的,所述的空间特征计算如下:

假设有一个三元组(s,o,u),其中s,o,u分别表示目标1、关系、目标2,则此时定义位置信息为(x

本发明有益效果如下:

本发明达到了目前目标检测中多个任务的最优结果,并且大型目标检测数据集VG上表现也十分优异,因此在做相关工作时,利用本发明在目标检测工作上可以获得较高的正确率,与人类主观评分的一致性也较强。本发明最终实验结果在VRD数据集上,phrasedetection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%;

附图说明

图1是利用图注意力网络进行场景图检测的流程示意图;

图2是利用模型具体学习到的结果;

具体实施细节

下面结合附图对本发明做进一步说明。

如图1所示,一种用于场景图检测的关系图学习方法,具体包括如下步骤:

步骤(1)数据预处理

对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;

步骤(2)目标提取和关系检测

分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;

步骤(3)关系提取

利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;

步骤(4)关系图学习

构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。

进一步的,步骤(1)所述的数据预处理:

1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;

1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;

1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。

进一步的,步骤(2)所述的目标提取和关系检测:

2-1、通过FasterR-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:

2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;

2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;

2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;

2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。

进一步的,步骤(3)所述的关系提取:

首先假设(O

进一步的,步骤(4)所述的关系图学习:

4-1、首先定义关系图注意力网络,网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络;

4-2、在视觉-空间图注意力子网络中,每一个关系提议都由视觉特征和空间特征进行初始化;视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到,而空间特征由成对目标的相对位置和区域相对位置计算得出;利用图注意力网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;

4-3、在语义-空间图注意力子网络中,每一个关系提议都由语义特征和空间特征进行初始化;首先根据Faster R-CNN得到目标的类别,其次通过将类别送入Glove得到语义特征,一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到;而空间特征由成对目标的相对位置和区域相对位置计算得出;然后利用图注意网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;

4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果,根据最终关系分数确定关系;

4-5、最终实验结果在VRD数据集上,phrase detection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%。

实施例1:

如图2所示,‘盘子在桌子上’具体为:目标1“盘子”、关系“在...上”、目标2“桌子”;‘刀在桌子上’具体为:目标1“刀”、关系“在...上”、目标2“桌子”;通过‘盘子在桌子上’、‘刀在桌子上’这两对关系,本发明模型能够学习到新的关系为‘盘子挨着刀’。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号