首页> 中国专利> 一种基于RGB数据的单视角和多视角三维重建方法及装置

一种基于RGB数据的单视角和多视角三维重建方法及装置

摘要

一种基于RGB数据的单视角和多视角三维重建方法及装置,能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。方法包括:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

著录项

  • 公开/公告号CN112365581A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011281969.2

  • 申请日2020-11-17

  • 分类号G06T17/00(20060101);

  • 代理机构11388 北京市中闻律师事务所;

  • 代理人冯梦洪

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及图像处理的技术领域,尤其涉及一种基于RGB数据的单视角和多视角三维重建方法,以及基于RGB数据的单视角和多视角三维重建装置。

背景技术

基于计算机视觉技术的三维物体重建在人类生活的众多领域得到广泛应用,如人机交互、虚拟现实、增强现实和医疗诊断等。

目前,基于RGB的三维物体重建方法主要分为传统方法和基于深度学习的方法。

传统的三维重建方法的核心环节是多视图图像特征匹配,重建模型质量高度依赖特征匹配精度。但是,由于外观变化或自遮挡,使得不同视点图像差异较大,因此很难建立精确稠密的特征对应关系。而且,重构的三维形状通常是一个没有几何细节的稀疏点云,精度待提升。此外,传统的三维重建方法涉及的环节较多,一般主要包括图像预处理,特征的计算与配准,数据融合,纹理映射等,导致环节之间的误差传递积累,最后严重影响重建效果。

基于深度学习的特征提取及三维模型重建克服了上述传统方法中的弊端,从而受到广泛关注。与此同时此类方法随着大量三维计算机辅助设计模型的出现而飞速发展。例如基于循环神经网络的三维重建方法将三维重建看作序列学习问题,使用循环神经网络去融合从输入图像提取的深度特征从而去重建三维形状;但是这类方法在给定不同顺序的输入图像时,三维重建结果存在差异,不能保证三维重建形状的一致性。为了克服这个问题,基于编码器-解码器结构的生成网络的三维重建方法被提出,即用编码器映射二维图像得到潜在特征表示,解码器将潜在特征表示解码得到一个三维形状;但是此类方法是针对每个输入视图单独处理,提取当前输入独有的潜在特征,没有充分利用与特定类别关联的视图共有信息,同时也没有明确利用物体可见部分和遮挡部分相关的几何线索和感知线索,比如模型的几何对称性。这些局限性限制了精细化三维重建的实现。

发明内容

为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于RGB数据的单视角和多视角三维重建方法,其能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。

本发明的技术方案是:这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:

(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;

(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

本发明将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。

还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:

三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;

体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

附图说明

图1示出了根据本发明的基于RGB数据的单视角和多视角三维重建装置的总体框架图。

图2示出了单视角的图连接关系。

图3示出了多视角的图连接关系。

图4示出了ShapeNet数据集上单视角重建结果。

图5示出了ShapeNet数据集上多视角重建结果。

具体实施方式

这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:

(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;

(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

本发明将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。

如图1所示,还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:

三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;

体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

优选地,所述三维体素重建模块包括两个编码-解码网络,一个融合模块;其中第一编码-解码网络中的编码器E

优选地,所述第一编码-解码网络中,对于n个视角的输入图像

其中p

优选地,所述第二编码-解码网络中,将输入图像

优选地,所述融合模块中,分别通过共性和个性的上下文打分网络对

为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为公式(2):

其中N表示三维物体中体素的数量,p

优选地,所述体素精细化模块中,

使用图卷积公式:

其中σ表示激活函数,X

其中

优选地,对于公开数据集ShapeNet,其中的大多数模型是呈对称性的,其x-y平面是对称面,其他两个x-z,y-z坐标平面都是非对称平面;对于每一个尺度d

优选地,对于三维体素优化模块,损失函数包括重建损失和对称约束;重建损失为loss

其中k表示对称切片对的数量,s

以下更详细地说明本发明。

本发明主要包括三个关键的技术点:1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;2)在初始化三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建;3)基于体素注意力图结构,利用精心设计的多尺度图卷积对初始体素进行细化处理。

1.融合个性潜在特征和共性潜在特征的三维体素重建模块

三维体素重建模块主要负责提取输入视图本身的个性潜在特征和其属于特定类别的共性潜在特征,生成个性初始三维体素和共性初始三维体素。这些潜在特征包含丰富的指导信息,消除了信息不足对恢复三维形状的影响。此外,为了获得共性潜在特征,从域自适应角度提出了一种有效的域混淆方法,通过约束潜在特征支持体素对象分类到特定的类别内,从而获取该体素所共有的类别共性特征。在得到个性初始三维体素和共性初始三维体素后,利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。

该模块主要由两个编码-解码网络,一个融合模块组成,具体如图1上部所示。其中编码器E

其中p

另一个编码器E

在得到个性粗糙三维体素和共性粗糙三维体素后,利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。具体来说,分别通过共性和个性的上下文打分网络对

为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量。更具体地,它可以被定义为:

其中N表示三维物体中体素的数量。p

2.图卷积的体素精细化模块:

经过体素重建模块,得到同一物体不同视角下的初始化三维体素。三维对象具有局部连续性和内部关联性。为了获取这些关系,设计了多尺度图U-Net来精细化体素,这种方法可以捕获更丰富的三维体素局部之间的依赖关系,探索细节信息,最终得到完整的合理的三维体素。

使用的图卷积公式如下:

其中σ表示激活函数,X

其中

三维体素的局部特征之间具有关联关系,这对于三维体素细化也是必不可少的指导信息。因此,利用对称性将体素数据建模为二维切片序列来构造图结构,从而捕获相关依赖关系最终得到可靠的三维体素。设计的多尺度图U-Net网络结构如图1下部所示。编码器是由三个编码块组成,每个编码块包含一个GCN层和一个图池化层。解码器由三个解码块组成,每个解码块包含一个GCN层和一个图解池化层。在编码器和解码器的对应块之间有跳跃连接,它将空间信息从编码器传输到解码器以获得更好的解码性能。三维体素的尺度变化依次为32

日常物体往往具有全局对称性,这一性质有利于恢复被遮挡或局部观察到的部分。本发明实验所用的公开数据集ShapeNet中的大多数模型也是呈对称性的,其x-y平面是对称面。其他两个x-z,y-z坐标平面都是非对称平面。对于每一个尺度d

本发明建立的单视角以及多视角的图结构,捕获了相邻,对称,以及不同视角相同位置的信息。这些信息对填补三维体素缺失或遮挡部分和重建一个具有细粒度的高质量三维体素产生巨大作用。最后输出的体素进行视角之间的平均融合,得到细化后的体素。对于三维体素优化模块,我们的损失函数包括重建损失和对称约束。重建损失如上所述的loss

其中k表示对称切片对的数量。s

本发明已经在公开数据集ShapeNet上得到验证,取得不错的实验效果。表1展示本发明在ShapeNet数据集上的单视角重建结果,可以看出,与其他方法相比,本方法已经达到了目前最好的效果。表2展示了本发明在ShapeNet数据集上的多视角重建结果,本方法同样是目前最好的结果。图4、5给出ShapeNet数据集上一些三维重建的主观效果,实验效果表明了在各类物体上,该方法都能取得较好的重建效果。

表1:ShapeNet数据集上单视角的重建精度(度量:IoU)

表2:ShapeNet数据集上多视角的重建精度(度量:IoU)

以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号