首页> 中国专利> 基于深度学习的复杂三维模型的实时高真实感绘制方法

基于深度学习的复杂三维模型的实时高真实感绘制方法

摘要

本发明公开了一种基于深度学习的复杂三维模型的实时高真实感的绘制方法,包括:步骤1,利用现有的三维渲染算法,制作出大量的输入和输出对,输入包括各种环境参数、三维模型几何和纹理数据,输出为在该参数输入下的绘制结果图像;步骤2,网络模型构建以及训练,网络模型构建主要针对输入参数的类型来构建,涉及文本输入和图像输入;模型训练利用步骤1构建的输入输出对训练,训练的时候将输入数据输入到网络,通过损失函数约束使得网络输入的图像和该输入参数对应的绘制图像尽可能一致;步骤3,在实际的应用中,将实际应用的对应参数,包括三维模型的点云数据、纹理数据、相机位置数据、灯光数据送入模型,模型自动生成高真实感的绘制图像。

著录项

  • 公开/公告号CN112634456A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 浙江传媒学院;

    申请/专利号CN202011590379.8

  • 发明设计人 张根源;

    申请日2020-12-29

  • 分类号G06T17/20(20060101);G06T15/00(20110101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33283 杭州天昊专利代理事务所(特殊普通合伙);

  • 代理人董世博

  • 地址 310018 浙江省杭州市下沙高教园区学源街998号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明属于计算机三维绘制技术领域,具体涉及一种基于深度学习的复杂三维模型的实时高真实感绘制方法。

背景技术

长期以来,我国制造业产品创新能力严重不足,绝大多数产品的设计均沿用变型设计的方法,主导产品开发周期长、更新慢,导致企业缺乏竞争力。虚拟现实已经被世界上一些大型企业广泛地应用到工业的各个环节,对企业提高开发效率,加强数据采集、分析、处理能力,减少决策失误,降低企业风险起到了重要的作用。随着虚拟现实技术的不断完善,虚拟现实技术的应用领域也越来越广泛,其中,虚拟制造、娱乐、影视、视听艺术、教育、医疗等方面的应用发展最快,其次是军事和航天领域,另外在建筑规划设计、通讯、体育等也有重要的应用。理想的虚拟环境应该使用户感觉不到身体所处的外部环境并完全“融合”到虚拟世界中去,需要解决以下三个基本问题:(1)虚拟环境表示的准确性。为使虚拟环境与客观世界相一致,需要对其中种类繁多、构形复杂的信息作出准确、完备的描述。(2)虚拟环境感知信息合成的真实性。重点解决虚拟环境的视觉、听觉、力觉和触觉等感知信息合成的高保真性和实时性问题。(3)人与虚拟环境交互的自然性。本质上,上述三个问题的解决使得用户能够身临其境地感知虚拟环境,从而达到虚拟现实在工业领域的成功应用,所以虚拟现实要想成功,除了建立复杂逼真的模型来模拟现实以外,还必须在展示(渲染)上解决两个问题:一个是真实感问题(即渲染质量问题);一个是实时性问题(即渲染速度问题)。

真实感实时绘制是在当前图形算法和硬件条件限制下提出的在一定时间内完成真实感绘制的技术。真实感的涵义包括几何真实感、行为真实感和光照真实感。而实时的涵义则包括对运动对象位置和姿态的实时计算与动态绘制,画面更新达到人眼观察不到闪烁的程度,并且系统对用户的输入能立即做出反应并产生相应场景以及事件的同步。由于要描述的真实世界的复杂性和软、硬件等条件的约束,只有通过损失一定的实时性能来达到绘制真实感图像的目的。本文中的虚拟展示主要是指复杂对象的实时真实感渲染(绘制),这里的复杂对象是指面片数在大于20M的模型或者场景。

近几年,随着计算机硬件技术的长足进步,目前主流图形硬件的多边形处理能力已经达到每秒钟百万量级甚至千万量级.然而,随着计算机图形技术的实用化,特别是随着三维扫描设备精度的逐步提高和图形建模技术的发展,三维场景的规模与复杂度不断增大,包含上千万点的模型在实际应用中越来越常见,如果要以20帧/秒的实时速度对这些复杂场景进行交互绘制,那么就需要每秒钟处理数十亿甚至百亿的点或者三角面片信息,其计算量非常庞大,即使目前最好的图形硬件也很难满足要求。

目前,在复杂对象的渲染算法中,能够达到真实感的渲染算法会消耗比较长的渲染时间,无法满足实时性的要求,而满足实时性要求的渲染算法图像质量不能满足真实感的要求。由此可见复杂对象的实时性和真实感是一对矛盾,当前很多渲染技术都是通过降低图像质量来提高速度或者用时间来换取图像质量,还没有很好的技术和方法对复杂对象进行高真实感的实时渲染。同时复杂对象的复杂度会随着三维扫描设备精度的逐步提高和图形建模技术的发展而不断地增加,所以面向复杂对象的实时真实感展示是今后需要不断探索的技术难题之一。

目前解决复杂对象真实感实时渲染问题的思路主要有四种:(1)通过提高硬件的并行度来加速复杂对象的实时渲染,即利用多核(多个CPU或者单个GPU多线程)挖掘计算机硬件(GPU)的并行能力;(2)通过对数据结构进行改进以提高复杂对象实时渲染时的各种计算(如基于GBR(Geometry Based Rendering)渲染的裁剪、光线跟踪中的相交计算等)的效率,减少需要送入渲染管线的图元数量;(3)对真实的图像进行光照预处理造型,得到一个用函数表示的真实的光照信息,用这些光照信息实时的照亮复杂对象,这种方法在生产高质量的渲染图像的同时也能获得较快的渲染速度;(4)采用点图元来表示复杂对象,通过综合利用裁剪和数据结构以及点图元表示优势来提高复杂对象的渲染性能。尽管上述方法和技术从某种程度上部分解决了复杂对象的实时展示问题,但是仍然没有办法满足虚拟现实以及实时应用领域对实时性和高真实感的需求。

发明内容

鉴于以上存在的技术问题,本发明用于提供一种基于深度学习的复杂三维模型的实时高真实感的绘制方法,通过离线地学习,让深度网络模型能够记住绘制结果和绘制的各种参数(三维点云、纹理、相机位置、光照)的映射关系,一旦网络模型训练完成,在使用的时候就可以直接输入这些参数,然后快速得到具有高真实感的绘制结果。

为解决上述技术问题,本发明采用如下的技术方案:

一种基于深度学习的复杂三维模型的实时高真实感的绘制方法,其特征在于,包括以下步骤:

步骤1,利用现有的渲染算法或者三维商业软件,制作出大量的输入和输出对,输入包括各种环境参数、三维模型几何和纹理数据,输出为在该参数输入下的绘制结果图像;

步骤2,网络模型构建以及训练,网络模型构建主要针对输入参数的类型来构建,涉及文本输入和图像输入,其中文本输入包括光照位置、灯光的位置以及亮度、三维点云数据,图像输入包括纹理图像;模型训练利用步骤1构建的输入输出对训练,训练的时候将输入数据输入到网络,通过损失函数约束使得网络输入的图像和该输入参数对应的绘制图像尽可能一致;

步骤3,在实际的应用中,将实际应用的对应参数,包括三维模型的点云数据、纹理数据、相机位置数据、灯光数据送入模型,模型自动生成高真实感的绘制图像。

优选地,步骤2中,针对每种模态的数据分别设计相应的深度神经编码网络,然后最后将这些编码网络输出的特征综合起来共同通过一个解码网络来实现最终的三维绘制图像的输出,完整的基于多模态数据的深度神经网络模型结架构由多个不同的子网络模型组成,包括绘制环境参数网络模型,该模型对相机位置、灯光的位置以及亮度进行编码;以及识别三维模型几何信息的网络模型、用于对三维模型的表面纹理进行编码识别的图像处理识别网络模型和最终解码深度网络模型。

优选地,步骤2中,为了能够对三维模型的几何和纹理之间的长范围依赖关系进行学习,采用的网络架构是在所有的编码数据融合后增加一层注意力机制网络模型,该机制学习将包括环境参数、几何数据、纹理数据作为重点关注的注意力,并重新加权来重点强调应该注意的内容。

优选地,在实际网络训练的时候,利用两个损失函数,一个是对抗损失网络和函数,该网络和函数主要用于判断生成的图像在真实性方面符合该三维模型实际的绘制结果;另外一个就是重构损失函数,该函数主要确保网络输出的绘制图像和前期制作的绘制图像尽可能地保持一致,利用步骤1制作的数据进行网络训练,训练300个左右迭代循环以后,网络开始收敛,表示训练完成。

采用本发明具有如下的有益效果:采用本发明实施例的方法,一旦预先训练完成,实际的绘制时间就和深度学习网络有关了,减少了目前高真实感三维模型绘制方法中必须的光线追踪,大大地提高了绘制效率。

附图说明

图1为本发明实施例的基于深度学习的复杂三维模型的实时高真实感绘制方法的步骤流程图。

图2为本发明设计的深度学习网络结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,所示为本发明实施例的一种基于深度学习的复杂三维模型的实时高真实感的绘制方法的步骤流程图,包括以下步骤:

步骤1,利用现有的成熟的渲染算法或者三维商业软件,制作出大量的输入和输出对,输入包括各种环境参数、三维模型几何和纹理数据,输出为在该参数输入下的绘制结果图像;

步骤2,网络模型构建以及训练,网络模型构建主要针对输入参数的类型来构建,涉及文本输入和图像输入,其中文本输入包括光照位置、灯光的位置以及亮度、三维点云数据,图像输入包括纹理图像;模型训练利用步骤1构建的输入输出对训练,训练的时候将输入数据输入到网络,通过损失函数约束使得网络输入的图像和该输入参数对应的绘制图像尽可能一致;

步骤3,在实际的应用中,将实际应用的对应参数,包括三维模型的点云数据、纹理数据、相机位置数据、灯光数据送入模型,模型自动生成高真实感的绘制图像。

具体地,步骤1中,深度神经网络训练用的数据集的制作。针对三维模型实时高真实感的绘制需求,一般而言现有的算法主要是针对三维模型的点云数据(有的是三角面片数据)、纹理数据,同时设定好相机的位置、光源的位置和亮度(也有的是一副全景图来代替光源),同时依据三维绘制的算法(这里主要是绘制结果图像中的每个像素点如何依据输入的参数来进行计算)进行最终的绘制图像计算。由于三维绘制的方法很多,针对本专利实施例的方法而言,本专利实施例在训练的网络就是表达了这样一种算法过程,只是计算不是通过现有的光线追踪这种非常耗时的过程,而是通过深度神经网络模型中的参数来快速计算。为了说明如何制作数据集,选择目前比较通用的面向金属表面的三维绘制模型为例来说明如何制作数据集以及如何训练网络。

实际的金属表面三维绘制过程中,利用下面的公式计算三维模型表面的几何点p的颜色,几何点p上的表面法向量为n。

其中,p为工业品仿真模型上的几何点;n为p点上的法向量;

M

其中:z为工业品模型的数据几何点;t为几何z点的法向量;

利用现有的成熟的开源渲染代码或者先进三维绘制商业软件,将三维模型输入软件,并记录其所在环境的光源信息、相机位置信息等,这些构成了输入数据,然后再记录和其对应的输出图像,该输出图像就是成熟的开源渲染代码或者三维商业软件针对该三维模型以及对应的其他参数输入情况下的三维绘制结果。将上述的输入数据和输出数据作为一个训练样例。通过编程的方式,不断地变化相机位置、灯光的信息,会得到非常多的不同的参数,同时将这些参数与三维模型数据一起输入到成熟的开源渲染代码或者三维商业绘制软件中,会得到很多不同的输入数据和输出数据对。在本方法实施例中,制作了5000万个数据对。

具体地,步骤2中,网络模型构建以及训练。网络模型的构建主要是针对输入参数的类型来构建,涉及文本输入(光照位置、灯光的位置以及亮度、三维点云数据)和图像输入(纹理图像);模型训练主要利用步骤1构建的输入输出对来训练,训练的时候将输入数据输入到网络,然后网络输入的图像应该和该输入参数对应的绘制图像尽可能一致,这些是通过几个损失函数约束来实现的。为了更好实现对三维模型的几何数据、纹理数据、其他参数数据等特征进行编码,本发明实施例针对每种模态的数据分别设计相应的深度神经编码网络,然后最后将这些编码网络输出的特征综合起来共同通过一个解码网络来实现最终的三维绘制图像的输出。完整的基于多模态数据(有文本数据和图像数据)的深度神经网络模型结架构由多个不同的子网络模型组成,包括环境参数编码网络模型(该模型能够对相机位置、灯光的位置以及亮度等进行编码)、能够识别三维模型几何信息的网络模型、图像处理识别网络模型(主要用于对三维模型的表面纹理进行编码识别)和最终解码深度网络模型,具体见图2所示。为了能够对三维模型的几何和纹理之间的长范围依赖关系进行学习,本发明实施例采用的网络架构是在所有的编码数据融合后增加一层注意力机制网络模型,该机制学习将环境参数、几何数据、纹理数据等作为重点关注的注意力,并重新加权来重点强调应该注意的内容。图2中的BI-GRU是采用本领域常见的网络。而图像处理模块采用的网络就是本领域常见的卷积网络。我们将详细描述一下注意力模块,本发明网络中的几个不同种类的注意力模块由于其输入不同而导致名称不同,我们下面描述其几个模块通用的注意力网络。

注意力模块首先将两个输入的特征(一般是经过深度神经网络的中间输出作为特征)进行叉积运算,也就是针对每一个特征中的点和另外特征中的点进行点积运算,然后得到一个矩阵,然后对该矩阵进行规划化就得到一个注意力的映射矩阵,然后将该矩阵分别同输入的特征进行向量和矩阵的相乘得到对应的注意力结果特征,这个特征已经体现了两个输入的特征中的点与点之间的依赖关系,能够较好地学习两个特征之间的长范围的依赖关系。

在实际网络训练的时候,利用两个损失函数,一个是对抗损失网络和函数,该网络和函数主要用于判断生成的图像在真实性方面符合该三维模型实际的绘制结果,采用本领域常用的对抗损失函数。另外一个就是重构损失函数,该函数主要确保网络输出的绘制图像和前期制作的绘制图像尽可能地保持一致,这个重构损失函数采用本领域常用的L1范数重构函数,也就是本发明网络输出的结果图像和对应的Ground truth图像之间的L1范数。利用步骤1制作的数据进行网络训练,大概训练300个迭代循环以后,网络开始收敛,表示训练完成。

具体地,步骤3中,网络模型的应用。在实际的应用中,只要将实际应用的对应参数比如三维模型的点云数据、纹理数据、相机位置数据、灯光数据等送入模型,模型就会自动生成高真实感的绘制图像。

训练好的网络模型在使用的时候,首先需要明确输入到该网络模型的环境参数(如相机位置、灯光的位置以及亮度等),还有三维模型的几何和纹理信息。由前所述,该深度学习模型由于通过前期的训练已经能够表达一个非线性的复杂函数,而该函数就是能够依据输入快速地得出输出图像,而这个图像就是想要的三维绘制结果图像。

应当理解,本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例,本领域普通技术人员应当理解,在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下,可以做出各种形式和细节的改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号