首页> 中国专利> 一种基于神经辐射场的手指新视角图像生成方法

一种基于神经辐射场的手指新视角图像生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：获取包含轴向旋转的图像，作为图像样本；扩增图像数据；提取扩增得到的图片数据的相对外参数；生成轴向旋转新视角的图像；利用扩增图像数据和生成轴向旋转新视角的图像训练识别模型。本方法通过传统数据扩增方法模拟手指采集过程中在各个方向上偏移的情况，增强样本数据的多样性，提升识别系统的鲁棒性，利用基于神经辐射场的方法，为每个手指生成了多张轴向旋转的手指图像，丰富了手指轴向旋转数据的多样性，提升系统的鲁棒性，向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束，提升新视角生成的质量，提升识别系统的性能。

著录项

公开/公告号CN114882537A

专利类型发明专利
公开/公告日2022-08-09

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN202210397203.3
发明设计人陈卓明;康文雄;王伟民;赵学艳;
展开▼

申请日2022-04-15
分类号G06V40/12(2022.01);G06V10/82(2022.01);G06T17/00(2006.01);G06T7/90(2017.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构广州粤高专利商标代理有限公司 44102;
代理人何淑珍
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-06-19 16:19:08

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-26

实质审查的生效 IPC(主分类):G06V40/12 专利申请号:2022103972033 申请日:20220415

实质审查的生效
2022-08-09

公开

发明专利申请公布

说明书

技术领域

本发明涉及计算机视觉特征识别领域，具体涉及一种基于神经辐射场的手指新视角图像生成方法。

背景技术

近年来，随着信息化时代中信息安全要求逐渐提升以及计算机技术逐渐成熟和普及，生物特征识别技术在身份认证领域占据了越来越大的份额。相比于密码、ID信息等传统身份验证方式，生物特征信息通常具备普遍性、独特性、持久性、可采集性等明显的优势。因此，生物特征识别适合用于对身份识别精度要求相对较高的场所，如门禁、银行等。其中，指纹信息处于人体特征中相对不敏感的区域，且具备易于采集的特性，在近年来一直被广泛研究且投放适用于各类场景当中。

指部特征信息主要包含指纹信息以及指静脉信息，指纹作为近年来使用最多的生物特征之一，被广泛运用于手机解锁、门禁解锁、刑侦破案等邻域当中，具备一定的法律效应。除此之外，用户的指纹在相当长一段时间内固定的，而且在实际使用场景中易于获取指纹样本，使得指纹识别具有非常高的实用性。

指部特征识别技术主要分为基于特征工程的技术以及基于深度学习的技术。在基于特征工程的识别技术中，由于这指纹特征以及指静脉特征的纹理信息存在比较大的差异，所以这两种特征都有其独特的基于特征工程的特征提取方法。指纹当前主要使用的特征类型可分为局部特征以及全局特征，其中局部特征可以描述指纹的细微特征，全局特征则可以描述指纹整体的特征信息。局部特征主要是通过脊线方向、纹路连续情况等较为细节的特征点进行两个指纹之间的区分，这些特征点可以细分为端点、断点、桥街点、分叉点等；全局特征主要包括纹型、模式区、核心点、三角点和脊线数。

在基于深度学习的方法中，研究者们提出了利用卷积神经网络同时进行指纹特征的提取已经图像的认证，从而实现端到端的训练策略。随着深度学习中模型的优化，指部特征识别的精度和性能也在不停的提升，MobileNet系列、 ShuffleNet系列等轻量化网络的提出大大推动了指部特征识别技术在嵌入式设备的部署，解决了嵌入式设备显存容量较小的问题，使嵌入式终端设备能够以优秀的性能完成认证的任务。

神经网络的训练需要输入大量样本来进行学习，得到具有判别力的特征，从而避免网络过拟合的情况。而在自由度较高的设备中进行图像采集难免会出现手指各方向的平移以及旋转情况，在采集的时候无法将这些情况全部考虑在内。为了提升神经网络的鲁棒性，可以采用传统的数据扩增方法增加样本的多样性。传统的数据扩增方法主要包括随机平移、随机缩放、随机旋转、随机裁剪、随机调整伽马系数等，其中利用传统数据扩增方法中的图像平移可以获得在前后方向以及左右方向上偏移的相关样本，利用图像缩放可以获取在上下方向上的偏移的相关样本，通过图像旋转可以获取在手指平面上旋转的相关样本。除此之外，通过随机裁剪以及随机调整伽马系数的扩增方式，更能模拟实际采集场景中会发生的情况，大幅度地提升了数据库的丰富性。训练可以采用在线扩增数据的方式，从而使每个批次输入网络的图片都有着足够的差异，可以很大程度上解决神经网络需要大量数据而所采集的指部特征数据不足的问题，降低网络过拟合的风险，从而为认证系统的鲁棒性提供了保障。

神经辐射场(Neural Radiance Fields，NeRF)被提出且用于了新视角生成的任务，NeRF将包含复杂几何及物体信息的三维场景编码至多层感知机中，并且通过坐标以方向信息解码得到三维空间中的色彩及密度信息。网络通过输入包含内外参数的多视角图片进行训练，在不同视角下对场景进行观测并且渲染出对应的图像，与该视角下的真实图像作损失为网络的反向传播提供更新的梯度方向，不需要额外的真实深度信息作为监督信号。

NeRF以及其大部分的改进方法中都只能将单个三维场景的信息编码至神经网络当中，因此在具有大量场景的情况下，不仅需要花费大量的时间对每个场景进行单独训练，还要使用不同的模型参数对这些场景信息进行保存，不利于NeRF 在新场景中的泛化。因此，MVSNeRF提出了相应的解决方案，使网络可以在训练一个模型的基础上，完成多个场景的多视角生成任务，大幅度地减少了在多个场景情况下的训练时长以及模型存储难度。

现有技术的缺点：

1、现有的指部特征识别采集系统中，所获取的指部特征图片通常只具备手指某一面的信息，而且由于采集过程中因为手指自由度过高容易导致用户多次采集的图片差异较大，使系统的错误拒绝率过高。

2、现有的数据扩增方法中只能对手指的平移、缩放等情况进行扩增，而不能模拟由手指轴向旋转所导致的指部纹理新增或者消失的情况。

3、现有的基于神经辐射场的新视角生成方法中，在对目标视角采样像素进行预测时采取了随机采样的方法，使采样得到的像素之间不存在任何约束，导致所生成新视角下的图像可能会丢失局部信息。

在MVSNeRF(多视角立体几何神经辐射场)等基于NeRF(神经辐射场)的多视角生成方法中，通过随机采样在训练图像中得到目标像素进行训练，通过对比像素的预测颜色信息与真实颜色信息得到网络的损失，并且根据这些损失进行反向传播，更新网络参数。然而，通过随机采样得到目标像素会使得采样得到的像素之间缺乏约束，从而难以保留图像的局部几何信息。

发明内容

为解决了由于手指自由度过高容易导致用户多次采集的图片差异较大、传统数据扩增方法中无法模拟手指轴向旋转所导致的指部纹理新增或者消失以及基于神经辐射场的新视角生成方法中随机采样所导致的局部信息丢失的问题，提出一种基于神经辐射场的手指新视角图像生成方法。

本发明至少通过如下技术方案之一实现。

一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：

1)获取包含轴向旋转的原始图像，作为图像样本；

2)扩增图像数据；

3)提取原始图像数据之间的相对外参；

4)利用步骤1)采集得到的原始图像以及步骤3)得到的图像之间的相对外参生成轴向旋转新视角的图像；

5)利用步骤2)的扩增图像数据和步骤4)生成的轴向旋转新视角的图像训练识别模型。

进一步地，步骤1)具体包括：将手指在轴向-30°至30°的范围内旋转后进行拍摄，从而得到多个旋转角度下的图片。

进一步地，步骤2)具体包括：采用包括随机平移、随机缩放、随机裁剪的数据扩增模拟实际采集场景中可能发生的情况。

进一步地，经过步骤1)获取的多张图片后，通过基于运动恢复结构方法的 COLMAP提取多张包含轴向旋转的图片之间的相对内外参数以及粗糙的三位点云信息，其中三维点云信息用于约束后续新视角重建过程中的深度的预测范围；在得到多张图像对应相机坐标系之间的相对内外参数后，用于后续的新视角生成任务。

进一步地，步骤2)具体为：通过多视角立体几何神经辐射场的新视角生成方法根据包含轴向旋转样本的原始图像对手指的隐式三维模型进行建模，并且在此基础上得到其余视角的图像。

进一步地，根据包含轴向旋转样本的原始图像对多视角立体几何神经辐射场建模得到手指的隐式三维模型，具体包括：

通过采样N

其中，W

最终，多视角立体几何神经辐射场的损失函数为：

其中，

进一步地，所述识别模型包括特征提取器和分类器，特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层；后面两个最大池化层前连接有第一反向残差模块Block1、第二反向残差模块Block2；

所述卷积层的卷积核的大小为3×3、卷积层的数量为32，步长为2的卷积层，并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU 激活函数；

所述自适应性平均池化层前连接有第三反向残差模块Block3，在空间维度上将Block3输出特征图的信息进行聚合，得到维度为

进一步地，所述分类器包括一个维度为

进一步地，所述第一反向残差模块Block1、第二反向残差模块Block2、第三反向残差模块Block3均包括依次连接的第一卷积层、第二卷积层、第三卷积层；所述第一卷积层和第三卷积层的卷积核大小均为1×1的卷积层，第二个卷积层的卷积核大小为3×3且带卷积通道分组操作的卷积层。

进一步地，所述特征提取器采用MobileNetV2以降低识别网络参数量为导向的特征提取器。

与现有的技术相比，本发明的有益效果为：

1、本方法通过MVSNeRF生成手指的新视角，可以生成手指轴向转转的数据，从而弥补由于采集过程中手指自由度过高导致的轴向旋转问题，提高手指特征认证系统的识别准确率；

2、本方法在对MVSNeRF训练样本的获取中采用了基于窗口采样的策略，可以向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束，提升新视角生成的质量。

附图说明

图1为本实施例一种基于神经辐射场的手指新视角图像生成方法流程图；

图2为本实施例训练图片示意图；

图3为本实施例相机相对位姿图；

图4为本实施例采样策略示意图；

图5为本实施例网络结构图；

图6为本实施例MobileNetV2中的反向残差模块结构图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1所示，一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：

1、如图2所示，获取包含轴向旋转的图像：采集工作者引导受试者将手指在轴向-30°至30°的范围内旋转后进行拍摄，从而得到受试者在多个旋转角度下的一组图片。在得到了多张不同旋转角度下的旋转图片之后，可以将采集的图片用于应对用户在实际使用场景中由于手指自由度过高容易导致用户多次采集的图片存在差异的问题。

2、扩增图像数据：经过步骤1获取的多张轴向旋转角度下的图片后，采用包括随机平移、随机缩放、随机裁剪等数据扩增的方法模拟实际采集场景中可能发生的情况，如手指在拍摄过程中的平移以及缩放等情况。通过对采集数据进行扩增，可以增强所采集数据的多样性，加强后续神经网络训练的收敛能力。

3、提取图片的相对外参：经过步骤1获取的多张轴向旋转角度下的图片后，通过基于运动恢复结构方法(structure-from-motion)的COLMAP提取多张包含轴向旋转的采集图片之间的相对内外参数(位姿关系)以及粗糙的三位点云信息，其中三维点云信息可以用于约束后续新视角重建过程中的深度的预测范围。COLMAP提取相机之间相对关系的结果如图3的a和b所示，在得到多张图像对应相机坐标系之间的位姿关系后，可以用于后续的新视角生成任务。

4、生成轴向旋转新视角的图像：经过步骤3得到多张轴向旋转图片的相对内外参数以及深度的预测范围后，通过基于多视角立体几何神经辐射场(MVSNeRF)的新视角生成方法根据已有的旋转角度图片对手指的隐式三维模型进行建模，并且在此基础上得到其余视角的图像，从而增强图像样本在旋转方向上的多样性。在基于MVSNeRF的新视角生成方法中可以采用以下两种采样方式：

第一种：如图4的a所示，通过随机采样的方式得到N

其中，

第二种：如图4的b所示，基于窗口采样的MVSNeRF方法，在基于窗口采样的MVSNeRF方法中，通过采样N

基于窗口采样的MVSNeRF方法中，除了可以利用式(1)对预测像素的颜色进行约束，还可以在训练的过程中对了公式(2)中的梯度损失、公式(3)中的结构相似性损失以及公式(4)的深度平滑损失进行约束，从而保留生成图像更多的局部信息，提升新视角生成实验中所生成图像的质量：

其中，W

最终，多视角立体几何神经辐射场的损失函数为：

其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数，通过优化该损失函数，在预测准确颜色信息的同时，保留手指图像的局部结构信息。

5、训练识别模型：经过步骤2以及步骤4获取到的扩增数据之后，训练如图5所示的识别模型架构训练手指特征认证任务的模型。所述识别模型包括特征提取器和分类器，特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层；后面两个最大池化层之前连接有第一反向残差模块Block1、第二反向残差模块Block2；所述自适应性平均池化层之前连接有第三反向残差模块Block3，在空间维度上将Block3输出特征图的信息进行聚合，得到维度为

其中，输入是一张维度为

其中，反向残差模块是MobileNetV2中为了在保证计算准确率的基础上降低模型参数量以及计算量而提出的模块。如图6所示，反向残差模块主要由卷积核大小为1×1的卷积层、卷积核大小为3×3且带卷积通道分组操作的卷积层以及另外一个卷积核大小为1×1的卷积层三部分组成。其中，第一个卷积层的作用是通过1×1的卷积核在低参数量以及计算量的情况下提升特征的通道数，增加可以提取的特征；第二个卷积层的作用是通过卷积通道分组操作以及3×3的卷积核在融合局部信息的同时大幅度降低计算量；最后通过1×1的卷积核的卷积核将特征图的维度降低，并且如输入反向残差模块的特征图结合，在保留其原有特征信息的基础上进行增强。除此之外，反向残差模块中前两个卷积层之后都接上ReLU激活函数，增强网络对非线性特征的拟合能力，而在最后一个卷积层之后，为了避免非线性单元对特征的破坏，防止特征被破坏。

实施例2

不同于实施例1中以降低模型参数量为导向的特征提取器，可以采用EfficientNet等以提升网络识别性能为导向的特征提取器。

实施例3

在基于窗口对MVSNeRF目标像素进行采样的过程中，除了固定采样N

上述实施例仅用于详细阐述以帮助理解本发明的技术方案，对本领域技术人员而言，在不脱离本发明原理的前提下做出的任何改进与替换，均属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于神经辐射场的手指新视角图像生成方法 [P] . 中国专利： CN114882537A . 2022-08-09
2. 基于深度图像和神经辐射场的新视角合成方法 [P] . 中国专利： CN113706714A . 2021-11-26
3. A method and an apparatus for generating a composite image in which it is impossible to determine whether or not to synthesize a synthetic image by using a generational neural network and a hostile generation network including a discrimination neural network. [P] . 日本专利： JP6849898B2 . 2021-03-31

机译：一种用于生成合成图像的方法和装置，其中不可能通过使用世代神经网络和包括识别神经网络的敌对生成网络来确定是否合成合成图像。
4. A MOBILE TERMINAL THAT GENERATE FLASH IMAGE BASED ON TEMPLATE AND THE METHOD GENERATING FLASH IMAGE BASED ON TEMPLATE [P] . 韩国专利： KR100790961B1 . 2008-01-07

机译：一种基于模板生成闪烁图像的移动终端以及一种基于模板生成闪烁图像的方法
5. System and method of video Telecommunication to compress and decompress The Video Data of color digitalThe present Invention relates to a method for compressing a digital color Video Data in a Telecommunication System Video that has a means for generating a video signal that is uN means for generating a video signal to a Plurality of color video framerate,With Every Frame Image consisting of a Plurality of Scanning Lines composed of a Plurality of pixelsAnd each pixel in the image Frame consists of the components of color digitalThe Method comprises the steps of determining a function); Luminance pixel based on at least one of the three components of color digital(b) identify at least one parameter decision for at least a significant portion of pixels in the scanlines of a Table of current image based on the difference ofThe role in Luminance between the pixels at a Predetermined distance from at least one pixel in each Scan line and at least a (c) comparison of decision parameter with [P] . MX166516B . 1993-01-11

机译：用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法，该方法具有用于生成视频信号的装置，该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率，每个帧图像由多个扫描线组成，扫描线由多个像素组成，图像中的每个像素由彩色数字分量组成（该方法包括确定功能的步骤）;基于彩色数字（b）的三个分量中的至少一个的亮度像素，基于两个像素之间的亮度差异，针对当前图像表的扫描线中的至少大部分像素，确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素，以及至少（c）比较决策参数与