首页> 中国专利> 交互检测模型的训练方法、交互检测方法及相关设备

交互检测模型的训练方法、交互检测方法及相关设备

摘要

本申请公开了一种交互检测模型的训练方法、交互检测方法及相关设备,该方法包括:基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征;基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作;基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置;基于形态参数和三维位置进行预测,得到样本物体的预测分值;基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。上述方案,能够提高人物交互关系的检测精度。

著录项

  • 公开/公告号CN114898272A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 上海商汤智能科技有限公司;

    申请/专利号CN202210596450.6

  • 发明设计人 苏海昇;范弘炜;

    申请日2022-05-18

  • 分类号G06V20/40(2022.01);G06V40/20(2022.01);G06V10/82(2022.01);G06V10/774(2022.01);G06V10/764(2022.01);G06V10/40(2022.01);G06V10/22(2022.01);G06T7/70(2017.01);G06T7/11(2017.01);G06N3/04(2006.01);

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280;

  • 代理人何倚雯

  • 地址 200233 上海市徐汇区桂平路391号3号楼1605A室

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022105964506 申请日:20220518

    实质审查的生效

说明书

技术领域

本申请涉及计算机视觉技术领域,特别是涉及一种交互检测模型的训练方法、交互检测方法及相关设备。

背景技术

时空人物关系检测旨在检测视频中发生的人物交互关系,时空人物关系检测对于视频行为理解来说尤为重要。在日常的人物交互过程中,人可能会和周围环境中存在的各种各样的物体产生交互,例如,在做家务时可能会拿起或者触碰数十种不同的家具。

目前,对时空人物关系检测的方式通常只关注人本身的动作,限制了人物交互关系检测精度的提升。

发明内容

本申请至少提供一种交互检测模型的训练方法、交互检测方法及相关设备。

本申请第一方面提供了一种交互检测模型的训练方法,该方法包括:基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征;其中,样本视频数据标注有表征样本物体是否与样本人体发生交互的样本分值,以及与样本物体发生交互的样本人体的样本交互动作;基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作;基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置;其中,二维位置基于样本人体特征定位得到;基于形态参数和三维位置进行预测,得到样本物体的预测分值;其中,预测分值表示样本物体存在人物交互的可能性;基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。

因此,基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。故,一方面,使得表示样本物体存在人物交互的可能性的预测分值逼近表征样本物体是否与样本人体发生交互的样本分值,由于预测分值是基于样本物体的三维位置预测得到,所以使得定位得到的样本物体的三维位置逼近样本物体的真实三维位置,即驱使对样本物体的定位尽可能精确,而对样本物体的定位是基于样本人体特征实现的,从而可从定位层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从定位层面迫使交互检测模型提取的人体特征尽可能准确;另一方面,使得第一预测交互动作逼近样本交互动作,而第一预测交互动作是基于人体特征预测得到的,从而可从分类层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从分类层面迫使交互检测模型的提取的人体特征尽可能准确。所以,从定位层面和分类层面两个维度对交互检测模型进行优化,使得后续交互检测模型在对人体的交互动作进行分类检测时,能够同时关注人体本身的动作和与人体存在人物交互的交互物体的位置信息,从而使交互检测模型能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高交互检测模型对人物交互关系的检测精度,减少了长尾关系分布下的误检。

其中,基于样本人体特征定位得到二维位置,包括:基于样本人体特征和样本物体的样本物体特征共同定位得到样本物体的二维位置。

因此,可通过样本人体特征和样本物体的样本物体特征定位得到样本物体的二维位置,从而能够通过样本物体特征辅助样本人体特征进行样本物体的二维定位,有利于提升二维定位的精度。

其中,基于样本人体特征和样本物体的样本物体特征共同定位得到样本物体的二维位置,包括:基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征;基于样本物体特征和样本人体特征进行预测,得到交互分值;其中,交互分值表示样本人体特征所属的样本人体与物体区域中样本物体的交互紧密程度;基于满足预设条件的交互分值所对应的物体区域,得到样本物体的二维位置。

因此,通过样本物体特征和样本人体特征预测交互分值,且交互分值表示样本人体特征所属的样本人体与物体区域中样本物体的紧密程度,从而响应于交互分值满足预设条件,基于物体区域,得到样本物体的二维位置,故能够通过预测交互分值尽可能准确地确定与样本人体紧密相关的样本物体的二维位置。

其中,基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征,包括:基于样本图像进行物体检测,得到若干候选区域;基于第一预测交互动作,选择候选区域作为物体区域;基于物体区域,从样本图像特征提取样本物体特征。

因此,通过第一预测交互动作对若干候选区域进行筛选,并将筛选后剩余的候选区域作为物体区域,从而减少计算量。

其中,基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征,包括:基于特征提取网络提取样本图像的样本图像特征,并对样本图像进行人体检测,得到样本人体的人体区域;基于人体区域,从样本图像特征提取样本人体特征。

因此,基于人体区域,确定样本图像特征中对应人体区域的区域,并从样本图像特征中对应人体区域的区域提取样本人体特征,以能够准确地提取样本人体特征。

其中,基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置,包括:基于二维位置,预测样本物体在三维空间的初始位置;基于初始位置和形态参数,构建以初始位置的修正参数为优化目标的动作分类损失;基于动作分类损失,优化得到修正参数,并基于修正参数对初始位置进行位置修正,得到三维位置。

因此,通过引入动作分类损失对初始位置的修正参数进行优化,从而提高对样本物体三维位置定位的精确度。

其中,在基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数之前,交互检测模型的训练方法还包括:基于形态参数和初始位置进行预测,得到样本人体的第二预测交互动作;基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数,包括:基于样本交互动作与第一预测交互动作的差异、样本分值与预测分值的差异,以及第一预测交互动作与第二预测交互动作的差异,调整交互检测模型的网络参数。

因此,从定位层面、分类层面和动作一致性层面三个维度对交互检测模型进行优化,从而使得后续交互检测模型在对人体的交互动作进行分类检测时,能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高交互检测模型对人物交互关系的检测精度,减少了长尾关系分布下的误检。

其中,形态参数包括人体姿态参数和人体形状参数,基于形态参数和初始位置进行预测,得到样本人体的第二预测交互动作,包括:基于人体姿态参数进行编码,得到姿态编码表示;将姿态编码表示、人体形状参数和初始位置进行拼接,得到拼接特征表示;基于拼接特征表示进行预测,得到所述第二预测交互动作。

因此,可通过样本人体的形态参数和样本物体在三维空间的初始位置,确定样本人体的第二预测交互动作。

其中,样本视频数据包括若干帧样本图像;基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作,包括:基于各帧样本图像中相同样本人体的样本人体特征,得到样本人体的样本动作轨迹特征;基于样本动作轨迹特征进行分类,得到样本人体的第一预测交互动作。

因此,通过样本动作轨迹特征对样本人体的交互动作进行分类,以从样本人体本身的动作层面对样本人体的交互动作进行分类。

本申请第二方面提供了一种交互检测方法,该方法包括:基于交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取,得到待测图像中人体的人体特征;基于交互检测模型的动作分类网络对人体特征进行分类,得到人体的交互动作类别;其中,交互检测模型基于上述的交互检测模型的训练方法得到。

本申请第三方面提供了一种交互检测模型的训练装置,该装置包括样本特征提取模块、交互动作预测模块、三维位置定位模块、交互分值预测模块和网络参数调整模块;样本特征提取模块用于基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征;其中,样本视频数据标注有表征样本物体是否与样本人体发生交互的样本分值,以及与样本物体发生交互的样本人体的样本交互动作;交互动作预测模块用于基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作;三维位置定位模块用于基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置;其中,二维位置基于样本人体特征定位得到;交互分值预测模块用于基于形态参数和三维位置进行预测,得到样本物体的预测分值;其中,预测分值表示样本物体存在人物交互的可能性;网络参数调整模块用于基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。

本申请第四方面提供了一种交互检测装置,该装置包括特征提取模块和动作分类模块;特征提取模块用于基于交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取,得到待测图像中人体的人体特征;动作分类模块用于基于交互检测模型的动作分类网络对人体特征进行分类,得到人体的交互动作类别;其中,交互检测模型基于上述的交互检测模型的训练装置得到。

本申请第五方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的交互检测模型的训练方法和上述第二方面中的交互检测方法。

本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的交互检测模型的训练方法和上述第二方面中的交互检测方法。

上述方案,基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。故,一方面,使得表示样本物体存在人物交互的可能性的预测分值逼近表征样本物体是否与样本人体发生交互的样本分值,由于预测分值是基于样本物体的三维位置预测得到,所以使得定位得到的样本物体的三维位置逼近样本物体的真实三维位置,即驱使对样本物体的定位尽可能精确,而对样本物体的定位是基于样本人体特征实现的,从而可从定位层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从定位层面迫使交互检测模型提取的人体特征尽可能准确;另一方面,使得第一预测交互动作逼近样本交互动作,而第一预测交互动作是基于人体特征预测得到的,从而可从分类层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从分类层面迫使交互检测模型的提取的人体特征尽可能准确。所以,从定位层面和分类层面两个维度对交互检测模型进行优化,使得后续交互检测模型在对人体的交互动作进行分类检测时,能够同时关注人体本身的动作和与人体存在人物交互的交互物体的位置信息,从而使交互检测模型能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高交互检测模型对人物交互关系的检测精度,减少了长尾关系分布下的误检。

附图说明

图1是本申请提供的交互检测模型的训练方法一实施例的流程示意图;

图2是本申请提供的交互检测模型的结构示意图;

图3是本申请提供的预测生成第二预测交互动作一实施例的流程示意图;

图4是图1所示步骤S11一实施例的流程示意图;

图5是图1所示步骤S12一实施例的流程示意图;

图6是图1所示步骤S13一实施例的流程示意图;

图7是图6所示步骤S132一实施例的流程示意图;

图8是本申请提供的定位样本物体的二维位置一实施例的流程示意图;

图9是图8所示步骤S81一实施例的流程示意图;

图10是本申请提供的交互检测方法一实施例的流程示意图;

图11是本申请提供的交互检测模型的训练装置一实施例的结构示意图;

图12是本申请提供的交互检测装置一实施例的结构示意图;

图13是本申请提供的电子设备一实施例的结构示意图;

图14是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图,对本申请实施例的方案进行详细说明。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1,图1是本申请提供的交互检测模型的训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:

步骤S11:基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征。

本实施例的方法用于提高交互检测模型对视频数据中的人体的交互动作类别的检测精度,本文所述的视频数据可以是单个视频数据,也可以是多个视频数据后期合成的组合视频数据。在一实施方式中,具体可以从本地存储或云端存储中获取得到样本视频数据。可以理解地,在其他实施方式中,也可以通过视频采集设备对当前画面进行采集而得到样本视频数据。

本实施方式中,基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征。也就是说,交互检测模型包括特征提取网络,特征提取网络会对样本视频数据中的样本视频帧图像即上述样本图像进行处理,以得到样本视频帧图像中样本人体的样本人体特征。在一实施方式中,样本视频数据包括若干帧样本图像,交互检测模型的特征提取网络会对样本视频数据中的若干帧样本图像进行逐帧处理,即交互检测模型的特征提取网络会对样本视频数据中每一帧对应的样本图像进行处理。为了减少计算量,提高交互检测模型的特征提取网络对样本视频数据中样本图像进行处理的效率,在其他实施方式中,交互检测模型的特征提取网络也可只对样本视频数据中的某些帧对应的样本图像进行处理,例如,对样本视频数据中偶数帧或者奇数帧对应的样本图像进行处理等。

其中,样本视频数据标注有表征样本物体是否与样本人体发生交互的样本分值;以及,样本视频数据标注有与样本物体发生交互的样本人体的样本交互动作。通过在样本视频数据上标注表征样本物体是否与样本人体发生交互的样本分值和与样本物体发生交互的样本人体的样本交互动作,使得后续能够基于表征样本物体是否与样本人体发生交互的样本分值和与样本物体发生交互的样本人体的样本交互动作,调整交互检测模型的网络参数,即综合两个方面调整交互检测模型的网络参数而使得交互检测模型收敛,从而提高交互检测模型对人体的交互动作的检测精度。

在一实施方式中,可直接利用交互检测模型的特征提取网络对样本视频数据中样本图像进行特征提取,得到样本图像中样本人体的样本人体特征。为了能够准确地提取到样本人体特征即为了能够提高特征提取精度,在其他实施方式中,可先获取样本图像中样本人体的人体区域以及样本图像的样本图像特征;然后,基于人体区域,从样本图像特征中提取对应人体区域的样本人体特征。

步骤S12:基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作。

本实施方式中,基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作。也就是说,如图2所示,图2是本申请提供的交互检测模型的结构示意图,交互检测模型包括动作分类网络,动作分类网络会根据样本人体特征对样本人体的交互动作进行分类,从而得到样本人体的第一预测交互动作。具体地,将样本人体特征送入动作分类网络,如多层感知机(Multilayer perceptron,MLP)网络,MLP网络起到分类器的作用,MLP网络基于样本人体特征对样本人体的交互动作进行分类,从而得到样本人体的第一预测交互动作。

在一实施方式中,交互检测模型的动作分类网络可直接基于样本视频数据中若干帧样本图像中相同样本人体的样本人体特征进行分类,以得到样本人体的第一预测交互动作。当然,在其他实施方式中,也可将样本视频数据中各帧样本图像中相同样本人体的样本人体特征进行组合得到样本人体的样本动作轨迹特征,然后对轨迹特征进行分类,以得到样本人体的第一预测交互动作。

步骤S13:基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置。

本实施方式中,基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置。由于参与交互的样本物体通常会存在不同程度的遮挡,且不同视角下的形态不一,所以后续直接通过样本物体的二维位置和样本人体的形态参数进行预测,得到的表示样本物体存在人物交互的可能性的预测分值可能不准确,所以需要通过结合样本物体的二维位置和样本人体的形态参数定位样本物体的三维位置,以使得后续能够基于样本物体的三维位置和样本人体的形态参数确定样本物体存在人物交互的可能性。

在一实施方式中,利用MLP网络模型基于样本物体的二维位置合和样本人体的形态参数进行样本物体的三维位置定位。具体地,在样本物体的二维位置的基础上,利用MLP网络模型来预测样本物体的三维位置,如样本物体的中心位置和样本物体的半径等;结合损失函数(例如,smooth L1损失函数、L1损失函数或者L2损失函数等)以及预测的样本物体的三维位置和标注的样本物体的三维位置之间的差异,得到MLP网络模型的损失;利用MLP网络模型的损失,调整MLP网络模型的网络参数,以对MLP网络模型进行优化,使得优化后的MLP网络模型能够更准确地定位样本物体的三维位置。当然,在其他实施方式中,也可利用基于2D视觉神经网络(Detailed Joint Representation Network,DJ-RN)基于样本物体的二维位置和样本人体的形态参数进行样本物体的三维位置定位,在此不做具体限定。

在一实施方式中,可通过单阶段为多个人体回归所有3D mesh(Regression ofMultiple 3D People,ROMP)的方法对样本视频数据中样本图像进行处理,以得到样本图像中样本人体的形态参数。当然,也可以通过其他方式获取样本图像中样本人体的形态参数,在此不做具体限定。在一具体实施方式中,形态参数包括人体姿态参数和人体形状参数,即后续基于人体姿态参数、人体形状参数和三维位置进行预测,得到样本物体的预测分值。当然,在其他具体实施方式中,形态参数也可仅包括人体姿态参数或者人体形状参数等,在此不做具体限定。

其中,二维位置是基于样本人体的样本人体特征定位得到的。在一实施方式中,样本物体的二维位置可直接基于样本人体的样本人体特征定位得到。可以理解地,在其他实施方式中,样本物体的二维位置也可基于样本人体的样本人体特征和样本物体的样本物体特征共同定位得到,从而能够通过样本物体特征辅助样本人体特征进行样本物体的二维定位,有利于提升二维定位的精度。

在一具体实施方式中,可利用包围框回归技术直接基于样本人体的样本人体特征定位得到样本物体的二维位置,此方式对样本物体的二维位置的定位更加直接、简单。具体地,将样本图像的样本图像特征和样本人体的样本人体特征在特征通道维度进行拼接;然后,利用带有Sigmoid(Sigmoid function)激活函数且具有两层全连接层的MLP网络模型来预测归一化后的样本物体的二维位置;结合损失函数(例如,smooth L1损失函数、L1损失函数或者L2损失函数等)以及预测的样本物体的二维位置和标注的样本物体的二维位置之间的差异,得到MLP网络模型的损失;利用MLP网络模型的损失,调整MLP网络模型的网络参数,以对MLP网络模型进行优化,使得优化后的MLP网络模型能够更准确地定位样本物体的二维位置。

在其他具体实施方式中,也可利用样本物体和样本人体的偏移量定位样本物体的二维位置,以实现直接基于样本人体的样本人体特征定位得到样本物体的二维位置。具体地,首先计算样本人体和样本物体之间的偏移量,具体公式如下所示:

其中,x

然后,将样本图像的样本图像特征和样本人体的样本人体特征在特征通道维度进行拼接;然后,利用MLP网络模型来预测归一化后的样本物体和样本人体的偏移量;结合损失函数(例如,smooth L1损失函数、L1损失函数或者L2损失函数等)以及预测的样本物体和样本人体的偏移量和计算得到的样本物体和样本人体的偏移量之间的差异,得到MLP网络模型的损失;利用MLP网络模型的损失,调整MLP网络模型的网络参数,以对MLP网络模型进行优化,使得优化后的MLP网络模型能够更准确地预测样本物体和样本人体的偏移量。

进一步地,利用样本物体和样本人体的偏移量计算得到样本物体的二维位置。

步骤S14:基于形态参数和三维位置进行预测,得到样本物体的预测分值。

本实施方式中,基于形态参数和三维位置进行预测,得到样本物体的预测分值,其中,预测分值表示样本物体存在人物交互的可能性,样本物体的预测分值越高,则表明样本物体与样本人体的交互关系越紧密,即样本物体与样本人体存在交互的可能性越大。也就是说,通过结合形态参数和样本物体的三维位置,能够确定样本物体与样本人体存在发生交互的可能性大小。

具体地,将样本人体的形态参数和样本物体的三维位置在特征通道维度进行拼接;然后,利用带有两层全连接层的MLP网络模型来预测样本物体存在人物交互的可能性,即利用MLP网络模型进行预测得到样本物体的预测分值。

步骤S15:基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。

本实施方式中,基于样本交互动作与第一预测交互动作的差异以及样本分值与预测分值之间的差异,调整交互检测模型的网络参数。具体地,结合损失函数以及第一预测交互动作与样本交互动作之间的差异和样本分值与预测分值之间的差异,得到交互检测模型的损失;利用得到的交互检测模型的损失,调整交互检测模型的网络参数;利用上述步骤对交互检测模型进行迭代训练,最终得到网络收敛的交互检测模型,此时完成对交互检测模型的训练。

由于是基于样本交互动作与第一预测交互动作的差异以及样本分值与预测分值的差异调整交互检测模型的网络参数,所以通过调整交互检测模型的网络参数,能够使得最小化样本交互动作与第一预测交互动作之间差异以及样本分值和预测分值之间的差异。一方面,使得表示样本物体存在人物交互的可能性的预测分值逼近表征样本物体是否与样本人体发生交互的样本分值,由于预测分值是基于样本物体的三维位置预测得到,所以使得定位得到的样本物体的三维位置逼近样本物体的真实三维位置,即驱使对样本物体的定位尽可能精确,而对样本物体的定位是基于样本人体特征实现的,从而可从定位层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从定位层面迫使交互检测模型提取的人体特征尽可能准确;另一方面,使得第一预测交互动作逼近样本交互动作,而第一预测交互动作是基于人体特征预测得到的,从而可从分类层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从分类层面迫使交互检测模型的提取的人体特征尽可能准确。所以,基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数,使得从定位层面和分类层面两个维度对交互检测模型进行优化,从而使得后续交互检测模型在对人体的交互动作进行分类检测时,能够同时关注人体本身的动作和与人体存在人物交互的交互物体的位置信息,以使交互检测模型能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高后续交互检测模型基于人体特征对人物交互关系进行检测的精度,减少了长尾关系分布下的误检。

为了进一步提高交互检测模型对人物交互关系的检测精度,在一实施方式中,在基于样本交互动作与第一预测动作的差异以及样本分值与预测分值的差异,调整交互检测模型的网络参数之前,还需基于样本人体的形态参数和样本物体在三维空间的初始位置进行预测,得到样本人体的第二预测交互动作。其中,样本人体的形态参数可以为人体姿态参数,也可以为人体形状参数,或者也可以同时包括人体姿态参数和人体形状参数。

在一实施方式中,如图3所示,图3是本申请提供的预测生成第二预测交互动作一实施例的流程示意图,样本人体的形态参数包括人体姿态参数和人体形状参数,基于样本人体的形态参数和样本物体在三维空间的初始位置进行预测得到样本人体的第二预测交互动作具体包括如下子步骤:

步骤S31:基于人体姿态参数进行编码,得到姿态编码表示。

本实施方式中,基于人体姿态参数进行编码,得到姿态编码表示。具体地,假定人体姿态参数为θ

步骤S32:将姿态编码表示,人体形状参数和初始位置进行拼接,得到拼接特征表示。

本实施方式中,将姿态编码表示、人体形状参数和初始位置进行拼接,得到拼接特征表示。具体地,假定人体形状参数为β

步骤S33:基于拼接特征表示进行预测,得到第二预测交互动作。

本实施方式中,基于拼接特征表示进行预测,得到第二预测交互动作。由于拼接特征表示由姿态编码表示

在一实施方式中,在预测得到样本人体的第二预测交互动作后,此时调整交互检测模型的网络参数的具体方式为:基于样本交互动作与第一预测动作的差异,样本分值与预测分值的差异,以及第一预测交互动作与第二预测交互动作的差异,调整交互检测模型的网络参数。由于第一预测交互动作和第二预测交互动作都是对应同一样本人体的,所以第二预测交互动作应该与第一预测交互动作一致,所以通过引入第一预测交互动作和第二预测交互动作的差异调整交互检测模型的网络参数,使得第二预测交互动作和第一预测交互动作保持一致,由于第二预测交互动作是基于样本物体的三维位置预测得到的,能够使得定位得到的样本物体的三维位置逼近样本物体的真实三维位置,即驱使对样本物体的定位尽可能准确,而对样本物体的定位是基于样本人体特征实现的,从而从交互动作一致性的角度迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从交互动作一致性层面迫使交互检测模型提取的人体特征尽可能准确。也就是说,从定位层面、分类层面和动作一致性层面三个维度对交互检测模型进行优化,从而使得后续交互检测模型在对人体的交互动作进行分类检测时,能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高交互检测模型对人物交互关系的检测精度,减少了长尾关系分布下的误检。

上述实施方式,基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。故,一方面,使得表示样本物体存在人物交互的可能性的预测分值逼近表征样本物体是否与样本人体发生交互的样本分值,由于预测分值是基于样本物体的三维位置预测得到,所以使得定位得到的样本物体的三维位置逼近样本物体的真实三维位置,即驱使对样本物体的定位尽可能精确,而对样本物体的定位是基于样本人体特征实现的,从而可从定位层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从定位层面迫使交互检测模型提取的人体特征尽可能准确;另一方面,使得第一预测交互动作逼近样本交互动作,而第一预测交互动作是基于人体特征预测得到的,从而可从分类层面迫使交互检测模型尽可能提取与人体的交互动作紧密相关的人体特征,即可从分类层面迫使交互检测模型的提取的人体特征尽可能准确。所以,从定位层面和分类层面两个维度对交互检测模型进行优化,使得后续交互检测模型在对人体的交互动作进行分类检测时,能够同时关注人体本身的动作和与人体存在人物交互的交互物体的位置信息,从而使交互检测模型能够提取与人体交互动作紧密相关的人体特征即交互检测模型能够准确提取人体特征,进而提高后续交互检测模型基于人体特征对人物交互关系检测的精度,减少了长尾关系分布下的误检。

请参阅图4,图4是图1所示步骤S11一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施例中,基于人体区域,从样本图像特征中提取对应人体区域的样本人体特征,具体包括:

步骤S111:基于特征提取网络提取样本图像的样本图像特征,并对样本图像进行人体检测,得到样本人体的人体区域。

本实施方式中,利用交互检测模型的特征提取网络提取样本图像的样本图像特征。其中,不对特征提取网络进行限定,可根据实际使用需要具体设置。例如,特征提取网络可以为SlowFast网络、多光纤网络(Multi-Fiber Networks,MF-Net)、双流网络(TwoStream Network)或者TSN网络(Temporal Segment Networks)等。

另外,本实施方式中,还对样本视频数据中样本图像进行人体检测,以得到样本人体的人体区域,以便于后续从样本图像特征中提取样本人体特征。其中,不对用于人体检测的网络模型进行限定,可根据实际使用需要具体设置。例如,利用ResNeXt-101-FPN网络、区域卷积神经网络(Region-CNN,R-CNN)、Fast R-CNN网络、Faster R-CNN网络或者区域生成网络(Region Proposal Network,RPN)等对样本视频数据中样本图像进行人体检测,得到样本人体的人体区域。

步骤S112:基于人体区域,从样本图像特征提取样本人体特征。

本实施方式中,基于人体区域,从样本图像特征提取样本人体特征。也就是说,根据样本人体的人体区域确定样本图像特征中对应人体区域的区域,然后从样本图像特征中对应样本人体区域的区域提取特征,以得到样本人体特征。其中,不对提取样本人体特征的网络模型进行限定,可根据实际使用需要具体设置。例如,从样本图像特征中提取样本人体特征的网络模型可以为ROI-Align网络、ROI Pooling网络等。

具体地,根据样本图像特征的分辨率和提取到样本图像特征的样本图像的分辨率两者之间比值,确定在样本图像特征中人体区域的位置以及人体区域在样本图像特征中的大小;然后,从样本图像特征中对应人体区域的区域中提取特征,提取的特征即为样本人体特征。

请参阅图5,图5是图1所示步骤S12一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,本实施例中,样本视频数据包括若干帧样本图像,交互检测模型的特征提取网络会对样本视频数据中每一帧对应的样本图像进行处理,具体包括:

步骤S121:基于各帧样本图像中相同样本人体的样本人体特征,得到样本人体的样本动作轨迹特征。

本实施方式中,基于各帧样本图像中相同样本人体的样本人体特征,得到样本人体的样本动作轨迹特征。具体地,样本视频数据包括若干帧样本图像,交互检测模型的特征提取网络会对样本视频数据中的若干帧样本图像进行逐帧处理,即交互检测模型的特征提取网络会对样本视频数据中每一帧对应的样本图像进行特征提取,得到每一帧样本图像对应的样本人体特征,让后将各帧样本图像中相同样本人体的样本人体特征进行组合,得到样本人体的样本动作轨迹特征。

步骤S122:基于样本动作轨迹特征进行分类,得到样本人体的第一预测交互动作。

本实施方式中,基于样本动作轨迹特征进行分类,得到样本人体的第一预测交互动作。具体地,交互检测模型的动作分类网络会根据样本动作轨迹对样本人体的交互动作进行分类,从而得到样本人体的第一预测交互动作。

请参阅图6,图6是图1所示步骤S13一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。如图6所示,本实施例中,利用DJ-RN方法基于样本物体的二维位置和样本人体的形态参数预测得到样本物体的三维位置,具体包括:

步骤S131:基于二维位置,预测样本物体在三维空间的初始位置。

本实施方式中,基于二维位置,预测样本物体在三维空间的初始位置。也就是说,在利用DJ-RN方法进行样本物体的三维位置确定时,会输入样本物体的二维位置,以在二维位置的基础进行三维位置的确定。具体地,在样本物体的二维位置的基础上,利用DJ-RN方法预测得到样本物体在三维空间的初始位置

步骤S132:基于初始位置和形态参数,构建以初始位置的修正参数为优化目标的动作分类损失。

本实施方式中,基于样本物体在三维空间的初始位置和样本人体的形态参数,构建以初始位置的修正参数为优化目标的动作分类损失。也就是说,以样本物体在三维空间的初始位置的修正参数为优化目标的动作分类损失作为以样本人体为中心的隐式引导,用于后续对DJ-RN方法预测得到的样本物体在三维空间的初始位置进行修正。

请参阅图7,图7是图6所示步骤S132一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。如图7所示,形态参数包括人体姿态参数和人体形状参数,本实施例包括:

步骤S71:基于人体姿态参数进行编码,得到姿态编码表示。

本实施方式中,基于人体姿态参数进行编码,得到姿态编码表示。具体地,假定人体姿态参数为θ

步骤S72:基于姿态编码表示、人体形状参数和初始位置进行预测,得到样本人体的第三预测交互动作。

本实施方式中,基于姿态编码表示、人体形状参数和初始位置进行预测,得到样本人体的第三预测交互动作。具体地,假定人体形状参数为β

步骤S73:基于样本交互动作与第三预测交互动作的差异,得到动作分类损失。

本实施方式中,基于样本交互动作与第三预测交互动作的差异,得到动作分类损失。其中,第三预测交互动作是基于人体姿态参数、人体形状参数和初始位置预测得到的,所以,动作分类损失的具体公式可如下所示:

其中,L表示动作分类损失;θ

步骤S133:基于动作分类损失,优化得到修正参数,并基于修正参数对初始位置进行位置修正,得到三维位置。

本实施方式中,基于动作分类损失,优化得到修正参数,并基于修正参数对样本物体在三维空间的初始位置进行位置修正,从而得到样本物体的三维位置。也就是说,引入动作分类损失引导修正参数优化,以最小化动作分类损失;然后,利用优化后的修正参数对样本物体在三维空间的初始位置进行修正,从而得到修正后的样本物体的三维位置,修正后的样本物体的三维位置逼近样本物体的真实三维位置,即引入动作分类损失提高了对样本物体三维位置定位的精确度。其中,修正后的样本物体的三维位置的公式如下所示:

其中,

请参阅图8,图8是本申请提供的定位样本物体的二维位置一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,本实施例中,样本物体的二维位置基于样本人体的样本人体特征和样本物体的样本物体特征共同定位得到,具体包括:

步骤S81:基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征。

本实施方式中,基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征。其中,样本图像特征由特征提取网络对样本图像提取得到。具体地,利用交互检测模型的特征提取网络提取样本图像的样本图像特征;然后,对样本视频数据中样本图像进行物体检测,以得到样本物体的物体区域;然后,根据样本图像特征的分辨率和提取到样本图像特征的样本图像的分辨率两者之间比值,确定在样本图像特征中物体区域的位置以及物体区域在样本图像特征中的大小;然后,从样本图像特征中对应物体区域的区域中提取特征,提取的特征即为样本物体特征。需要说明的是,在得到上述比值之后,只需将在样本图像中检测到的位置以及区域大小根据该比值进行缩放,即可得到样本图像特征中物体区域的位置以及物体区域在样本图像特征中的大小。

其中,不对用于物体检测的网络模型进行限定,可根据实际使用需要具体设置。例如,利用ResNeXt-101-FPN网络、区域卷积神经网络(Region-CNN,R-CNN)、Fast R-CNN网络、Faster R-CNN网络或者区域生成网络(Region Proposal Network,RPN)等对样本视频数据中样本图像进行物体检测,得到样本物体的物体区域。

由于样本图像中可能会包括若干个物体,所以在对样本图像进行物体检测时,可能会检测出若干候选区域,此时,在一实施方式中,可将若干候选区域分别作为物体区域,进行对应物体区域中样本物体的样本物体特征提取。举例来说,样本图像中包括a、b和c三个物体,所以在对样本图像进行物体检测时,会检测出对应物体a的候选区域A、对应物体b的候选区域B和对应物体c的候选区域C;分别将候选区域A、候选区域B和候选区域C作为物体区域执行步骤S71。

为了减少计算量,如图9所示,图9是图8所示步骤S81一实施例的流程示意图,在其他实施方式中,会对检测出的若干候选区域进行初筛,将初筛后剩余的候选区域作为物体区域,具体包括如下子步骤:

步骤S811:基于样本图像进行物体检测,得到若干候选区域。

本实施方式中,基于样本图像进行物体检测,得到若干候选区域。由于样本图像中可能会包括若干个物体,所以在对样本图像进行物体检测时,会得到各物体对应的候选区域即会得到若干候选区域。

其中,不对用于物体检测的网络模型进行限定,可根据实际使用需要具体设置。例如,利用ResNeXt-101-FPN网络、区域卷积神经网络(Region-CNN,R-CNN)、Fast R-CNN网络、Faster R-CNN网络或者区域生成网络(Region Proposal Network,RPN)等对样本视频数据中样本图像进行物体检测,得到若干候选区域。

步骤S812:基于第一预测交互动作,选择候选区域作为物体区域。

本实施方式中,基于第一预测交互动作,选择候选区域作为物体区域。也就是说,能够通过第一预测交互动作,会对上述获得的若干候选区域进行筛除,将筛除后剩余的候选区域作为物体区域。

举例来说,第一预测交互动作为踩;样本图像中包括a、b和c三个物体,所以在对样本图像进行物体检测时,会检测出对应物体a的候选区域A、对应物体b的候选区域B和对应物体c的候选区域C;由于候选区域B和候选区域C位于样本人体的下方、候选区域A位于样本人体的上方,而第一预测交互动作是踩,所以将候选区域B和候选区域C分别作为物体区域。

步骤S813:基于物体区域,从样本图像特征提取样本物体特征。

本实施方式中,基于物体区域,从样本图像特征中提取样本物体特征。具体地,根据样本图像特征的分辨率和提取到样本图像特征的样本图像的分辨率两者之间比值,确定在样本图像特征中物体区域的位置以及物体区域在样本图像特征中的大小;然后,从样本图像特征中对应物体区域的区域中提取特征,提取的特征即为样本物体特征。

步骤S82:基于样本物体特征和样本人体特征进行预测,得到交互分值。

本实施方式中,基于样本物体特征和样本人体特征进行预测,得到交互分值。其中,交互分值表示样本人体特征所属的样本人体与物体区域中样本物体的交互紧密程度,也就是说,根据样本物体特征和样本人体特征进行预测,能够确定样本人体特征所属的样本人体与物体区域中样本物体之间存在交互的可能性,以确定与样本人体存在交互的样本物体所对应的物体区域,从而便于后续定位样本物体的二维位置。

具体地,将样本人体的样本人体特征和样本物体的样本物体特征在特征通道维度进行拼接;然后,利用MLP网络模型基于拼接后的特征进行预测,预测得到样本人体特征所属的样本人体与物体区域中样本物体是否存在交互以及对应的交互分值;若预测得到样本人体特征所属的样本人体与物体区域中样本物体存在交互且交互分值比较高,则表明样本人体特征所属的样本人体与此物体区域中的样本物体存在交互的可能性比较高,而如果预测得到样本人体特征所属的样本人体与物体区域中样本物体存在交互且交互分值比较低或者不存在交互且对应的不存在交互的分值比较高,则表明样本人体特征所属的样本人体与此物体区域中的样本物体存在交互的可能比较低。

步骤S83:基于满足预设条件的交互分值所对应的物体区域,得到样本物体的二维位置。

本实施方式中,基于满足预设条件的交互分值所对应的物体区域,得到样本物体的二维位置。也就是说,在交互分值满足预设要求的情况下,则表明对应此物体区域中样本物体与样本人体特征所属的样本人体存在交互可能性最大,则将此物体区域作为与样本人体存在交互的样本物体所对应的区域,所以根据确定的与样本人体存在交互的样本物体所对应的物体区域,即可确定样本物体的二维位置,例如,将物体区域的中心位置作为物体区域中样本物体的二位置等。

其中,不对预设要求进行限定,可根据实际使用需要具体设置。例如,交互分值大于预设值且为最大等。举例来说,以预设要求为交互分值大于5且交互分值为最大为例;对样本图像进行物体检测,得到对应物体a的物体区域A且物体区域A对应的交互分值为7、对应物体b的物体区域B且物体区域B对应的交互分值为9以及对应物体c的物体区域C且物体区域C对应的交互分值为5;由于物体区域A的交互分值满足预设要求,所以基于物体区域A得到物体区域A中样本物体的二维位置。

请参阅图10,图10是本申请提供的交互检测方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图10所示的流程顺序为限。如图10所示,本实施例包括:

步骤S101:基于交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取,得到待测图像中人体的人体特征。

本实施例的方法用于提高交互检测模型对待测视频数据中的人体的交互动作类别的检测精度,本文所述的待测视频数据可以是单个视频数据,也可以是多个视频数据后期合成的组合视频数据。在一实施方式中,具体可以从本地存储或云端存储中获取得到待测视频数据。可以理解地,在其他实施方式中,也可以通过视频采集设备对当前画面进行采集而得到待测视频数据。

本实施方式中,基于交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取,得到待测图像中人体的人体特征。也就是说,交互检测模型包括特征提取网络,特征提取网络会对待测视频数据中的视频帧图像即上述待测图像进行特征提取,以得到待测视频帧图像中人体的人体特征。在一实施方式中,待测视频数据包括若干帧待测图像,交互检测模型的特征提取网络会对待测视频数据中的若干帧待测图像进行逐帧处理,即交互检测模型的特征提取网络会对待测视频数据中每一帧对应的待测图像进行特征提取。为了减少计算量,提高交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取的效率,在其他实施方式中,交互检测模型的特征提取网络也可只对待测视频数据中的某些帧对应的待测图像进行特征提取,例如,对待测视频数据中偶数帧或者奇数帧对应的待测图像进行特征提取等。

其中,交互检测模型是利用上述交互检测模型的训练方法训练得到的,所以交互检测模型在对待测视频数据中待测图像进行特征提取时,能够同时关注人体本身的动作和与人体存在人物交互的交互物体的位置信息,从而能够提取与人体交互动作紧密相关的人体特征即能够准确提取人体特征,进而提高后续交互检测模型基于人体特征对人物交互关系进行检测的检测精度,减少了长尾关系分布下的误检。

步骤S102:基于交互检测模型的动作分类网络对人体特征进行分类,得到人体的交互动作类别。

本实施方式中,基于交互检测模型的动作分类网络对人体特征进行分类,得到人体的交互动作类别。也就是说,交互检测模型包括动作分类网络,动作分类网络会根据人体特征对人体的交互动作进行分类,从而得到人体的交互动作类别。

请参阅图11,图11是本申请提供的交互检测模型的训练装置一实施例的结构示意图。交互检测模型的训练装置110包括样本特征提取模块111、交互动作预测模块112、三维位置定位模块113、交互分值预测模块114和网络参数调整模块115。样本特征提取模块111用于基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征;其中,样本视频数据标注有表征样本物体是否与样本人体发生交互的样本分值,以及与样本物体发生交互的样本人体的样本交互动作;交互动作预测模块112用于基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作;三维位置定位模块113用于基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置;其中,二维位置基于样本人体特征定位得到;交互分值预测模块114用于基于形态参数和三维位置进行预测,得到样本物体的预测分值;其中,预测分值表示样本物体存在人物交互的可能性;网络参数调整模块115用于基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数。

其中,交互检测模型的训练装置110还包括二维位置定位模块116,二维位置定位模块116用于基于样本人体特征定位得到二维位置,具体包括:基于样本人体特征和样本物体的样本物体特征共同定位得到样本物体的二维位置。

其中,二维位置定位模块116用于基于样本人体特征和样本物体的样本物体特征共同定位得到样本物体的二维位置,具体包括:基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征;基于样本物体特征和样本人体特征进行预测,得到交互分值;其中,交互分值表示样本人体特征所属的样本人体与物体区域中样本物体的交互紧密程度;基于满足预设条件的交互分值所对应的物体区域,得到样本物体的二维位置。

其中,二维位置定位模块116用于基于样本图像的样本图像特征和样本图像中检测到的物体区域,提取得到物体区域中样本物体的样本物体特征,具体包括:基于样本图像进行物体检测,得到若干候选区域;基于第一预测交互动作,选择候选区域作为物体区域;基于物体区域,从样本图像特征提取样本物体特征。

其中,样本特征提取模块111用于基于交互检测模型的特征提取网络对样本视频数据中样本图像进行处理,得到样本图像中样本人体的样本人体特征,具体包括:基于特征提取网络提取样本图像的样本图像特征,并对样本图像进行人体检测,得到样本人体的人体区域;基于人体区域,从样本图像特征提取样本人体特征。

其中,交互动作预测模块112用于基于样本物体的二维位置和样本人体的形态参数进行定位,得到样本物体的三维位置,具体包括:基于二维位置,预测样本物体在三维空间的初始位置;基于初始位置和形态参数,构建以初始位置的修正参数为优化目标的动作分类损失;基于动作分类损失,优化得到修正参数,并基于修正参数对初始位置进行位置修正,得到三维位置。

其中,交互动作预测模块112还用于在基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数之前,具体包括:基于形态参数和初始位置进行预测,得到样本人体的第二预测交互动作;网络参数调整模块115用于基于样本交互动作与第一预测交互动作的差异,以及样本分值与预测分值的差异,调整交互检测模型的网络参数,具体包括:基于样本交互动作与第一预测交互动作的差异、样本分值与预测分值的差异,以及第一预测交互动作与第二预测交互动作的差异,调整交互检测模型的网络参数。

其中,上述形态参数包括人体姿态参数和人体形状参数,交互动作预测模块112用于基于形态参数和初始位置进行预测,得到样本人体的第二预测交互动作,具体包括:基于人体姿态参数进行编码,得到姿态编码表示;将姿态编码表示、人体形状参数和初始位置进行拼接,得到拼接特征表示;基于拼接特征表示进行预测,得到第二预测交互动作。

其中,上述样本视频数据包括若干帧样本图像;交互动作预测模块112用于基于交互检测模型的动作分类网络对样本人体特征进行分类,得到样本人体的第一预测交互动作,具体包括:基于各帧样本图像中相同样本人体的样本人体特征,得到样本人体的样本动作轨迹特征;基于样本动作轨迹特征进行分类,得到样本人体的第一预测交互动作。

请参阅图12,图12是本申请提供的交互检测装置一实施例的结构示意图。交互检测装置120包括特征提取模块121和动作分类模块122。特征提取模块121用于基于交互检测模型的特征提取网络对待测视频数据中待测图像进行特征提取,得到待测图像中人体的人体特征;动作分类模块122用于基于交互检测模型的动作分类网络对人体特征进行分类,得到人体的交互动作类别;其中,交互检测模型基于上述的交互检测模型的训练装置110得到。

请参阅图13,图13是本申请提供的电子设备一实施例的结构示意图。电子设备130包括相互耦接的存储器131和处理器132,处理器132用于执行存储器131中存储的程序指令,以实现上述任一交互检测模型的训练方法或交互检测方法实施例的步骤。在一个具体的实施场景中,电子设备130可以包括但不限于:微型计算机、服务器,此外,电子设备130还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。

具体而言,处理器132用于控制其自身以及存储器131以实现上述任一交互检测模型的训练方法或交互检测方法实施例的步骤。处理器132还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器132可能是一种集成电路芯片,具有信号的处理能力。处理器132还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器132可以由集成电路芯片共同实现。

请参阅图14,图14是本申请提供的计算机可读存储介质一实施例的结构示意图。本申请实施例的计算机可读存储介质140存储有程序指令141,该程序指令141被执行时实现本申请交互检测模型的训练方法或交互检测方法任一实施例以及任意不冲突的组合所提供的方法。其中,该程序指令141可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质140中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质140包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。

若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号