首页> 中国专利> 一种视频中人物情绪状态的识别方法和装置

一种视频中人物情绪状态的识别方法和装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开提供一种视频中人物情绪状态的识别方法和装置。该方法包括：获取第一视频帧图像和第二视频帧图像；分别确定第一视频帧图像中所有人物检测边框信息以及所有人物特征向量，和第二视频帧图像中所有人物检测边框信息以及人物特征向量；根据第一视频帧图像中所有人物检测边框信息计算得到相应的第二视频帧图像中的预测边框信息；计算预测边框信息与第二视频帧图像中所有人物检测边框信息的相似度，以及第一视频帧图像中所有人物特征向量与第二视频帧图像中所有人物特征向量的相似度以确定目标人物；在预设视频帧率间隔获取目标人物在不同视频帧图像中的姿态关键点信息，根据姿态关键点信息的变化对人物运动信息进行建模，以识别目标人物的情绪状态。

著录项

公开/公告号CN113822113A

专利类型发明专利
公开/公告日2021-12-21

原文格式PDF
申请/专利权人华院计算技术(上海)股份有限公司;
展开▼

申请/专利号CN202110401094.3
发明设计人张文凯;
展开▼

申请日2021-04-14
分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N20/00(20190101);
代理机构31235 上海京沪专利代理事务所(普通合伙);
代理人马强
地址 200072 上海市静安区万荣路1256、1258号9楼
入库时间 2023-06-19 13:46:35

说明书

技术领域

本公开涉及视频数据处理技术领域，尤其涉及一种视频中人物情绪状态的识别方法和装置。

背景技术

在许多社会治理场景中，用户可能会在情绪激动的情况下做出一些激烈的行为影响到社会治理的效率。因此，为了提高社会治理的效率，有必要提供一种视频中人物情绪状态的识别方法，以实现对上述情况的预警。

发明内容

本公开实施例提供视频中人物情绪姿态的识别方法和装置，以解决上述现有技术中存在的问题。

根据本公开的第一方面，提供一种视频中人物情绪状态的识别方法，所述方法包括：

获取第一视频帧图像和第二视频帧图像；所述第二视频帧图像是所述第一视频帧图像的下一视频帧图像；

从所述第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从所述第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量；

根据所述第一视频帧图像中所有检测边框信息计算得到相应的所述第二视频帧图像中的预测边框信息；

计算所述预测边框信息与所述第二视频帧图像中所有检测边框信息的相似度，以及所述第一视频帧图像中所有人物特征向量与所述第二视频帧图像中所有人物特征向量的相似度，对所述第一视频帧图像和所述第二视频帧图像中的人物进行匹配，确定目标人物；

在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息；

根据所述姿态关键点信息的变化编写相应规则对人物运动信息进行建模，最终根据建模结果判断人物是否存在过激行为以识别所述目标人物的情绪状态。

可选地，所述确定目标人物之后，所述方法还包括：

为所述目标人物分配人物标识。

可选地，所述在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息，包括：

获取所述第一视频帧图像中的第一姿态关键点信息和所述间隔预设视频帧率(fps/2)后的第fps/2视频帧图像中的第二姿态关键点信息；

根据所述第一视频帧图像中所有姿态关键点信息落入第一视频帧图像中所有人物检测边框的数量，以及所述第二姿态关键点信息落入所述第二人物检测边框的数量，确定所述第一视频帧图像中所有姿态关键点信息和所述第二视频帧图像中所有关键点信息对应的目标人物。

可选地，所述根据所述姿态关键点信息的变化对人物运动信息进行建模以识别所述目标人物的情绪状态，包括：

通过手部关键点和头部关键点之间的距离变化速度确定所述目标人物的第一行为激烈程度值，并累加情绪状态初始值；

通过小臂关键点和大臂关键点之间的夹角变化速度，确定所述目标人物的第二行为激烈程度值，并累加情绪状态初始值；

判断手部关键点是否高过肘部关键点，且前后两帧手部关键点的移动距离大于预设阈值，将所述情绪状态初始值累加10。

可选地，所述通过手部关键点和头部关键点之间的距离变化确定所述目标人物的第一行为激烈程度值，并累加情绪状态初始值之前，所述方法还包括：

对所述目标人物的运动信息进行归一化处理。

可选地，所述方法还包括：

在所述手部关键点和所述头部关键点之间的距离小于预设阈值的时长超过预设时间时，确定所述目标人物处于正常姿态。

可选地，所述根据所述姿态关键点信息的变化对人物运动信息进行建模识别所述目标人物的情绪状态之后，所述方法还包括：

若识别所述目标人物处于愤怒情绪状态，发出预警信息。

根据本公开的第二方面，提供一种视频中人物情绪状态的识别装置，所述装置包括

获取模块，用于获取第一视频帧图像和第二视频帧图像；所述第二视频帧图像是所述第一视频帧图像的下一视频帧图像；

确定模块，用于从所述第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从所述第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量；

计算模块，用于根据所述第一视频帧图像中所有检测边框信息计算得到相应的所述第二视频帧图像中所有视频帧图像中的预测边框信息；计算所述预测边框信息与所述第二检测边框信息的相似度，以及所述第一视频帧图像中所有人物特征向量与所述第二视频帧图像中所有人物特征向量的相似度，对所述第一视频帧图像和所述第二视频帧图像中的人物进行匹配，确定目标人物；

所述获取模块还用于在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息；

识别模块，用于根据所述姿态关键点信息的变化识别所述目标人物的情绪状态。

根据本公开的第三方面，提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面中任一项所述的视频中人物情绪状态的识别方法。

根据本公开实施例的方法，通过获取第一视频帧图像和第二视频帧图像；第二视频帧图像是第一视频帧图像的下一视频帧图像；从第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量；根据第一视频帧图像中所有检测边框信息计算得到相应的第二视频帧图像中的预测边框信息；计算预测边框信息与第二视频帧图像中所有检测边框信息的相似度，以及第一视频帧图像中所有人物特征向量与第二视频帧图像中所有人物特征向量的相似度，对第一视频帧图像和第二视频帧图像中的人物进行匹配，确定目标人物；在预设视频帧率间隔获取目标人物在不同视频帧图像中的姿态关键点信息的变化对人物运动信息进行建模判断是否存在过激行为以识别目标人物的情绪状态。从而可以快速准确的检测识别出视频监控中每个人物的行为激烈程度，并对人物的情绪状态进行分析，在识别出人物的情绪状态较为激烈时提供预警辅助，以提高社会治理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1示出了本公开实施例的视频中人物情绪状态的识别方法的流程图；

图2示出了本公开实施例的视频中人物情绪状态的识别装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1示出了本公开实施例的视频中人物情绪状态的识别方法的流程图。如图1所示，本实施例的方法具体可以由电子设备，如终端或者服务器执行，具体的，该方法可以包括如下步骤101～步骤106：

步骤101，获取第一视频帧图像和第二视频帧图像；所述第二视频帧图像是所述第一视频帧图像的下一视频帧图像。

在实际应用中，电子设备可以获取预设时长的视频数据，并逐帧读取视频数据，视频数据即为本实施例所述的视频帧图像。

步骤102，从所述第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从所述第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量。

步骤103，根据所述第一视频帧图像中所有检测边框信息计算得到相应的所述第二视频帧图像中的预测边框信息。

步骤104，计算所述预测边框信息与所述第二视频帧图像中所有检测边框信息的相似度，以及所述第一视频帧图像中所有人物特征向量与所述第二视频帧图像中所有人物特征向量的相似度，对所述第一视频帧图像和所述第二视频帧图像中的人物进行匹配，确定目标人物。

本实施例中，采用YOLO-v4目标检测算法对视频帧图像中的人物进行检测，获取人物检测边框信息，其中，边框由人物的最小外接矩形的左上角坐标和宽高尺度确定，根据人物检测边框信息确定人物图像，并使用深度学习算法计算得到人物特征向量。为便于实现人物追踪，电子设备在确定目标人物后，还会为所述目标人物分配人物标识。

具体的，可以计算所述预测边框信息与所述第二视频帧图像中所有检测边框信息的交并比(IOU)相似度，以及计算所述第一视频帧图像中所有人物特征向量和所述第二视频帧图像中所有人物特征向量之间的余弦相似度，并利用匈牙利匹配算法对前后两帧视频帧图像中的人物进行匹配，从而实现目标人物的跟踪。

步骤105，在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息。

获取所述第一视频帧图像中所有人物姿态关键点信息和所述预设视频帧率间隔fps/2后的第fps/2视频帧图像中的姿态关键点信息；根据所述第一视频帧图像中所有人物姿态关键点信息落入第一人物检测边框的数量，以及所述第fps/2视频帧图像中姿态关键点信息落入所述第fps/2视频帧图像中人物检测边框的数量，确定所述第一视频帧图像中所有人物姿态关键点信息和所述第fps/2视频帧图像中关键点信息对应的目标人物，以此达到姿态跟踪的目的。

在本步骤中，设置预设视频帧率间隔为0.5s*fps(帧率)，使用姿态估计算法每隔0.5s*fps对当前视频帧图像中的所有人物的姿态关键点进行估计，获得当前视频帧图像中人物的18个人体骨骼关键点坐标，作为所述姿态关键点信息。

在获取到姿态关键点信息后，根据姿态关键点信息落入对应人物检测边框中的数量来判断某个姿态关键点信息属于哪个目标人物。以此类推，获取各个视频帧数据中各个目标人物的姿态关键点信息，从而可以根据姿态关键点信息的运动变化来确定对应目标人物的情绪状态。

步骤106，根据所述姿态关键点信息的变化识别所述目标人物的情绪状态。

实际应用中，为避免人物距离镜头远近不同而导致的情绪识别的误判，需要对于获取到的目标人物的运动信息进行归一化处理。具体的，在计算某视频帧图像中目标人物的关键点距离时，利用距离数据除以目标人物的头- 颈之间的距离，以此达到归一化的目的。

在完成归一化处理后，执行识别目标人物的情绪状态的操作：

初始化情绪状态初始值为0。

通过手部关键点和头部关键点之间的距离变化速度确定所述目标人物的第一行为激烈程度值，并累加情绪状态初始值。例如，整个视频长度为20s，则对整个视频逐帧计算手部关键点和头部关键点两者之间的距离，得长度为 20s*fps*0.5的时间序列数据，对时间序列的一阶差分所有值求和并求平均，最终获得一个反应目标人物运动剧烈程度的第一行为激烈程度值，并累加情绪状态初始值。

通过小臂关键点和大臂关键点之间的夹角变化速度，确定所述目标人物的第二行为激烈程度值，并累加情绪状态初始值。例如，整个视频长度为20s，对整个视频逐帧计算小臂关键点和大臂关键点两者之间的夹角，得长度为 20s*fps*0.5的时间序列数据，对时间序列的一阶差分所有值求和并求平均，最终获得一个反应目标人物运动剧烈程度的第二行为激烈程度值，并累加情绪状态初始值。

判断手部关键点是否高过肘部关键点，且前后两帧手部关键点的移动距离大于预设阈值，将所述情绪状态初始值累加10。例如，如果手部关键点位置高于肘部，且前后两帧的手部关键点移动距离L大于指定阈值Thread_L，则情绪状态初始值累加10。

在根据所述姿态关键点信息的变化对人物运动信息建模以识别所述目标人物的情绪状态为处于愤怒情绪状态之后，还可以向相关工作人员发出预警信息，以便于及时作出针对性处理。

在实际应用中，为降低愤怒情绪预警的误报率，本实施例的方法还包括：在所述手部关键点和所述头部关键点之间的距离小于预设阈值的时长超过预设时间时，确定所述目标人物处于正常姿态。

本实施例的视频中人物情绪状态的识别方法，通过获取第一视频帧图像和第二视频帧图像；第二视频帧图像是第一视频帧图像的下一视频帧图像；从第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量；根据第一检测边框信息计算得到相应的第二视频帧图像中的预测边框信息；计算预测边框信息与第二视频帧图像中所有检测边框信息的相似度，以及第一视频帧图像中所有人物特征向量与第二视频帧图像中所有人物特征向量的相似度，对第一视频帧图像和第二视频帧图像中的人物进行匹配，确定目标人物；在预设视频帧率间隔获取目标人物在不同视频帧图像中的姿态关键点信息，根据所述姿态关键点信息的变化对人物运动信息进行建模，判断人物是否存在过激行为以识别所述目标人物的情绪状态。从而可以快速准确的检测识别出视频监控中每个人物的行为激烈程度，并对人物的情绪状态进行分析，在识别出人物的情绪状态较为激烈时提供预警辅助，以提高社会治理效率。

图2示出了本公开实施例的视频中人物情绪状态的识别装置的结构示意图。如图2所示，本实施例的视频中人物情绪状态的识别装置20具体可以包括：获取模块21，确定模块22，计算模块23和识别模块24。

其中，获取模块21，用于获取第一视频帧图像和第二视频帧图像；所述第二视频帧图像是所述第一视频帧图像的下一视频帧图像。

确定模块22，用于从所述第一视频帧图像中确定第一视频帧图像中所有人物检测边框信息以及第一视频帧图像中所有人物特征向量，并从所述第二视频帧图像中确定第二视频帧图像中所有人物检测边框信息以及第二视频帧图像中所有人物特征向量。

计算模块23，用于根据所述第一视频帧图像中所有人物检测边框信息计算得到相应的所述第二视频帧图像中的预测边框信息；计算所述预测边框信息与所述第二视频帧图像中所有人物检测边框信息的相似度，以及所述第一视频帧图像中所有人物特征向量与所述第二视频帧图像中所有人物特征向量的相似度，对所述第一视频帧图像和所述第二视频帧图像中的人物进行匹配，确定目标人物。

所述获取模块21还用于在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息。

识别模块24，用于根据所述姿态关键点信息的变化对人物运动信息进行建模，判断人物是否存在过激行为以识别所述目标人物的情绪状态。

可选地，所述视频中人物情绪状态的识别装置20还可以包括分配模块，用于为所述目标人物分配人物标识。

可选地，所述获取模块21在预设视频帧率间隔获取所述目标人物在不同视频帧图像中的姿态关键点信息时，具体可以通过获取所述第一视频帧图像中的第一视频帧图像中所有姿态关键点信息和所述间隔预设视频帧率fps/2 后的第fps/2视频帧图像中的姿态关键点信息；根据所述第一视频帧图像中所有姿态关键点信息落入第一人物检测边框的数量，以及所述第fps/2视频帧图像中姿态关键点信息落入所述第fps/2视频帧图像中人物检测边框的数量，确定所述第一视频帧图像中所有姿态关键点信息和所述第fps/2视频帧图像中关键点信息对应的目标人物。

可选地，所述识别模块24具体可以用于通过手部关键点和头部关键点之间的距离变化速度确定所述目标人物的第一行为激烈程度值，并累加情绪状态初始值；通过小臂关键点和大臂关键点之间的夹角变化速度，确定所述目标人物的第二行为激烈程度值，并累加情绪状态初始值；判断手部关键点是否高过肘部关键点，且前后两帧手部关键点的移动距离大于预设阈值，将所述情绪状态初始值累加10。

进一步地，所述识别模块24在通过手部关键点和头部关键点之间的距离变化确定所述目标人物的第一行为激烈程度值，并累加情绪状态初始值之前，还可以先对所述目标人物的运动信息进行归一化处理。

进一步地，为避免误判，所述识别模块24还可以在所述手部关键点和所述头部关键点之间的距离小于预设阈值的时长超过预设时间时，确定所述目标人物处于正常姿态。

进一步地，所述视频中人物情绪状态的识别装置20还可以包括发送模块，用于若识别所述目标人物处于愤怒情绪状态，发出预警信息。

本实施例的视频中人物情绪状态的识别装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例还提供一种计算机可读存储介质，该存储介质中存储有指令，该指令在计算机上运行时，使得计算机执行本公开任意方法实施例中描述的方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种视频中人物情绪状态的识别方法和装置 [P] . 中国专利： CN113822113A . 2021-12-21
2. 视频中人物的情绪识别方法及装置、计算机设备及介质 [P] . 中国专利： CN112699774A . 2021-04-23
3. AUTOMATED METHODS AND SYSTEMS FOR IDENTIFYING AND CHARACTERIZING FACE TRACKS IN VIDEO [P] . 美国专利： US2017083753A1 . 2017-03-23

机译：视频中人脸痕迹的自动识别方法和系统
4. A METHOD OF FACE DETECTION IN VIDEO IMAGES AND THE LIKE. [P] . IN2012KO00263A . 2013-09-13

机译：一种视频图像中人脸检测的方法。
5. IDENTIFICATION OF PERSONS ALCOHOL CONTENT IN BLOOD MEASURING DEVICE AND METHOD [P] . LT6269B . 2016-05-10

机译：血液测量装置中人员酒精含量的识别方法