首页> 中国专利> 一种基于视频中个体面部分析的情绪感知模型的建立方法

一种基于视频中个体面部分析的情绪感知模型的建立方法

摘要

本发明提供了基于视频中个体面部分析的情绪感知模型的建立方法,通过正性负性情绪量表测评多位被试的个体情绪状态,分别得到与被试个体情绪状态相对应的积极情绪与消极情绪得分;采集被试的面部视频数据,且与被试所测情绪状态得分相对应;在二维空间中对所采集到的视频数据中的面部关键点进行数据去噪预处理;通过计算相邻帧之间差异度量方差选取代表情绪感知的面部特征点;对面部特征点进行特征提取、特征降维和特征选择,采用序列后向选择(SBS)算法通过分类器优化特征集;采用机器学习中的回归算法,将得到的个体积极情绪与消极情绪得分作为标注数据进行模型训练和验证,得到并保存针对个体积极情绪与消极情绪的预测模型。本发明无需用户自我报告,时效性高,模型预测得分与量表测评得分的相关系数可达到中到强相关水平。

著录项

  • 公开/公告号CN112507959A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 中国科学院心理研究所;

    申请/专利号CN202011522175.0

  • 发明设计人 朱廷劭;刘晓倩;王亚猛;赵楠;

    申请日2020-12-21

  • 分类号G06K9/00(20060101);G06K9/40(20060101);G06K9/62(20060101);

  • 代理机构11591 北京东方芊悦知识产权代理事务所(普通合伙);

  • 代理人彭秀丽

  • 地址 100083 北京市大兴区林萃路16号院

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明涉及情绪感知技术领域,具体涉及一种基于视频中个体面部分析的情绪感知模型的建立方法。

背景技术

现代社会中每个人或多或少都有着心理上的问题,比如紧张烦躁,焦虑抑郁等。健康的心理状态和积极的情绪可以促进社会和谐,相反,不健康的心理状态或消极的情绪会给社会带来一定的影响与危害。我国自杀率约为每年23人\10万,是国际平均数的2.3倍。精神疾病发病率在15-17.5%之间,其中严重精神病发病率约为1-1.5%;全国约有1亿名精神病患者。中国具有心理问题的人几乎接近全部人口的十分之七之多,因此,是否能够及时准确地感知出人们的情绪状态就显得及为重要。

由于个体的心理特征、主观感觉,作为内隐变量无法直接测量,目前在传统的心理学、生理学等基础上的诊断方法主要有他评法和自陈法两种。他评法是由受训过的专业人员利用临床访谈或互动时的观察,对访谈者进行评估。他评法常常使用有限数量的顺序评级来确定心理问题的严重程度,这种方法存在不少问题:首先是操作定义常常是模糊的,如中等、轻度等描述更像是一种定性描述,不同评分者间难以统一标准;其次是对变化不敏感,用观察的方法去判断他人的变化很容易错过细微的变化。自陈法在上述问题上有所改善。访谈者通常被认为是具备自知力的,因此访谈者自我陈述的情绪状态具有重要的参考价值。但自陈法也存在一些问题:首先,自陈法受限于访谈者的体察和表达能力,人们并不总能准确的评估和报告自己的症状及其严重程度;其次,自陈体现的是访谈者对自身状态的评估,是纯主观的,这种情况很容易出现隐瞒和谎报;第三,问卷在一定程度上可以区分病患与普通人,很难区分不同疾病的病人。

同时,由于对心理问题的认识不深,很多人没有意识到自己正受到心理问题的困扰,在身心健康出现问题时不知道是否应该求助。因此,建立一种新的研究方法能够便捷准确预测出人们的心理情绪状况就迫在眉睫。

发明内容

为了解决上述所存在的技术问题,实现对人们心理情绪状况的准确预测,解决心理上的困扰,为此,本发明提供了一种基于视频中个体面部分析的情绪感知模型的建立方法。

本发明采用如下技术方案:

一种基于视频中个体面部分析的情绪感知模型的建立方法,所述方法包括如下步骤:

步骤1,通过正性负性情绪量表(PANAS)测评多位被试的个体情绪状态,分别得到与被试个体情绪状态相对应的积极情绪与消极情绪得分;

步骤2,采集被试的面部视频数据,且与被试所测积极情绪与消极情绪得分相对应;

步骤3.1,在二维空间中对所采集到的视频数据中的面部关键点进行数据去噪预处理;

步骤4,将相邻两帧中同一面部关键点的欧几里得距离作为差异度量,得到视频时间轴上各帧间面部关键点的差异度量d

步骤5,在所采集到的被试面部视频时间轴上,结合步骤4所得差异度量d

步骤6,将步骤5中所得每位被试所有面部关键点的方差σ进行排序,选择每位被试所得方差中数值较大的前X个方差值对应的X个面部关键点;

步骤7,集合步骤6得到的每位被试的X个面部关键点进行分析,选择出现频次最多的Y(Y<X)个面部关键点作为最终分析的面部特征点;

步骤8,对选取的Y个面部特征点进行特征提取、特征降维和特征选择,采用序列后向选择(SBS)算法通过分类器优化特征集;

步骤9,采用机器学习中的回归算法,将步骤1中得到的个体积极情绪与消极情绪得分作为标注数据进行模型训练和验证,得到并保存针对个体积极情绪与消极情绪的预测模型。

进一步地,所述方法还包括坐标平移步骤3.2,将去噪处理后的视频数据中的坐标原点平移至被试鼻子中心,将某一帧鼻子中心的坐标设定为O(x

进一步地,所述步骤2中,在明亮安静的室内空间架设摄像装置,根据播放的语音指令在规定区域内自动拍摄被试演讲时的面部视频资料,视频采集时间1min~3min,采集频率为25Hz。

优选地,所述步骤3.1中的面部关键点包括口、鼻、眼睛、眉毛、脸颊和嘴巴部位的面部关键点70个。

进一步优选地,所述步骤5中计算每位被试70个面部关键点的方差σ

所述步骤4中通过如下公式计算差异度量d

其中:i是帧数,j为第j个面部关键点;

N是视频资料中的总帧数量;

m是面部关键点的数量。

所述步骤8中通过时域分析法和频域分析法对各个面部特征点进行特征提取,再使用主成分分析(Principal components analysis,PCA)对频域分析方法中所得频域特征进行降维,选取频域特征进行变换后的前100个主成分,使得重构误差小于5%,降到100维。

通过时域分析法提取面部特征点的均值、方差、偏度、峰度、两轴之间的相关系数五种时域特征。

所述步骤9中采用机器学习中的Adaboost回归算法建立预测模型,并采用十折交叉验证对所建立的积极情绪与消极情绪预测模型进行验证。

本发明技术方案具有如下优点:

A.本发明通过所提供的情绪感知方法建立心理情绪感知模型,所建立的预测模型可以实现对个体积极情绪与消极情绪的自动识别,无需用户自我报告,时效性高;整合情绪感知模型建立预测系统,机器模型预测的个体情绪状态(积极情绪和消极情绪)的得分与量表获得的个体情绪状态得分之间的相关系数可达到中到强相关水平(0.5-0.8)。

B.本发明通过将视频资料置于二维空间中,采用数据去噪,消除原始数据中噪声数据;采用坐标平移方法,排除人的位置对面部变化的干扰;通过对所有面部关键点的筛选,选取面部变化较为丰富且代表情绪感知的面部特征点,经对面部特征点进行提取特征数据,辅以降维,显著提高数据计算时效,提高感知模型精度。

C.本发明所提供的情绪感知方法是基于被试个体的视频演讲资料,无需用户执行额外的测试任务,对用户没有任何干扰,能够更自然地实现对行为数据的记录和情绪的评估,生态效度高。

D.本发明在获取被试视频资料时,可以将摄像机架设在不同的工作环境中,能够方便测量在不同场景下对用户的情绪进行自动评估,不受时间、地点限制。

附图说明

为了更清楚地说明本发明具体实施方式,下面将对具体实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的情绪感知建模方法流程图;

图2基于视频分析捕捉的面部关键点示例图示;

图3基于面部分析的个体情绪感知预测模型的建立流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了一种基于视频中个体面部分析的情绪感知模型的建立方法,包括如下步骤:

【S1】,通过正性负性情绪量表(PANAS)测评多位被试的个体情绪状态,分别得到与被试个体情绪状态相对应的个体积极情绪与消极情绪得分。

【S2】,采集被试面部视频数据1-3分钟,这里不限制采集视频的时间长度,可以超过3分钟,也可以少于1分钟,当所采集的视频数据时间较长时,则后续数据处理时间较长。

这里的具体面部行为数据获取如下,在数据采集过程中,对场地要求如下:

(1)将摄像装置架设在明亮安静的室内空间,保证空间长度不少于4米,宽度不少于2米,可以使被试在无干扰下进行数据采集;

(2)在室内设置专用的演讲区域,被试距离摄像装置3米。

对数据采集的要求:提前在空间内确定出摄像机位置,保证能够连续拍摄被试无遮挡的面部视频。

摄像装置的要求:实验场景需要1台高清摄像机、1个三脚架。

实验开始:请在我说开始后按照日常状态在规定区域内演讲2分钟,听到结束指令后停止,谢谢。

实验结束,谢谢您的参与。

基于面部分析的个体情绪感知系统主要对视频摄像头记录下的个体在日常演讲状态中的面部活动进行采集和分析。在对视频文件中个体面部的分析中,通过对面部关键点的捕捉和跟踪来描述个体的运动模式。本发明使用基于Openpose工具包开发的面部关键点检测及跟踪算法,捕捉记录视频中面部活动的70个面部关键点的两维坐标,视频的采样频率为25Hz。

【S3.1】,在二维空间中对所采集到的视频数据中的面部关键点进行数据去噪预处理。视频分析中所使用的面部关键点优选共计70个点,具体的位置如图2所示。

随着时间的推移,面部关键点在二维空间中形成了一条轨迹。而由于抖动(随机噪声)和遮挡等,这条轨迹上有许多异常的波动,这些波动可以看作信号中的噪声,这些噪声会影响心理感知模型的精度。本发明为了提取更有效的面部变化特征,提高感知模型的精度,需要对原始数据进行预处理,去除噪声数据。由于采集的面部数据都是属于低频数据,对原始低频信号数据的噪声过滤方法通常利用低通滤波器。

本发明中采用低通滤波的方法对原始低频信号去噪。均值滤波是一种常用的信号滤波去噪方法,其是一种低通滤波方法。该方法运算简单,对高斯噪声具有良好的去噪能力。

【S3.2】,将视频数据中的坐标原点平移至被试鼻子中心,将某一帧鼻子中心的坐标设定为O(x

在录制视频时,不同被试很难做到相对摄像头的位置保持一致,而位置的变化并不等同于面部的变化。为了排除人的位置对面部变化的干扰,本发明采用将坐标原点摄像头平移到人的鼻子中心,即认为鼻子的位置是不变的。

设某一帧鼻子中心的坐标为O(x

P′(x′,y′)=P(x,y)-O(x

【S4】,将相邻两帧中对应面部关键点的欧几里得距离作为差异度量,得到每帧面部关键点的差异度量d

为了描述面部表情的细微变化,本发明选择这些面部关键点中的面部特征点,这些面部特征点选择的标准是与相邻帧之间存在差异的大小。具体来说,对于个体的N帧面部数据,每帧包含70个面部关键点。每个面部关键点包含X和Y轴的坐标信息。将两个相邻帧中对应点的欧几里得距离作为差异度量,在第i个帧中的第j个面部点的差异度量定义为:

其中:i是帧数,j为第j个面部关键点;

N是视频资料中的总帧数量;

m是面部关键点的数量,取m=70。

【S5】,结合【S4】所得差异度量d

根据【S4】得到如下的(N-1)*70矩阵D:

之后计算矩阵D中每一列的方差,可以得到70个值σ

【S6】,将【S5】中所得每位被试所有面部关键点的方差σ进行排序,选择每位被试所得方差中数值较大的前X个方差值对应的X个面部关键点;

具体地,对于【S5】中所得到的70个值σ

【S7】,集合【S6】得到的每位被试的32个面部关键点进行分析,选择出现频次最多的16个面部关键点作为最终分析的面部特征点。

本发明不限于上述最终选取的16个面部关键点,当然还可以选择其它数量的面部关键点,面部特征点的具体数量不作为对本发明保护范围的限定。

【S8】,通过时域分析法和频域分析法对各个面部特征点进行特征提取,再通过特征降维和特征选择,采用序列后向选择(Sequential Backward Selection,SBS)算法对特定的分类器优化特征集。

特征提取可以寻找最能代表信号的主要特点,在面部分析中,一般都包含或隐含着特征提取这个过程。该过程就是将大量的原始数据用相对简单的特征参数进行描述;特征提取的基本任务是从原始的面部数据中提取出那些对识别最有效的特征矢量,从而为准确和高效的识别提供支持。目前面部数据特征提取的方法主要有两类:时域分析法和频域分析法。时域特征展示了面部数据在时间维度上的特性,频域特征代表了面部数据在频域维度上的特性。

在本发明中,利用时域分析法提取了5种时域特征:均值、方差、偏度、峰度、两轴之间的相关系数。

利用频域分析法提取频域特征时,主要使用离散傅里叶变换。快速傅里叶变换是离散傅里叶变换的一种快速算法。DFT计算复杂度达到了O(n2),快速傅里叶变换计算复杂度仅为O(nlogn)。快速傅里叶变换定义如下:

其中N表示数据的长度,i表示复数。F

在利用时域分析法和频域分析法提取的时域和频域特征中,难免存在冗余的特征,或者是影响模型效果的特征。为了使得模型更加简单高效,并提取出有利于分类的特征,需要进行降维和特征选择。由于提取的频域特征远比时域特征多。每个特征都在不同程度上反映了所研究问题的某些信息,并且特征之间彼此有一定的相关性,变量太多会增加计算量和问题的复杂性。本项目使用主成分分析(Principal components analysis,PCA)对频域特征进行降维,选取了频域特征进行变换后的前100个主成分,使得重构误差小于5%,降到100维。

上述采用主成分分析的计算步骤包括:对特征矩阵进行归一化;计算归一化后的数据集的协方差矩阵;计算协方差矩阵的特征值和特征向量;保留最重要的k的特征;找出k个特征值对应的特征向量;将原始数据乘以k个特征向量组成的矩阵,就可以得到降维后的数据。由于为现有分析方法,这里不再对其计算过程做详细描述。

特征选择是指从已有的特征集中选出部分特征使得评价函数最优化,评价函数是用于评价一个特征子集好坏的指标,这里采用封装器(Wrapper)作为评价函数。本文采用序列后向选择(Sequential Backward Selection,SBS)算法对特定的分类器优化特征集。该算法从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数最优。

【S9】,采用机器学习中的回归算法建立模型,将步骤1中得到的个体积极情绪与消极情绪得分作为标注数据建立模型,得到并保存针对个体积极情绪与消极情绪的预测模型;

为了建立基于面部分析的个体情绪感知系统,主要利用机器学习中的回归算法建立模型,使用的回归学习算法是Adaboost,它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

在机器学习和模式识别的相关研究中,交叉验证(Cross validation)常被用于防止模型过于复杂而引起的过拟合,有时亦称循环估计,是一种统计学上将数据集(dataset)切割成较小子集的实用方法。其思想是先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集(training set)。而其它的子集则被称为测试集(testing set)。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize)。

本发明中采用十折交叉验证(10-fold cross-validation),用来测试算法准确性。具体来说,将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计。十折交叉验证可以有效的避免过拟合以及欠拟合状态的发生,最后得到的结果也比较具有说服性。

【S10】,将所采集到的待分析被试的面部视频资料输入至【S9】中所建立的预测模型中,获得待测被试个体的积极情绪与消极情绪分数。

在建立基于面部分析的个体情绪感知系统构建的过程中,采用机器学习方法,分别建立视频记录的个体面部行为与积极情绪、消极情绪间的关联模式,构建基于面部行为分析的情绪感知系统。技术方案依据数据挖掘基本流程设计,流程如图3所示。

为了开发基于面部分析的个体情绪感知系统,首先将积极情绪识别模型和消极情绪识别模型进行整合,并利用PyQT开发系统界面,完成情绪感知系统的开发。

目前,将所建立的情绪感知模型嵌入计算机中,形成检测分析系统,系统具备的心理感知能力包括对个体积极情绪和个体消极情绪的有效识别。若输出为1分钟的视频数据,计算以上心理指标输出结果时间大约需要2分钟左右,实现快速结果呈现。机器模型预测的个体情绪状态(积极情绪和消极情绪)的得分与量表获得的个体情绪状态得分之间的相关系数可达到中到强相关水平(0.5-0.8)。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号