公开/公告号CN113812948A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室);
申请/专利号CN202111052318.0
申请日2021-09-08
分类号A61B5/16(20060101);A61B5/00(20060101);
代理机构34115 合肥天明专利事务所(普通合伙);
代理人闫客
地址 230000 安徽省合肥市望江西路5089号中国科学技术大学先进技术研究院未来中心B1205-B1208
入库时间 2023-06-19 13:48:08
技术领域
本发明涉及心理测量技术领域,特别涉及一种去量表化的焦虑抑郁心理检测方法及装置。
背景技术
当前在临床环境中,测量门诊或住院病人的焦虑情况的诊断方法多以量表为主,当前应用范围最广的的心理评估方法即使用汉密尔顿焦虑量表(Hamilton AnxietyScale,HAMA)、汉密顿抑郁量表(HamiltonDepressionScale,HAMD)完成,其他使用较为普遍的也有抑郁自评量表(Self-rating depression scale,SDS)、焦虑自评量表(Self-RatingAnxiety Scale SAS)。HAMA、HAMD需要两名专业医生对病人的情况进行评估,耗时且费力。
或者在生物医药领域,使用试剂鉴别和诊断焦虑抑郁症,但从基因、药物的角度虽然对靶点治疗提供了重要依据,但在临床的实际应用中很难快速的得到诊断结果;又如基于脑电数据进行诊断,但其需测量脑电数据、脑影像学数据进行分析,使测量成本高难以普适的使用,特别是除临床以外的环境中使用。
以上提到的传统心理检测方法、生物试剂检测等方法操作时过程繁琐,且需要专业人士操作,无法实现快速的一体化结果输出。在焦虑、抑郁这种受外界环境影响大、不稳定的心理状态往往需要患者及时回访,因此设计一体化简易操作,可以快速监测装置对该种心理问题的实时复诊、回访具有重要意义。
由此,相关技术人员研发设计了基于视频分析方法,使用视频信息对个体的心理状态进行监测的技术,但很多研究仅使用单模态识别,当识别准确率、模型敏感度低时,很容易出现误诊的情况。
发明内容
本发明的目的在于克服上述背景技术中的不足,旨在提供一种具有普适性且检测结果准确的焦虑抑郁心理检测方法。
为实现以上目的,一方面,采用一种去量表化的焦虑抑郁心理检测方法,包括:
获取测试者参加心理访谈过程的音视频数据,并从音视频数据中提取得到视频数据和音频数据;
将视频数据输入至预先构建的回归模型中,得到基于视频模态的焦虑抑郁预测值;
将音频数据输入至预先构建的线性回归器中,得到基于音频模态的焦虑抑郁预测值;
将基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值进行融合,得到测试者的心理焦虑抑郁评估结果。
进一步地,所述回归模型和所述线性回归器的构建过程包括:
采集参与者的心理量表以及采集心理量表过程中参与者的面部视频数据;
基于参与者的心理量表和面部视频数据,提取得到第一训练数据集和第二训练数据集;
利用第一训练数据集建立所述回归模型;
利用第二训练数据集建立所述线性回归器。
进一步地,所述基于参与者的心理量表和面部视频数据,提取得到第一训练数据集和第二训练数据集,包括:
根据所述每个参与者对应的心理量表,计算每个参与者对应的焦虑抑郁得分值;
根据所述每个参与者的面部视频数据,提取该参与者对应的多模态特征,所述多模态特征包括人脸特征、人脸关键点、眼睛注视角、面部运动单元特征和音频数据;
对于所述每一参与者,将每一参与者的人脸特征、人脸关键点、眼睛注视角、面部运动单元特征及焦虑抑郁得分值作为第一数据项构建得到第一训练数据集,将每一参与者的音频数据和焦虑抑郁得分值作为第二数据项构建得到第二训练数据集。
进一步地,所述利用第一训练数据集建立所述回归模型,包括:
将所述第一训练数据集中的人脸特征、人脸关键点、眼睛注视角、面部运动单元特征作为卷积神经网络的输入,将焦虑抑郁得分值作为标签,利用卷积神经网络将多模态特征进行非线性拟合,建立所述回归模型。
进一步地,所述利用第二训练数据集建立所述线性回归器,包括:
提取所述第二训练数据集中音频数据的梅尔频率倒谱系数;
将梅尔频率倒谱系数作为循环神经网络的输入,并将所述第二训练数据集中的焦虑抑郁得分值作为标签,建立所述线性回归器。
第二方面,采用一种去量表化的焦虑抑郁心理检测装置,包括音视频采集设备、客户端和服务器,服务器上部署有回归模型和线性回归器,其中:
音视频采集设备用于获取测试者参加心理访谈过程的音视频数据,并从音视频数据中提取得到视频数据和音频数据;
客户端与服务器连接,利用采用回归模型和线性回归器分别对所述视频数据和音频数据进行处理,得到基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值并进行融合,得到测试者的心理焦虑抑郁评估结果。
进一步地,所述回归模型和所述线性回归器的构建过程包括:
采集参与者的心理量表以及采集心理量表过程中参与者的面部视频数据;
基于参与者的心理量表和面部视频数据,提取得到第一训练数据集和第二训练数据集;
利用第一训练数据集建立所述回归模型;
利用第二训练数据集建立所述线性回归器。
进一步地,所述基于参与者的心理量表和面部视频数据,提取得到第一训练数据集和第二训练数据集,包括:
根据所述每个参与者对应的心理量表,计算每个参与者对应的焦虑抑郁得分值;
根据所述每个参与者的面部视频数据,提取该参与者对应的多模态特征,所述多模态特征包括人脸特征、人脸关键点、眼睛注视角、面部运动单元特征和音频数据;
对于所述每一参与者,将每一参与者的人脸特征、人脸关键点、眼睛注视角、面部运动单元特征及焦虑抑郁得分值作为第一数据项构建得到第一训练数据集,将每一参与者的音频数据和焦虑抑郁得分值作为第二数据项构建得到第二训练数据集。
进一步地,所述利用第一训练数据集建立所述回归模型,包括:
将所述第一训练数据集中的人脸特征、人脸关键点、眼睛注视角、面部运动单元特征作为卷积神经网络的输入,将焦虑抑郁得分值作为标签,利用卷积神经网络将多模态特征进行非线性拟合,建立所述回归模型。
进一步地,所述利用第二训练数据集建立所述线性回归器,包括:
提取所述第二训练数据集中音频数据的梅尔频率倒谱系数;
将梅尔频率倒谱系数作为循环神经网络的输入,并将所述第二训练数据集中的焦虑抑郁得分值作为标签,建立所述线性回归器。
与现有技术相比,本发明存在以下技术效果:本发明通过无接触的多模态音视频特征的评估方法及装置实现了心理评估的去量表化过程,不仅可以准确真实反映个体的焦虑和抑郁程度,而且和传统心理学仅用量表测量的方法相比,更加的方便快捷且具有可推广性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种去量表化的焦虑抑郁心理检测方法的流程图;
图2是参与者信息采集示意图;
图3是参与者信息采集流程图;
图4是多模态的视频信息处理流程图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1至图4所示,本实施例公开了一种去量表化的焦虑抑郁心理检测方法,包括如下步骤S1至S4:
S1、获取测试者参加心理访谈过程的音视频数据,并从音视频数据中提取得到视频数据和音频数据;
S2、将视频数据输入至预先构建的回归模型中,得到基于视频模态的焦虑抑郁预测值;
S3、将音频数据输入至预先构建的线性回归器中,得到基于音频模态的焦虑抑郁预测值;
S4、将基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值进行融合,得到测试者的心理焦虑抑郁评估结果。
需要说明的是,测试者在交谈前,打开PC机上已经安装好的采集客户端软件的采集摄像头并点击开始,测试者需要对着视频做15秒的自我介绍,测试者提交视频信息,系统将自动识别参与者的焦虑与抑郁状态,做出评估后输出结果,全部评估过程一体化快速完成,此结果可应用于临床中,为专家的诊断提供参考。
作为进一步优选的技术方案,所述回归模型和所述线性回归器的构建过程包括如下步骤S01至S04:
S01、采集参与者的心理量表以及采集心理量表过程中参与者的面部视频数据,过程具体为:
(1)选择参与者
在三甲医院的门诊部招募自愿参与心理测评的成人参与者,共300人,其中男性150人、女性150人。在其他环境中(如学校)招募18岁以上的参与者100人,其中男性50人、女性50人。预计其他环境招募的志愿者的焦虑、抑郁程度显著低于来自医院的参与者,以此均衡数据分布情况。所有参与者在18-40岁、40-60岁、60岁以上的三个年龄阶段中分布平均。
(2)数据采集
心理量表数据采集:由一名具有丰富临床经验的心理专业医生初步与患者交谈,通过访谈的形式对病人进行诊断并记录诊断结果;后将患者带入另一独立诊室,以访谈的形式与患者沟通,由另一专家根据患者实际情况帮助其填写HAMA、HAMD,并记录量表所得的结果;随后将两名专家的评定结果相结合,将患者分为无焦虑或无抑郁、可能有焦虑或可能有抑郁、肯定有焦虑或肯定有抑郁、以及有严重焦虑或抑郁的四个不同等级,若两位专家的诊断结果有偏差,则重复以上测量过程,直至统一为止。
视频信息采集流程:在参与者与两位专家进行访谈交流的过程中,一直有相机全程记录参与者的肢体姿态和人脸面部表情变化,每位参与者至少有10分钟以上的记录时间。数据采集之前,所有参与者须签署知情同意书并具有随时退出的权利。
需要说明的是,在与两位专家的访谈过程中,需要两台摄像机记录视频信息,摄像机的视频分辨率为720p以上,帧率为30帧,面部不可被遮挡,不能戴口罩(佩戴眼镜不影响测试结果,环境光照强度>300lux,尽可能请在无频闪或低频闪的环境下进行视频的录制,且面部的光照需要尽可能的均匀,无过多的阴影遮挡。
专家登录采集终端前端界面利用心理量表HAMA、HAMD通过对参与者一问一答的方式进行量表评估,采集结束后将上传量表与视频信息服务后端并进行一一对应。
S02、基于参与者的心理量表和面部视频数据,提取得到第一训练数据集和第二训练数据集,过程包括:
将每个参与者所得量表数据整理记录并计算出对应的焦虑抑郁得分值,将参与者面部视频数据均匀抽帧,使用开源工具openface将视频中的人脸进行旋转对齐后,并提取出多模态特征,多模态特征主要包括参与者人脸特征数据、人脸关键点特征、面部活动单元、参与者音频数据和参与者的肢体活跃度等,然后将每一模态的数据与量表所得数据对应保存,以便后续的数据处理;
对于所述每一参与者,将每一参与者的人脸特征、人脸关键点、眼睛注视角、面部运动单元特征及焦虑抑郁得分值作为第一数据项构建得到第一训练数据集;
将每一参与者的音频数据和焦虑抑郁得分值作为第二数据项构建得到第二训练数据集。
S03、利用第一训练数据集建立所述回归模型,包括:
将第一训练数据集中的单帧人脸特征、人脸关键点,眼睛注视分布和面部运动单元进行特征作为卷积神经网络的输入层,将第一训练数据集中抑郁焦虑情绪的得分值作为标签,利用卷积神经网络对特征进行非线性拟合,建立回归模型从而输出焦虑和抑郁的具体得分值。
需要说明的是,回归分析(Linear Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,简单的说就是如果有一个数据集x,它所对应的真实值y1,回归就是通过将这些数据集拟合出一个函数关系,使得y2=g(x),当然拟合不可能那么完美,所以就会有误差,这个误差就是y2-y1,即拟合出来的值,减去真实值。本实施例通过卷积神经网络充当拟合这个函数的方法。
S04、利用第二训练数据集建立所述线性回归器,过程包括:
利用音频分析工具包pyAudioAnalysis提取第二训练数据集中音频数据中的梅尔频率倒谱系数(MFCC)中的logfbank音频模态的特征,并作为循环神经网络GRU的输入,通过采集数据的量表得分值作为标签建立一个线性回归器,用于完成通过语音特征预测基于音频模态的焦虑抑郁具体得分值作为回归结果。
作为进一步优选的技术方案,上述步骤S4:将基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值进行融合,得到测试者的心理焦虑抑郁评估结果,具体为:取基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值的平均值作为该视频最终的焦虑抑郁预测结果。
需要说明的是,初次测量与模型训练后,可以做到去量表化,即后续对于测试者的心理检测室,不在需要对测试者进行量表的测量,实现了心理评估的去量表化过程,只需获取与测试者访谈的视频,视频内容只需要15秒即可,不仅可以准确真实反映个体的焦虑和抑郁程度,而且和传统心理学仅用量表测量的方法相比,更加的方便快捷且具有可推广性。
本实施例还公开了一种去量表化的焦虑抑郁心理检测装置,包括音视频采集设备、客户端和服务器,服务器上部署有回归模型和线性回归器,其中:
音视频采集设备用于获取测试者参加心理访谈过程的音视频数据,并从音视频数据中提取得到视频数据和音频数据;
客户端与服务器连接,利用采用回归模型和线性回归器分别对所述视频数据和音频数据进行处理,得到基于视频模态的焦虑抑郁预测值和基于音频模态的焦虑抑郁预测值并进行融合,得到测试者的心理焦虑抑郁评估结果。
需要说明的是,本实施例将预先训练好的回归模型和线性回归器部署在远程服务器上,本地机器只需要通过采集客户端连接远程服务器上的模型就可以对患者进行无接触无问诊的焦虑抑郁的检测。
本装置通过客户端进行在线提交个体视频,直接对视频进行分析并得出个体的焦虑抑郁测量结果,方便便携,可用作量产或测量评估大量的视频数据,预测准确率高,评估效率高。在初次实验后,预测模型与系统完整的建立起来,后续使用产品所需的数据减少了,使用过程简单易操作。解决了以往在门诊或是心理咨询中对于来访者的心理测量与评估往往需要耗费大量时间,给医务工作者或心理专家带来了巨大的工作量的问题。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种去同步化神经元活动的装置
机译: 一种用于调节活化剂去氢平台的装置。
机译: 正面障碍物一种用于机动车的人行横道检测方法,其涉及比较参考图像和由照明装置投射并由摄像机可视化的图像,以找到与障碍物同化的非变形区域。