首页> 中国专利> 一种面向在线视频学习的基于眼动和视频特征的情感识别方法

一种面向在线视频学习的基于眼动和视频特征的情感识别方法

摘要

本发明公开了一种面向在线视频学习的基于眼动和视频特征的情感识别方法。包括以下步骤:S1、自建眼动和视频特征的数据库,以学习视频作为刺激材料,获取数据;并对数据对齐、标注、预处理、数据集设置、数据类型转换、数据集划分等操作。S2、设计一个基于卷积神经网路的特征提取模块FE‑CNN,提取原始特征的深层特征。S3、设计一个基于卷积神经网路的情感分类模块EC‑CNN。S4、采用特征层融合、决策层融合和模型层融合对眼动信号、音频信号和视频图像进行融合,找出最佳融合策略。S5、对训练过程可视化并通过评价指标对所提出的网络结构评价,以检测所提出的网络的优劣。

著录项

  • 公开/公告号CN113850164A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利权人 桂林理工大学;

    申请/专利号CN202111065448.8

  • 发明设计人 陶小梅;鲍金笛;周颖慧;李泽;

    申请日2021-09-13

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 541004 广西壮族自治区桂林市七星区建干路12号

  • 入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及情感识别领域,尤其涉及一种面向在线视频学习的基于眼动和视频特征并使用改进的卷积神经网络提取深层特征进行情感识别的方法。

背景技术

在线教育通过利用互联网终端的优势,不仅打破了空间的局限,使教学形式更加灵活,而且凭借高效、低成本的优势吸引了越来越多的线上用户。随着5G和人工智能等领域飞速发展,现代教育技术也在快速发展与变革,为教育方式与教育手段带来了新的技术。

在在线视频学习过程中,学习者会受学习材料产生不同的情感状态,而情感对于人类的认知、学习、记忆、思维和社交都有很大的影响。关联主义学习理论者西蒙斯(GeorgeSiemens) 指出,在学习过程中,学习者的思维方式和情感状态会相互影响。相关心理学研究表明,学习过程中的感兴趣、高兴、满意等积极正向的情感状态有助于激发学习兴趣,促进认知活动;而走神、困惑、无聊等消极负向情感则会影响学习者的专注程度、耐心指标,阻碍认知活动。综上所述,学习者在学习过程中的情感状态会对学习者的学习效率产生一定的影响。而现有的在线网络学习环境注重学习者认知层面的适应性和个性化,即根据学习者的认知能力和知识状态提供合适的学习内容、学习路径和问题解答等,而较少考虑情感、兴趣、动机、意志等非智力因素在学习活动中的作用,忽视在线学习环境中和谐情感交互的理论和实践研究,以致其缺少情感层面的适应性和个性化,学习者在智慧学习过程中缺少情感支持。因此,在线视频学习环境中情感层面自适应交互的研究及实现成为急需解决的现实问题。该研究能够推动基于生物信息的情感识别在人机交互、教育、心理学以及认知科学中的发展,具有重要的科研价值及社会实践意义。

在传统教学中,师生面对面直观的交流,教师满意的表情、称赞的话语、鼓励的手势可给学习者传递积极的情感,以影响学习者的学习兴趣和态度。在线学习环境中师生由于时空上的准分离,教师将难以感受学习者的情感和状态,普遍存在“情感缺失”的问题。能够精准的识别学习者的情感是解决这一问题的关键。

视觉系统是人们获取外部信息最重要的通道,能客观反映出人脑的信息加工机制。人的认知加工过程很大程度上依赖于视觉系统,约有80%~90%的外界信息是通过人眼获取的。然而,通过视觉信息对情感进行识别的研究并不多。因此,探索眼动信息和视频内容信息三种信息与情感状态之间的关系是一种较新颖的研究方式。采集眼动信息可以使用眼动追踪(eye tracking)实验法即利用眼动仪对人的眼球运动进行记录并分析人们在注视过程中的各项眼动指标,并以此揭示人们的心理加工过程和规律的一种研究方法。眼动追踪实验法能够通过追踪用户眼部特征数据,更为客观的预测用户的信息需求,并且眼动追踪方法在记录的过程中更加自然、干扰较小,有其特殊的优越性。视频内容包括音频信号和视频图像,通过提取视频本身的对比度变化、亮度变化、以及镜头的运动和颜色的变化等特征来获取视频内容本身对学习者的影响。在教育领域,眼动信息和微表情信息可以反映学习者的认知过程、阅读理解机制,是学习状态的第一手资料,再配合上视频内容信息,可以更加真实的反映学习者当时的情感以及心理状态。

因此,通过眼动信息和视频内容信息快速精准的识别学习者的情感状态,当出现负向情感状态时,及时进行情感关怀,能够帮助学习者高效完成学习课程。如何设计一个能够精准识别学习者的情感状态的网络模型是当下需要解决的技术难题。

发明内容

本发明所要解决的技术问题:针对现有不足,本发明提出一种面向在线学习的基于眼动和视频特征的使用改进的卷积神经网络的情感识别方法,所提出的方法包括:

本发明的技术方案:

S1、自建眼动数据库、视频特征数据库,以学习视频作为刺激材料,获取眼动数据、视频特征数据。并对数据标注、预处理、数据集设置、数据类型转换和数据集划分等操作。提取眼动信号中瞳孔直径和注视时长、眼跳时长、眨眼时长的统计特征如均值、方差、标准差等,视频特征分为音频特征和视频图像特征,提取视频特征中音频信号的MFCC系数,对MFCC系数提取统计特征,在视频图像中提取了像素点个数C以及相邻两帧图像像素变化率Z,并结合眼动坐标变化轨迹和光流法求出的像素变化轨迹求眼动坐标差特征,对提取好的特征进行PCA降维;

S2、设计一个基于卷积神经网路的特征提取模块FE-CNN,提取原始特征的深层特征;

S3、设计一个基于卷积神经网路的情感分类模块EC-CNN,对感兴趣、无聊、困惑和高兴四种情感进行识别;

S4、采用特征层融合、决策层融合和模型层融合对眼动信号、音频信号和视频图像进行融合,找出最佳融合策略。

S5、对数据进行可视化来对分类结果进行分析并通过评价指标对所提出的网络结构评价,以检测所提出的网络的优劣。

进一步地,步骤S1具体包括以下步骤:

自建实验数据集,使用学习视频作为刺激材料,诱发被试者在学习过程中的情感状态,采集过程中的眼动信息;

根据采集到的眼动信息帧数采集同帧数的视频内容中的音频信号和视频图像;

采用离散型的情感标注模型对数据进行标注,将情感标注词分为感兴趣、高兴、无聊和困惑四种情感状态;

对采集的眼动数据、音频信号和视频图像进行预处理,预处理包括:高质量数据筛选,去除异常值和缺省值以及数据对齐;

把数据集的时间窗口大小设置为3秒;

图像数据划分为训练集、验证集和测试集,划分比例为70%,10%,20%;

提取眼动信号和MFCC的统计特征,对视频图像求相邻图像帧变化的像素点个数C以及像素变化率Z公式如下:

其中A

其中A

结合光流法和眼动坐标求眼动坐标差特征,该特征分为眼跳状态下的FCDE

公式中,(x,y)为眼动原坐标,(x

进一步地,步骤S2设计了一个特征提取网络FE-CNN来提取深层特征,FE-CNN网络包含四层3*3的卷积;

卷积计算过程为:

其中,l代表层数,M

所有的卷积层后面都跟一个Relu激活函数,该函数缓解梯度消失,也能在一定程度上解决梯度爆炸,从而加快训练速度;

ReLU激活函数表达式如下所示:

进一步地,步骤S3设计了一个情感分类网络EC-CNN:

EC-CNN网络包含四层3*3的卷积;

每层卷积后跟一层BatchNorm1d,在BatchNorm1d后再跟一个Relu激活函数。

进一步地,步骤S4采用特征层融合、决策层融合和模型层融合对眼动信号、音频信号和视频图像进行融合,找出最佳融合策略。

最后,步骤S5将训练过程可视化,采用精度(Accuracy)、精准率(Precision)、召回率(Recall)和F1分数(F1-score)以及混淆矩阵和ROC曲线衡量所设计的网络结构性能效果。

这个需要定义几个基本概念,N

精度是用来说明分类模型在总体测试样本上的识别率,一般来说,算法的性能也就越好。

精准率定义为正样本中分类正确的样本个数占所有被分类为正样本个数的比例,公式为:

召回率定义为正样本中分类正确的样本个数占所有实际分类为正样本个数的比例,它衡量分类将正样本分类正确的能力,公式为:

F1分数定义为准确率和召回率调和均值的两倍,F1分数综合考虑分类器的准确率和召回率能力,公式为:

使用上述评价指标对所设计的网络进行评价。

附图说明

图1为眼动信号单模态的情感识别方法的流程图。

图2为音频信号单模态的情感识别方法的流程图。

图3为视频图像单模态的情感识别方法的流程图。

图4为眼动信号、音频信号和视频图像三个模态的混淆矩阵,其中a为眼动信号混淆矩阵,b为音频信号混淆矩阵,c为视频图像混淆矩阵。

图5为眼动信号、音频信号和视频图像三个模态的ROC曲线,其中a为眼动信号ROC曲线,b为音频信号ROC曲线,c为视频图像ROC曲线。

图6为多模态特征层融合策略的流程图。

图7为多模态决策层融合策略的流程图。

图8为多模态模型层融合策略的流程图。

具体实施方式

下面结合实例和附图对本发明做进一步的说明,但本发明的实施方式不限于此。

本申请的发明思路是,将眼动瞳孔直径数据、音频信号中的MFCC系数、视频图像中的像素变化率特征以及眼动坐标差特征对齐,输入对齐好的数据样本;接着,使用FE-CNN网络对数据进行深层提取,最后由EC-CNN网络输出情感类别,实现对情感状态的识别。

本专利提供一种面向在线视频学习的基于眼动信号和视频特征的情感识别方法,包括以下步骤:

S1、自建眼动数据库、视频内容数据库,以学习视频作为刺激材料,获取眼动特征、音频特征和视频图像特征。以学习视频为刺激材料,采集与眼动数据同帧的视频特征如:MFCC 系数和像素变化率等特征。将三种模态的数据对齐、标注、预处理、数据集设置、数据类型转换和数据集划分等操作。

更具体的,自行制备眼动数据库、视频内容数据库,其中四个视频时长均为2分钟左右。四个刺激视频的主题分别是《将进酒诗歌讲解》,《胡夫金字塔之谜》,《文言文虚词“所”字的用法》和《双缝干涉实验》,分别用来诱发高兴,感兴趣,无聊,困惑四种情感状态。整个数据采集实验过程:在实验进行前,要求被试者进行知识问卷测试,测量被试者的先前知识,其内容与实验材料内容相关。然后对被试者进行眼部校准,以检查被试者是否作为采集眼动信息的合格被试者。在观看学习视频前需要观看注视点,即出现在屏幕正中的十字准星,时长为180s,加入注视点后可以获得眼动的数据的基线值。被试者在计算机屏幕上观看播放的教学视频,在视频播放结束后,被试会有短暂的休息并完成后测检验,再进行第二个视频的观看。整个实验结束后,由实验人员为被试者讲解标注模型,确保被试者完全理解上述模型后,让被试者观看回顾视频,包括教学视频及被试本人观看教学视频时的录像,由被试回顾当时产生的情感状态划分事件,并根据分类情感模型中的正向和负向情感词选择自己当时所处的情感状态,对视频进行标注。

数据采集实验中的情感状态采用“暗示回顾”法和被试主观报告方式获取,即被试者观看学习视频后,回放学习视频及同步录制的被试者面部表情视频,刺激被试者回忆当时的情感状态,将同步视频分割成事件片段,并从情感分类模型中的情感词集中选择自己的情感状态,有正向情感状态和负向情感状态。正向的情感状态包括高兴、感兴趣;负向的情感状态包括无聊、困惑。

数据预处理:去掉实验过程中视线跟踪丢失的被试的眼动数据及其同帧的其他两种数据,将获取的数据按不同步长划分数据。最后保留的眼动特征包括左右眼瞳孔直径,注视,眼跳,眨眼数据和眼动角速度。保留的视频内容包括音频信号中的MFCC系数特征和视频图像中的像素变化率特征。特征提取过程如图1、图2和图3所示。将所有被试数据加上情感属性标签‘label’,将量表所标注得的感兴趣状态标为‘1’,高兴情感状态标为‘2’,无聊情感状态标为‘3’,困惑情感状态标为‘4’。

数据集设置:通过实验2秒、3秒和5秒的时间窗口的数据集对实验结果的影响,最终发现在时间窗口为3秒的数据集下,实验结果最好,因此我们将数据集时间窗口设置为3秒。

数据类型转换:将从三个模态中提取的特征转为一维向量的形式,便于所设计的网络进行训练。

数据集划分:将据集进行划分,将训练集、验证集和测试集按70%、10%和20%进行划分。

步骤S2,设计一个特征提取网络FE-CNN;提取浅层特征中的深层特征。

S3、设计一个情感分类网络EC-CNN,对感兴趣、高兴、困惑和无聊四种情感进行分类。

S4、采用三种多模态融合策略对三个模态进行融合,三种融合策略流程图如图6、图7 和图8所示。

S5、更进一步地,对训练过程可视化并通过评价指标对所提出的网络结构评价,以检测所提出的网络的优劣,如图4和图5所示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号