首页> 中国专利> 基于多任务学习与层叠跨模态融合的多模态情感分析方法

基于多任务学习与层叠跨模态融合的多模态情感分析方法

摘要

本发明属于自然语言处理领域。技术方案是:一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:步骤1:将原始视频拆剪为视频片段,提取可被模型识别的文本、音频与视觉特征;步骤2:将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;步骤3:将步骤2所得的多模态高层特征与单模态高层特征进行拼接,通过多层感知机,输出最终的情感分类结果。该方法能在保留模态异质性的前提下,连贯融合不同模态的特征,有效识别复杂场景下的多模态情感。

著录项

  • 公开/公告号CN114694076A

    专利类型发明专利

  • 公开/公告日2022-07-01

    原文格式PDF

  • 申请/专利权人 浙江理工大学;

    申请/专利号CN202210364764.3

  • 发明设计人 陈巧红;孙佳锦;漏杨波;

    申请日2022-04-08

  • 分类号G06V20/40(2022.01);G06V40/16(2022.01);G06V10/764(2022.01);G06K9/62(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构杭州九洲专利事务所有限公司 33101;杭州九洲专利事务所有限公司 33101;

  • 代理人王之怀;王洪新

  • 地址 310018 浙江省杭州市下沙高教园区白杨街道2号大街928号

  • 入库时间 2023-06-19 16:03:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-19

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022103647643 申请日:20220408

    实质审查的生效

  • 2022-07-01

    公开

    发明专利申请公布

说明书

技术领域

本发明属于自然语言处理领域,具体涉及一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合,并利用多任务学习指导模型保存特征异质性,对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性。

背景技术

多模态情感分析是一项新兴的深度学习技术,不仅应用于视频的情感极性识别,也是用户行为分析、对话生成等下游任务的基础。作为文本情感分析的延伸,其数据源不仅有文本模态,还包含了音频与视觉模态,同一数据段中的不同模态往往相互补充,为语义和情感消歧提供额外的线索。如何模拟人类接受多模态信息的过程,对模态内特征进行有效建模,使得模态的异质性能够得到保留,并尽可能筛除噪声;在模态间建模时,能够有效地集成异构数据,提取并整合有意义的信息,是目前多模态情感分析的两大挑战。

近年来多模态情感分析方法主要分为:(1)基于时序融合的方法,如循环嵌入网络(REVEN),记忆融合网络(MFN),循环记忆融合网络(RMFN),MAG-BERT等;此类方法需要先将不同模态特征对齐,再按时序依次融合每一个时间步的特征,虽然可以检测每个时间步的精细情感,但是割裂了不同模态不同时序特征之间的联系。(2)非时序融合方法,如张量融合网络(TFN)、跨模态Transformer、低秩张量融合网络(LMF)与Bi-ATT等。此类方法往往不需要对数据进行对齐,从整体上对不同模态的数据进行融合。

上述方法存在两个明显问题:(1)采用了三元对称体系结构,轮流对三个模态中的一对模态进行建模,并平等的对待每个模态对最终情感的贡献。但事实上,在情感交流的过程中,文本、音频与视觉信息所携带的信息量是不同的,文本才是多模态情感的主要载体,而音频和视觉信息起到的是辅助功能。(2)缺乏对模态内特征的有效建模,在筛除噪声的同时,难以保留单模态特征的异质性。

因此,必须寻找一种既能保留单模态特征的异质性,又采用非对称体系结构来融合不同模态的方法,来保证多模态情感分析算法的性能。

发明内容

本发明的目的是克服上述背景技术的不足,提出一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,该方法应能够在保留模态异质性的前提下,连贯的融合不同模态的特征,从而有效识别复杂场景下的多模态情感。

本发明提供的技术方案是:

一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:

步骤1:将原始视频拆剪为视频片段,标记该视频片段所对应的情感标签(积极,中性,消极),并从视频中提取可被模型识别的文本、音频与视觉特征;

步骤2:采用单模态特征提取模块与层叠跨模态特征融合模块

将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,该模块内包含三个长短期记忆网络(LSTM),以进行模态内交互,得到具有上下文语义信息的单模态隐藏层特征,再将这些特单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;

步骤3:将步骤2所得的多模态高层特征与单模态高层特征进行拼接后,通过多层感知机(MLP),输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,迭代优化模型。

进一步的,步骤1包括如下分步骤:

步骤1a、根据原始视频中说话人的话语间隔,把视频切割为5-10秒的视频片段,每个视频片段包含一句完整的话语,并对该话语进行多模态(文本、音频、视觉、整体)情感标注。

步骤1b、将视频片段中的字幕转录为文本,并利用BERT词嵌入模型将文本转换为词向量X

步骤1c、对于音频片段,使用LibROSA音频工具包提取33维帧级音频特征,包括一维对数基频(log F0),20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT),这些特征均与情绪和说话语气相关;

步骤1d、从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征,包括面部地标、面部动作单元;

进一步的,步骤2包括如下步骤:

步骤2a、为了使单模态特征能在跨模态融合之前能学习其上下文语境信息,采用长短期记忆网络来建模单模态内部交互;即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取,得到单模态隐藏层特征(文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征);

步骤2b,将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合;其中,层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络,门控跨模态transformer网络用于将输入的两个模态特征进行融合。

层叠跨模态特征融合模块的具体步骤是:先将文本模态隐藏层特征作为主模态,音频隐藏层特征作为辅助模态,并输入对应模态的单模态高层特征(文本高层特征、音频高层特征)进行引导,融合后得到新的语言特征(包含了文本与音频信息的融合特征);再将新得到的语言特征作为主模态,视觉特征作为辅助模态,输入对应模态高层特征(单模态高层特征)进行引导,得到文本、音频、视觉三个模态的融合特征,称该特征为多模态融合特征。

进一步的,步骤2a包括如下分步骤:

步骤2a-1、对于步骤1中获取的文本、音频与视觉特征X

步骤2a-2、将X

步骤2a-3、在训练过程中,模型为了筛除原始特征中的噪声,往往会将单模态的异质性特征等重要信息一起筛除,只保留模态中的共性特征,然而特征的异质性对于模型融合十分重要。为了保留单模态特征的异质性,将F

其中,softmax为逻辑回归函数,y′

进一步的,步骤2b包括如下分步骤:

步骤2b-1,对于从单模态特征提取模块中得到的单模态隐藏层特征X

步骤2b-2,将X

进一步的,步骤2b中的门控跨模态transformer网络包括如下分步骤:

步骤2b-1-1,跨模态transformerα→β中包含D层跨模态注意力块;对于某一层跨模态注意力块,输入目标模态X

步骤2b-1-2,transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特X

式中,

进一步的,步骤3包括如下步骤:

步骤3a,为了进一步补充特征内容,防止关键信息丢失,将步骤2b所得的多模态高层特征F

其中,cat表示拼接操作。

步骤3b,计算本批情感分析的多任务损失,

本发明的有益效果为:现有的多模态情感分析方法往往只以多模态整体标签作为唯一任务损失训练模型,并且采用三元对称的融合模式,平等的融合不同模态的特征。然而不同模态所蕴含的情感信息并不是对等的,事实上,文本模态应该作为多模态情感的主体,音频和视觉模态作为辅助。另一方面,经过单模态特征提取网络建模后的上下文特征向量,在跨模态融合时,由于特征坍缩等原因,不同模态特征将趋于一致,单模态特征异质性难以得到保留,导致模型在复杂环境下情感分类准确率降低。针对上述问题,本发明通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合,解决了现有的多模态情感分析技术在在复杂场景下分类不准确的问题;本发明采用的多任务学习机制能够监督单模态特征的提取、防止因模态融合导致特征坍塌,采用的层叠跨模态融合网络能够有效捕捉模态之间的关联;结合单模态特征提取网络与跨模态特征融合网络所提出的多模态情感分析方法,能够在保留模态异质性的前提下,连贯地融合不同模态的特征,从而有效识别复杂场景下的多模态情感。对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性,得到了较高的准确率。

附图说明

图1为本发明所述方法的整体流程图。

图2为本发明中的单模态特征提取网络结构图。

图3为本发明中整体网络结构图。

图4为本发明中的门控跨模态transformer网络结构图。

具体实施方式

为便于理解本发明,下面结合实施例进一步说明。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义,本文中所使用的所有的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。说明书中所使用的术语只是为了描述具体的实施目的,不是旨在于限制本发明。

如图1所示,本发明实施例提供的一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,共包含如下几个步骤:

首先,将原始视频分割为视频片段,标记该视频片段所对应的情感标签(情感标签分为积极、中性以及消极三类);接着从视频中提取可被模型识别的文本、音频与视觉数据(特征),输入至单模态特征提取模块,得到单模态隐藏层特征与单模态高层特征;然后将提取的单模态隐藏层特征与单模态高层特征输入至层叠跨模态特征融合模块,得到多模态高层特征;将多模态高层特征与单模态高层特征(文本、视觉)拼接后输入至多层感知机,并输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,迭代优化模型。

具体步骤如下:

步骤1:首先将完整的视频根据话语进行切片,使每个视频片段仅包含一段完整的话语与对应的情感标签;将每个视频片段中包含的文本、音频与视觉数据进行预处理,提取文本特征向量、音频特征向量和视频特征向量。

对于文本模态的数据预处理分为两个步骤:首先要统计数据集中每段文本的文字数,计算其平均长度L,并将2L作为文本的截取长度,以最大程度的覆盖样本集中的较长文本内容,最终确定的文本长度为39;然后,将截取长度后的文本输入至762维的BERT词嵌入模型,对于批度n,得到词嵌入向量X

对于音频模态,使用LibROSA音频工具包提取与情绪和说话语气相关的33维帧级音频特征,包括一维对数基频(log F0),20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT),得到音频特征向量X

对于视觉模态,从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取68个面部地标,17个面部动作单元,头部姿势,头部方向和眼睛凝视,共提取了709维帧级视觉特征,得到视觉特征向量X

步骤2:将文本、音频和视觉特征分别输入单模态特征提取网络,再将所得特征输入跨模态特征融合网络,进行特征融合;这是本发明的创新点之一。

其过程如下:

对于文本特征X

X

X

X

其中W

分别取隐藏层特征X

X

X

X

y′

其中,W

对于从单模态特征提取模块中得到的单模态隐藏层特征X

其中门控跨模态transformer网络包括多层门控跨模态transformer单元块,对其中任一层跨模态注意力块,包含如下步骤:

输入目标模态X

transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特X

式中,

步骤3:将步骤2b所得的多模态高层特征F

其中,cat表示拼接操作。

计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,以利于迭代优化模型;这是本发明的又一创新点。

计算本批情感分析的多任务损失,

实验分析:

数据集:

实验所选用的数据集为中文多模态情感分析数据集SIMS,相比MOSI(Zadeh etal.2016)与MOSEI(Zadeh et al.2018b)等传统单标签数据集,SIMS额外提供了文本、音频与视觉单模态标签。该数据集为从60个原始视频中提取的2281个视频片段,令标记者在仅接受单一模态输入的情况下给出该模态的情感得分,从-1(强烈消极)到+1(强烈积极的)。

评估指标:

本实验为分类任务,因此选择3分类精度(Acc-3),积极、消极情感(p/g)二分类精度(Acc-2)和F1值(F1-Score)。

为了证明本发明及所提创新点是有效的,本实验通过与基线模型进行性能对比以及消融实验来进行验证。

基线模型对比实验:

本发明将提出的模型分别与单任务模型(TFN、Graph-MFN、MISA、MULT)和多任务模型(MLF-DNN、M-LMF)进行比较,实验结果见表1。基于多任务学习与层叠跨模态融合的多模态情感分析方法(MSGC)在各项评价指标上都超越了目前最先进的方法。对比单任务最优基线模型MULT,MSGC在该数据集上的的二分类准确率与F1值分别提高了3.66%与3.97%,三分类准确率与F1值分别提升了4.16%与4.45%。与多任务最优模型M-LMF相比,MSGC的二分类准确率与F1值分别提高了2.42%与2.73%,三分类准确率与F1值分别提升了2.06%与0.97%。

此外,多任务基线方法的性能明显高于单任务方法,这是由于单模态标签为多模态情感分析提供了更多的信息来源,减少了单模态特征提取的误差,并保留了重要信息。为了更公平的与单任务模型比较,还设置了MSGC-single模型,该模型只取多模态情感分类的损失值,并未利用到多任务标签。MSGC-single相比最优单任务基线模型仍有明显提升。

消融实验:

为了检查整个体系结构的功能和本工作中引入的组件,对SIMS数据集进行如下消融研究。

MSGC-single:在完整模型的基础上仅使用单任务标签进行训练。

MSGC w/o late-fusion:在完整模型的基础上删除了后期融合。

MSGC w/o late-fusion&gate:将MSGC w/o late-fusion的基础上删除了跨模态相似度门控模块。

MSGC-concat:将MSGC w/o late-fusion&gate的层叠transformer结构更换为拼接结构(与mult的结构相似)。

表2给出了SIMS数据集上模块组合的消融实验结果。实验结果显示完整的MSGC模型的实验效果最好,缺少不同模块会对实验结果造成不同影响。对于MSGC w/o late-fusion与MSGC,其在多模态情感输出直接省去了后期融合部分,未将单模态的高层特征与多模态高层特征进行拼接,只取多模态高层特征作为分类器的输入,其性能的各方面指标均低于MSGC模型,这说明经过单模态标签指导的单模态高层特征,能为多模态情感提供互补性。w/o late-fusion&gate相比w/o late-fusion省去了跨模态相似度门控模块,其总体性能要略低于w/olate-fusion模型,由此可见,通过将两个模态高层特征的余弦相似度作为跨模态融合时残差连接的门控,可以更好的融合不同模态的特征。此外,w/olate-fusion&gate与MSGC-concat的区别在于,MSGC-concat并未采用层叠的transformer结构,而是将三个输入模态进行两两组合,进行跨模态transformer,并将得到的6组双模态融合特征进行拼接,因此其参数量与运算时间都远高于w/o late-fusion&gate。在SIMS数据集上,w/o late-fusion&gate的性能要明显高于于MSGC-concat,这进一步说明了层叠transformer结构的优越性。

名词参考表

单模态特征(文本模态特征X

单模态隐藏层特征(文本隐藏层模态特征X

单模态高层特征(文本高层特征F

多模态融合特征X

多模态高层特征F

补充后的多模态高层特征F

层叠跨模态特征融合模块(包含2个门控跨模态transformer网络)。

单模态特征提取模块(包含3个长短期记忆网络)

长短期记忆网络(LSTM)

前馈层(forward)

多层感知机(MLP)

逻辑回归函数(Softmax)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号