公开/公告号CN113869324A
专利类型发明专利
公开/公告日2021-12-31
原文格式PDF
申请/专利权人 北京大学;
申请/专利号CN202110954600.1
申请日2021-08-19
分类号G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N5/04(20060101);
代理机构11200 北京君尚知识产权代理有限公司;
代理人司立彬
地址 100871 北京市海淀区颐和园路5号北京大学
入库时间 2023-06-19 13:29:16
技术领域
本发明涉及计算机视觉、自然语言处理技术领域,特别是涉及一种利用多头注意力机制融合视频多模态信息,执行词语级别和语义级别的常识性知识推理实现方法。
背景技术
视频理解是计算机视觉领域和自然语言处理领域相结合的一个交叉技术,是指利用计算机表达视频帧输入序列,对视频序列中包含的时间信息和空间信息进行数学建模,以达到深入分析视频内容的目的。其中视频描述(video captioning)就是在视频理解的基础上,利用机器模型对视频包含的信息进行深度挖掘和分析理解,然后将机器模型输出自然语言称为对视频的描述。
近期,对视频常识性知识推理研究的关注度逐渐提升,因为它为视频和语言提供了更深层次的底层关联,从而促进了更高级别的视觉语言推理。其中“Video2Commonsense”任务旨在给定一段视频,生成视频描述,以及三种类型的常识知识,包括属性(attribute)、意图(intention)与结果(effect)。但当前研究的视频理解模型存在如下问题:1)采用独立的模块对不同的知识进行建模,这是违反常识和直觉的,无法桥接多种常识信息间的隐式关联,并具有大量冗余参数;2)忽视常识性知识的内在逻辑闭环,导致缺乏推理能力,无法应对复杂视频的语义解释,难以实现视频常识性知识的推理。
发明内容
为克服上述现有技术的不足,本发明之目的在于提供一种基于多模态融合的视频常识性知识推理实现方法,通过设计一种基于多头注意力机制的混合推理网络,共同在视频内容上执行词语级(word-level)推理和语义级(semantic-level)推理,形成一个逻辑闭环,共享知识,拥有更高的预测精度和可解释性。
为达上述及其它目的,本发明提出一种基于多模态融合的视频常识信息推理方法,所述技术方案如下:基于多头注意力机制设计一种混合推理网络框架(HybridNet),包括摘要解码器,常识解码器(属性、结果与意图解码器),执行词语级(word-level)推理和语义级(semantic-level)推理;融合视频多模态信息,包括视频静态帧信息(利用ResNet152提取)、动态时序信息(利用I3D提取)以及声音信息(利用SoundNet提取);针对词语级推理,引入一种特殊设计的记忆模块(MMHA),通过对历史信息分析出的注意力图,动态并入多头注意力的映射,实现词语级别的预测;关于语义级推理,采用多个常识性知识共同学习,其中不同常识信息通过隐式的跨语义学习,形成一个逻辑闭环,共享知识。
所述视频常识性知识推理实现方法包括以下主要步骤:
步骤S1,对输入视频分别提取帧内空间特征V
步骤S2,将步骤S1的三种视频特征进行融合,得到多模态的视频特征向量V
步骤S3,对输入视频的描述性文本进行特征抽取,得到语言特征向量C
步骤S4,将S3获取的上下文特征[V
作为优选方案:步骤S1中,对输入的视频提取多模态特征向量V
V
V
V
其中给定一段视频V,把它按等间隔时间分为K段{S
作为优选方案:步骤S2中,将步骤S1中视频的三种模态特征进行融合,首先将各模态特征通过一个线性层以及一个长短期记忆网络映射到新的特征空间,再添加位置编码PE和段编码SE,得到多模态的视频特征向量V
E
E
E
V
其中位置编码PE采用三角函数固定编码,段编码SE使用一个嵌入层动态学习,用于区分三种模态信息。
作为优选方案:步骤S3中,将输入视频的描述文本经过嵌入层编码以及位置编码得到文本摘要编码T
y
其中,Z是注意力机制的输出结果,d
作为优选方案:步骤S4中,将步骤S3获取的上下文特征[V
M′
常识文本序列预测时,首先将历史词元送入解码器网络(包括属性解码器,结果解码器和意图解码器)以及旁路网路MMHA获取到各自的特征向量X,分别送入一个注意力层得到A
A
A
A
A
其中,A
步骤S4中,产生的A
A
Y=FFN(A
其中,A
训练常识解码器由
其中y
步骤S4中,由最终的答案概率分布获得常识性知识文本序列的预测,具体公式如下:
其中,D
与现有技术相比,本发明的积极效果为:
本发明基于多头注意力机制的混合推理网络框架(HybridNet),可以执行词语级(word-level)和语义级(semantic-level)的常识性知识推理,在视频特征提取时引入多模态的特征信息,能够提供丰富的视频级语义特征,同时模型共享视频编码器和文本编码器,极大地减少参数量,提升模型的推理速度。此外,本发明设计的记忆存储模块(MMHA)可以有效地桥接历史词元信息,增强常识推理方法的泛化性,以及提高模型的预测准确度。
附图说明
图1是本发明一种基于多模态融合的视频常识性知识推理实现方法的步骤流程图;
图2是本发明一种基于多模态融合的视频常识性知识推理实现方法的系统架构图;
图3是本发明具体实施例中内存记忆模块的内部结构图;
图4是本发明具体实施例中特殊的多头注意力机制映射的示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
本发明提供了一种基于多模态融合的视频常识性知识推理实现方法,具体过程如下:
1、视频多模态特征和文本描述特征的提取
图1是本发明一种基于多模态融合的视频常识性知识推理实现方法的步骤流程图,针对视频和文本的特征抽取,包括如下步骤:
步骤S1中,对输入的视频提取多模态的特征向量,包括利用ResNet152提取帧内空间信息V
V
V
V
其中给定一段视频V,把它按等间隔时间分为K段{S
步骤S2中,将步骤S1的三种视频特征进行融合,各模态特征均通过一个线性层以及一个长短期记忆网络映射到新的特征空间,最后添加位置编码PE和段编码SE,得到多模态的视频特征向量V
E
E
E
V
其中,段编码使用一个嵌入层优化学习,位置编码采用固定编码,公式如下:
pos表示当前序列的位置,模型输出维度d
步骤S3中,将输入视频的文本摘要经过嵌入层编码以及位置编码得到文本摘要编码T
MultiHead(Q,K,V)=Concat(head
其中
2、词语级别的常识性知识推理
图3是本发明具体实施例中内存记忆模块(MMHA)的内部结构图,该模块可以执行词语级别的常识知识推理。为了避免记忆存储模块在长序列解码中梯度消失和梯度爆炸的问题,MMHA包括特殊设计的门操作和残差连接,具体公式如下:
M′
其中,对于序列文本词元的每次预测,MMHA作为旁路网络,通过历史预测序列获得查询向量,Q=M
图4是本发明具体实施例中特殊的多头注意力机制映射的示意图。
步骤S4中,模型的多头注意力机制中独立设计的内存记忆模块(MMHA),预测常识性知识答案的概率分布时,历史预测的词元通过MMHA模块由当前记忆状态M
A
A
A
其中,A
A
其中产生的A
3、语义级别的常识性知识推理
步骤S4中,将步骤S3获取的上下文特征[V
其中y
其中,D
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
机译: 基于多模态融合的容错视频内容识别系统及方法
机译: 基于多模态融合的容错视频内容识别系统和方法
机译: 一种用于发送基于面积的360度视频的方法,一种用于接收基于面积的360度视频的方法,一种用于发送基于区域的360度视频的设备,一种用于基于区域接收360度视频的设备