首页> 中国专利> 语音情绪识别模型训练方法、语音情绪识别方法及装置

语音情绪识别模型训练方法、语音情绪识别方法及装置

摘要

本发明公开了一种语音情绪识别模型训练方法、语音情绪识别方法及装置,具体包括:获取多个语音信息样本;分别对多个语音信息样本进行预处理,生成多个音频信息样本;分别对多个音频信息样本进行特征提取,得到多个音频信息样本的情绪特征数据样本;将多个情绪特征数据样本输入到待训练的语音情绪识别模型,对待训练的语音情绪识别模型进行迭代训练,语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定,基准网络框架的参数数量小于语音情绪识别模型的网络框架的参数数量;当训练满足预设的训练条件时,将训练后的语音情绪识别模型作为目标语音情绪识别模型。根据本发明实施例,可以降低网络设计的困难,提高网络运算效率。

著录项

  • 公开/公告号CN113129926A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利号CN201911401964.6

  • 发明设计人 钟天宇;

    申请日2019-12-30

  • 分类号G10L25/63(20130101);G10L25/03(20130101);G10L25/30(20130101);

  • 代理机构11258 北京东方亿思知识产权代理有限责任公司;

  • 代理人赵秀芹

  • 地址 201260 上海市浦东新区中国(上海)自由贸易试验区新金桥路27号10号楼2楼

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明属于计算机技术领域,尤其涉及一种语音情绪识别模型训练方法、语音情绪识别方法、装置、设备及存储介质。

背景技术

通常,人类的语言中包含着说话者的情绪信息,在人机交互中,对于人的语音情绪信息的识别是十分重要的环节。计算机在识别出语音内容的同时,识别出语音所携带的情绪信息,可以使得人机交互更加的自然流利的,提高人机交互的用户体验质量。

现有的语音情绪识别技术包括使用传统的机器学习、深度神经网络学习等方法进行语音情绪识别。但是,现有语音情绪识别技术仍存在一些问题:为了保证较好的情绪识别率,通常会使用较复杂的网络模型进行模型训练,但是较复杂的网络模型的参数调整的过程较复杂、运算效率较低,并且网络模型较大时模型结构设计过于困难,进而可能降低语音情绪识别模型训练的运算速率。

发明内容

本发明实施例提供了一种语音情绪识别模型训练方法、语音情绪识别方法、装置、设备及存储介质,该技术方案,通过使用可按照预定系数调整扩张的语音情绪识别模型的网络框架,降低网络框架设计的困难,提高语音情绪识别模型训练的运算效率。

一方面,本发明实施例提供了一种语音情绪识别模型训练方法,

该方法包括:

获取多个语音信息样本;

分别对多个所述语音信息样本进行预处理,生成多个音频信息样本;

分别对多个所述音频信息样本进行特征提取,得到多个所述音频信息样本的情绪特征数据样本;

将多个所述情绪特征数据样本输入到待训练的语音情绪识别模型,对所述待训练的语音情绪识别模型进行迭代训练,其中,所述语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定,所述基准网络框架的参数数量小于所述语音情绪识别模型的网络框架的参数数量;

当所述训练满足预设的训练条件时,将训练后的语音情绪识别模型作为目标语音情绪识别模型。

可选地,在将多个所述语音信息样本输入待训练的语音情绪识别模型之前,还包括:按预设系数对基准网络框架扩张调整确定所述语音情绪识别模型的网络框架;

所述按预设系数对基准网络框架扩张调整确定所述语音情绪识别模型的网络框架,具体包括:

根据参数搜索算法,确定基准网络框架,以获取所述基准网络框架的运算量;

根据在预定的选取条件下选取的至少一个预设系数,对所述运算量进行扩张,得到至少一个扩张后的运算量和对应的至少一组扩张后的第一超参数;

将扩张后的所述运算量和所述第一超参数进行回归操作,确定所述运算量和所述第一超参数的回归关系;

根据所述回归关系,得到所述语音情绪识别模型的第二超参数,以确定所述语音情绪识别模型的网络框架;

其中,所述基准网络框架的运算量不大于所述语音情绪识别模型的网络框架的运算量。

另一方面,本发明实施例提供一种语音情绪识别的方法,方法包括:

获取用户的语音信息;

对所述语音信息进行预处理,生成音频信息;

对所述音频信息进行特征提取,得到所述音频信息的情绪特征数据;

将所述情绪特征数据输入语音情绪识别模型中,识别出所述用户的语音情绪结果,其中所述语音情绪识别模型是利用上述实施例中所述的语音情绪识别模型的训练方法训练得到的。

可选地,所述对音频信息进行特征提取,得到音频信息的情绪特征数据,包括:

获取所述音频信息中的第一情绪信息;

比对所述第一情绪信息与预先设置的情绪关键词语音的第二情绪信息,确定所述第一情绪信息与所述第二情绪信息的情绪相似系数;

将所述第一情绪信息中与所述第二情绪信息的情绪相似系数达到预定阈值的第一情绪信息确定为第三情绪信息;

将所述第三情绪信息添加至人工特征集,其中,所述人工特征集包括根据所述音频信息已生成的人工特征数据;

根据所述人工特征集,确定第一情绪特征数据;

对所述音频信息进行时频分析处理,提取第二情绪特征数据。

可选地,所述比对所述第一情绪信息与预先设置的情绪关键词语音的第二情绪信息,确定所述第一情绪信息与所述第二情绪信息的情绪相似系数情绪相似系数,包括:

获取所述情绪关键词语音的第二情绪信息;

将所述音频信息的第一情绪信息与所述情绪关键词语音的第二情绪信息进行波形匹配,确定匹配相关系数,将所述匹配相关系数作为所述情绪相似系数。

可选地,所述第二情绪特征数据表示为声谱图。

可选地,所述语音情绪识别模型包括第一神经网络和第二神经网络,将所述情绪特征数据输入利用上述实施例中所述的语音情绪识别模型的训练方法训练得到的所述语音情绪识别模型中,识别出所述用户的语音情绪结果,包括:

将所述第一情绪特征数据输入到所述第一神经网络,输出第一情绪分析数据;

将所述第二情绪特征数据输入到所述第二神经网络,输出第二情绪分析数据;

拼接所述第一情绪分析数据和所述第二情绪分析数据,得到拼接数据结果;

通过分类算法对所述拼接数据结果进行分类识别,得到所述用户的语音情绪结果。

另一方面,本发明实施例提供了一种语音情绪识别模型训练的装置,装置包括:

第一获取模块,用于获取多个语音信息样本;

样本预处理模块,用于分别对多个所述语音信息样本进行预处理,生成多个音频信息样本;

第一提取模块,用于分别对多个所述音频信息样本进行特征提取,得到多个所述音频信息样本的情绪特征数据样本;

训练模块,用于将多个所述情绪特征数据样本输入到待训练的语音情绪识别模型,对所述待训练的语音情绪识别模型进行迭代训练,其中,所述语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定,所述基准网络框架的参数数量小于所述语音情绪识别模型的网络框架的参数数量;

确定模块,用于当所述训练满足预设的训练条件时,将训练后的语音情绪识别模型作为目标语音情绪识别模型。

另一方面,本发明实施例提供了一种语音情绪识别的装置,该装置包括:

第二获取模块,用于获取用户的语音信息;

预处理模块,用于对所述语音信息进行预处理,生成音频信息;

第二提取模块,用于对所述音频信息进行特征提取,得到所述音频信息的情绪特征数据;

识别模块,用于将所述情绪特征数据输入语音情绪识别模型中,识别出所述用户的语音情绪结果,其中所述语音情绪识别模型是利用上述实施例中所述的语音情绪识别模型的训练方法训练得到的。

再一方面,本发明实施例提供了一种语音情绪识别模型训练设备,设备包括:

处理器以及存储有计算机程序指令的存储器;

所述处理器执行所述计算机程序指令时实现如上述实施例所述的语音情绪识别模型训练的方法。

再一方面,本发明实施例提供了一种语音情绪识别设备,设备包括:

处理器以及存储有计算机程序指令的存储器;

所述处理器执行所述计算机程序指令时实现如上所述的语音情绪识别方法。

再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述实施例所述的语音情绪识别模型训练的方法。

再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述实施例所述的语音情绪识别的方法。

本发明实施例的语音情绪识别模型训练方法、语音情绪识别方法、装置、设备及计算机存储介质,其中,语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定的,基准网络框架的参数量小于语音情绪识别模型的网络框架的参数量,因此构建基准网络框架较为方便快捷。因而,通过在基准网络框架基础上扩张得到结构较复杂的语音情绪识别模型的网络框架,可以降低网络框架设计的困难,提高语音情绪识别网络模型训练的运算效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的语音情绪识别模型训练方法的流程示意图;

图2示出了本发明一个实施例提供的确定语音情绪识别模型的网络框架的流程示意图;

图3示出了本发明一个实施例提供的语音情绪识别模型网络结构示意图;

图4示出了本发明一个实施例提供的卷积神经网络CRNN结构示意图;

图5示出了本发明一个实施例提供的语音情绪识别的方法的流程示意图;

图6示出了本发明一个实施例提供的实际应用场景中的语音情绪识别的方法的流程示意图;

图7示出了本发明一个实施例提供的语音情绪识别模型网络训练示意框图;

图8示出了本发明一个实施例提供的语音情绪识别模型实际应用的示意框图;

图9示出了本发明一个实施例提供的语音情绪识别模型训练装置的结构示意图;

图10示出了本发明一个实施例提供的语音情绪识别装置的结构示意图

图11示出了本发明另一个实施例提供的语音情绪识别装置的结构示意图;

图12示出了本发明一个实施例提供的语音情绪识别模型训练的硬件结构示意图;

图13示出了本发明一个实施例提供的语音情绪识别的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题,本发明实施例提供了语音情绪识别模型训练方法、语音情绪识别方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的语音情绪识别模型训练方法进行介绍。

图1示出了本发明一个实施例提供的语音情绪识别模型训练方法的流程示意图。如图1所示,在本发明实施例中,一种语音情绪识别模型训练方法的包括如下步骤:

步骤101:获取多个语音信息样本。

这里,可以通过各种带有语音信息采集装置的硬件设备,获取多个语音信息样本。可以理解的是,该语音信息采集装置可以是麦克风,该硬件设备手机、电脑、人机交互的机器人或者其他硬件终端设备。

具体地,由于是进行语音情绪分析,通常,语音信息采集需要在对话等场景中进行,包括人与人之间的对话或者人机交互等。

此外,语音信息样本还可以包括已有的公开语音信息数据集样本。

步骤102:分别对多个所述语音信息样本进行预处理,生成多个音频信息样本。

这里,该预处理可以包括对语音信息的降噪增强,预加重,短时分析,分帧,加窗等,通过上述任意一种或者多种预处理操作,以便于在后续语音情绪识别时可以获得更好的效果。

步骤103:分别对多个所述音频信息样本进行特征提取,得到多个所述音频信息样本的情绪特征数据样本。

这里,可以分别对多个音频信息样本进行不同的特征提取处理,分别获得不同的情绪特征数据样本,情绪特征数据样本包括第一情绪特征数据样本和第二情绪特征数据样本。具体地,根据声谱图特征提取处理,得到声谱图,该声谱图可以用作第一情绪特征数据样本;根据人工特征提取处理,得到人工特征集,人工特征集可以用作第二情绪特征数据样本,人工特征集包括GeMAPS特征,以及待识别的音频信息样本和关键词语音词典进行相似度对比生成关键词特征。

步骤104:将多个所述情绪特征数据样本输入到待训练的语音情绪识别模型,对所述待训练的语音情绪识别模型进行迭代训练。

这里,该语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定,所述基准网络框架的参数数量小于所述语音情绪识别模型的网络框架的参数数量。

步骤105:判断是否满足预设的训练条件。

在步骤105中,判断是否满足预设的训练条件,若满足,则执行步骤106;若不满足,则进行相应调整后,对待训练语音情绪识别模型进行迭代训练。

具体地,对待训练的语音情绪识别模型进行迭代训练,预设的训练条件可以包括:迭代次数达到预设次数阈值;或者,待训练语音情绪识别模型的损失函数与上一次迭代过程中确定的损失函数之间的差值不超过预设差值阈值。

步骤106:当所述训练满足预设的训练条件时,将训练后的语音情绪识别模型作为目标语音情绪识别模型。

综上,在本发明实施例的语音情绪识别模型训练方法中,语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定的,基准网络框架的参数量小于语音情绪识别模型的网络框架的参数量,因此构建基准网络框架较为方便快捷。因而,通过在基准网络框架基础上扩张得到结构较复杂的语音情绪识别模型的网络框架,可以降低网络框架设计的困难,提高语音情绪识别网络模型的运算效率。

此外,由于较复杂的网络框架可以具有较好的语音情绪识别的正确率,进而通过该方法训练出的语音情绪识别模型可以具有较好的识别率。

如图2所示,图2示出了本发明一个实施例提供的确定语音情绪识别模型的网络框架的流程示意图。

在本发明一实施例中,如图1所示的语音情绪识别模型训练方法,在将多个语音信息样本输入待训练的语音情绪识别模型之前,进一步包括:按预设系数对基准网络框架扩张调整确定所述语音情绪识别模型的网络框架,可以具体实施为:

步骤201:根据参数搜索算法,确定基准网络框架,以获取所述基准网络框架的运算量。

这里,根据参数搜索算法确定基准网络框架,该基准网络框架为具有较少参数数量的网络,并且,该基准网络框架具有最优的运算效果的超参数。此外,该基准网络框架的运算量不大于语音情绪识别模型的网络框架的运算量。

可以理解的是,参数搜索算法可以是现有的参数搜索算法,包括:网格搜索、随机搜索以及启发式搜索。

具体地,网络框架的深度为d,宽度为w,以及分辨率为r。这里,分别设定:

网络框架的优化函数表示为:

ACC(m)×[FLOPS(m)÷T]

其中m表示整个网络模型,ACC为网络模型正确率,FLOPS为网络模型的运算量。

具体地,对上述网络框架基础上,根据参数搜索算法,确定基准网络框架,以获取该基准网络框架的运算量,以及最优超参数等参数。超参数包括:网络模型的深度,宽度,以及分辨率等

步骤202:根据预定的选取条件下选取的至少一个预设系数,对所述运算量进行扩张,得到至少一个扩张后的运算量和对应的至少一组扩张后的第一超参数。

这里,预定的选取条件可以为进行小范围参数搜索的限制条件,预定的选取条件包括:其中

FLOPS(N)≤target_flops (3)

具体地,这里,在对步骤201获取的运算量进行扩张之前,固定

这里,超参数是在开始机器学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,在机器学习过程中需要对超参数进行优化,给学习模型选择一组最优超参数,以提高学习的性能和效果。超参数是人工配置参数,其本质上是参数的参数,每次改变超参数,模型都要重新训练。可以理解的是,通过现有的训练方法可以实现超参数训练,在此不再赘述。

步骤203:将扩张后的所述运算量和第一超参数进行回归操作,确定所述运算量和第一超参数的回归关系。

这里,将扩张后网络的所述运算量和第一超参数进行回归操作,可以得到如下的回归方程:

其中,x表示α、β、γ,n为预设系数,b为常数。

由此,可以确定运算量和超参数的回归关系。

步骤204:根据所述回归关系,得到所述语音情绪识别模型的第二超参数,以确定所述语音情绪识别模型的网络框架。

这里,根据所述回归关系,可对网络框架进行均匀缩放。具体地,为了有较好的情绪识别正确率,需要的语音情绪识别模型的网络框架是较复杂的网络。其中,已知需扩张的运算量的倍数,代入公式(4),可得到语音情绪识别模型的第二超参数,即语音情绪识别模型的超参数,由此,可以确定所述语音情绪识别模型的网络框架。

该语音情绪识别模型的网络框架可以为通过一种改进的EfficientNet扩张算法确定的。该EfficientNet扩张算法可以使用一个简单高效的复合系数来完成对深度/宽度/分辨率所有维度的统一缩放。由此,使得该语音情绪识别模型的网络框架,可以具有在获得较好准确率的情况下获得拥有较小参数数量的网络运算效率的效果。

通常,为了具有较高的识别正确率,语音情绪识别模型的网络框架结构较大较复杂,网络框架中的参数很多。在参数较多的情况下,获得一组较好的超参数是十分困难的。同时,在绝大多数对话中使用情绪分析需要较高的实时性,因此,这就需要在尽量不损失准确率的情况下,尽量使用较小的运算量。本实施例中的上述方法,通过小型网络的参数调整可以直接扩展至大型网络结构的方法,有效的解决了网络模型较大时模型结构设计过于困难的问题,有效的提高语音情绪识别的准确率以及运算速度。

此外,具体地,如图3所示,图3示出了本发明一个实施例提供的语音情绪识别模型网络结构示意图。语音情绪识别模型的网络框架可以包括第一神经网络和第二神经网络,具体地,第一神经网络为深度神经网络(Deep Neural Networks,DNN)和第二神经网络为卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)。

进一步地,如图4示,图4示出了卷积神经网络CRNN结构示意图。该CRNN网络使用了卷积神经网络CNN+长短期记忆网络(Long Short-Term Memory,LSTM)+全连接层(Fullyconnected layers,FC)的网络结构。

本发明实施例中,提供了一种语音情绪识别的方法,该方法可以基于上述实施例中的语音情绪识别模型实现。

本发明实施例中,如图5所示,图5示出了本发明一个实施例提供的语音情绪识别的方法的流程示意图。该语音情绪识别的方法,包括:

步骤501:获取用户的语音信息。

这里,用户的语音信息可以通过各种带有语音信息采集装置的硬件设备获取。可以理解的是,该语音信息采集装置可以是麦克风,该硬件设备手机、电脑、人机交互的机器人或者其他硬件终端设备。

此外,语音信息还可以包括从已有的相关的公开语音信息数据集获取的语音信息。

步骤502:对所述语音信息进行预处理,生成音频信息;

这里,该预处理可以包括对语音信息的降噪增强、预加重,短时分析,分帧,加窗等操作,以便于在后续语音情绪识别时可以获得更好的效果。

步骤503:对所述音频信息进行特征提取,得到所述音频信息的情绪特征数据。

这里,获取得到的情绪特征数据可以包括第一情绪特征数据和第二情绪特征数据。具体实施步骤包括:

一方面,对所述音频信息进行特征提取,获取第一情绪特征数据。

步骤5031a:获取所述音频信息中的第一情绪信息;

步骤5032:比对所述第一情绪信息与预先设置的情绪关键词语音的第二情绪信息,确定所述第一情绪信息与所述第二情绪信息的情绪相似系数。

具体地,根据获取情绪关键词语音的第二情绪信息,将所述音频信息的第一情绪信息与所述情绪关键词语音的第二情绪信息进行波形匹配,确定匹配相关系数,将该匹配相关系数作为所述情绪相似系数。

步骤5033:将所述第一情绪信息中与所述第二情绪信息的情绪相似系数达到预定阈值的第一情绪信息确定为第三情绪信息。

这里,该情绪相似系数,可以表示待识别的用户语音和预先设置的情绪关键词语音的相似度。

步骤5034:将所述第三情绪信息添加至人工特征集。

这里,该第三情绪信息为情绪相似系数达到预定阈值的第一情绪信息。该人工特征集包括根据所述音频信息已生成的其他人工特征数据。可以理解的是,根据获取到的音频信息,进行人工提取特征数据,生成人工特征集,该人工特征集包括:通过语音相似度对比得到的特征与通过其他现有技术特征提取工具得到的人工特征,如GeMAPS特征,具体地,可以通过现有的维度拼接技术,将上述的人工特征进行维度上的拼接,最终确定该人工特征集。

具体地,预先设置的情绪关键词语音构建的语音库,也可以称为关键词语音词典。由于汉语中有很多对于情绪表达极具代表性的词,但是传统的语音情绪识别无法针对语音的内容进行识别,因此构建了一个由这些具有情绪代表性的词的关键词语音词典。例如对生气,开心,难过,害怕等关键词进行录音并构成关键词语音词典,通过语音相似度分析将其转化为特征加入手工特征当中,以便于更好地进行语音情绪分析。具体地,将关键词语音词典的词进行编码,再将词典中的词语音波形与待识别的语音波形进行波形匹配,判断待识别语音信息中是否含有这些具有很强代表性的词,如果含有,则将这些词的编码加入到已有的人工特征集,如GeMAPS特征集中,共同组成特征数据更加完整的人工特征集。

步骤5035:根据所述人工特征集,确定第一情绪特征数据。

另一方面,执行步骤5031b,通过其他的语音分析方法,对音频信息进行特征提取。

步骤5031b:对所述音频信息进行时频分析处理,提取第二情绪特征数据。

具体地,该第二情绪特征数据表示为声谱图。可以理解的是,通过现有的时频分析处理方法,例如,短时傅里叶变换,小波等都是很常用的时频分析方法,均可以用于得到该声谱图,在此不再赘述。

此外,由于得到的声谱图较大,为了得到合适大小的声音特征,通常将它通过梅尔尺度滤波器组,变为梅尔频谱。

另一方面,频率的单位是赫兹,人耳能听到的频率范围是20-20000赫兹,但是人耳对赫兹单位不是线性敏感,而是对低赫兹敏感,对高赫兹不敏感,人耳听到的声音的高低和实际的赫兹频率并不成线性关系,将赫兹频率转化为梅尔频率,则人耳对频率的感知度就变为线性。因此,可以使用梅尔声谱图作为输入语音情绪识别模型的第二情绪特征数据。

步骤504:将所述情绪特征数据输入语音情绪识别模型中,识别出所述用户的语音情绪结果。

这里,该语音情绪识别模型是利用上述实施例的语音情绪识别模型的训练方法训练得到的。该语音情绪识别模型可以包括第一神经网络和第二神经网络,具体地,第一神经网络为深度神经网络DNN和第二神经网络为卷积循环神经网络CRNN。

具体地,可以将第一情绪特征数据输入到第一神经网络,输出第一情绪分析数据;将第二情绪特征数据输入到第二神经网络,输出第二情绪分析数据。拼接第一情绪分析数据和第二情绪分析数据,得到拼接数据结果;最后,通过分类算法对该拼接数据结果进行分类识别,得到所述用户的语音情绪结果,具体可以通过soft-max进行语音情绪分类识别。

综上,在本发明实施例的语音情绪识别的方法中,通过和关键词音频词典中的关键词语音对比,获取到语音相似度特征,并将语音相似度特征作为一种人工特征加入到人工特征集中,作为情绪特征数据输入语音情绪识别模型,由此可以有效的提高语音情绪识别的准确率。

此外,该方法使用的语音情绪识别模型,是通过前述实施例中的语音情绪识别模型训练方法训练确定的。因此,语音情绪识别模型的网络框架是通过在基准网络框架基础上扩张得到,是结构较复杂但识别精度较高的网络,基于该网络框架,语音情绪识别模型具有更好的语音情绪识别运算效率和准确率。

在本发明实施例中,以在实际应用场景下该语音情绪识别的方法实现为例,进行如下详细说明:

如图6所示,图6示出了本发明一个实施例提供的实际应用场景中的语音情绪识别的方法的流程示意图。在实际应用场景下,该语音情绪识别的方法,包括:

步骤601:获取用户语音信息。

在步骤601中,从实际应用场景中进行语音数据采集,并且对其进行情绪标注,同时,为了提高最终识别的准确率,可以扩充用户语音信息样本量。增加当前的已有的公开的用户语音信息数据集,合并为一个新的用户语音信息数据集。

步骤602:构建关键词语音词典。

具体地,为了使最终的识别效果更好,预先构建了一个可以明显表现情绪的词的语音库,即,关键词语音词典。关键词语音词典包括了情绪关键词语音,该语音库将作为后续人工特征提取的重要素材。

步骤603:对用户语音进行降噪以及语音增强。

具体地,在步骤603中,为了解决由实际场景中收集数据中带有一定的噪声的问题,可以使用卡尔曼滤波的方式进行语音增强以及降噪。以增加语音数据的质量,提高情绪识别的准确率。

步骤604:对用户语音的语音信号进行优化处理。

在步骤604中,由于用户语音的语音信号中存在不同频率分布不均等问题,因此需要对语音信号进行一些预处理,包括预加重,短时分析,分帧,加窗等操作,以便于在后续处理中获得更好的效果。

步骤605:对优化处理后的语音信号进行特征提取。

具体地,上述步骤601、步骤603以及步骤604都包含对用户语音信息的预处理操作。

对预处理后的语音信号分别进行不同的特征提取处理,可以分别获得声谱图,人工特征集的GeMAPS特征集,以及待识别语音和关键词语音词典进行相似度对比生成关键词特征。其中,相似度对比生成关键词特征合并进入人工特征集。

声谱图:由于人耳听到的声音的高低和实际的HZ频率并不成线性关系,因此我们再次使用梅尔声谱图作为输入的特征。

GeMAPS特征集:共62个特征,均为HFS(high level statistics functions)是在LLDs(Low Level Descriptors)的基础上做一些统计得到的。18个LLD特征包括6个频率相关特征,3个能量/振幅相关特征,9个谱特征。

关键词语音词典特征:关键词语音词典即预先设置的情绪关键词语音的语音库。由于汉语中有很多对于情绪表达极具代表性的词,但是传统的语音情绪识别无法针对语音的内容进行识别,因此构建了一个由这些具有情绪代表性的词的语音词典。例如对生气,开心,难过,害怕等关键词进行录音并构成关键词音频词典,通过语音相似度分析将其转化为特征加入手工特征当中,以便于更好地进行语音情感分析。具体地,语音词典的词通过嵌入层embedding的方式进行编码。将词典中的词语音波形与待识别的语音波形进行波形匹配,判断待识别语音中是否含有这些具有很强代表性的词,如果含有则将这些词的编码加入到GeMAPS特征集中,共同组成人工特征集。

步骤606:构建语音情绪识别的网络模型。

具体地,在步骤606中,可以通过两种网络对之前获得的特征进行建模。对声谱图即梅尔谱特征采用CRNN进行建模,如图4所示,CRNN为卷积神经网络(ConvolutionalNeural Networks,CNN)与循环神经网络(Recurrent Neural Network,RNN)的结合,在此具体使用了卷积神经网络CNN+长短期记忆网络(Long Short-Term Memory,LSTM)+全连接层(Fully connected layers,FC)的网络结构。

对于由GeMAPS特征以及与语音词典组成的人工特征集,使用DNN的网络结构。最后,将这两个网络的输出情绪特征数据进行拼接并且通过softmax层进行分类。

步骤607:训练并保存语音情绪识别网络模型。

进一步地,在步骤607中,由于该语音情绪识别模型网络结构较大,参数较多,在情况下想要获得一组较好的超参数是十分困难的。同时在绝大多数对话中使用情感分析需要较高的实时性,因此,该网络需要在尽量不损失准确率的情况下,尽量使用较小的运算量。

这里,可以通过一种改进型EfficientNet算法,得到在具有较好识别准确率兼拥有较小参数数量的网络。

具体地,改进型EfficientNet算法为:

网络框架的深度为d,宽度为w,以及分辨率为r。这里,分别设定:

网络框架的优化函数表示为:

ACC(m)×[FLOPS(m)÷T]

其中m表示整个网络模型,ACC为网络模型正确率,FLOPS为网络模型的运算量。

首先,通过参数搜索的方式获得一个较小网络的最优参数,以及运算量。

其次,固定

FLOPS(N)≤target_flops (3)

具体地,可以选取5个不同的n,获得5组α、β、γ参数。

再次,使用这5组参数分别对α、β、γ和n进行回归,回归公式为:

其中,x表示α、β、γ,n为预设系数,b为常数。

由此,可以获得扩张后的运算量和α、β、γ之间的回归关系。

最后,依据上述回归关系,可以扩大到更加复杂的网络当中,以获得个更高的正确率。

由此,采用对EfficientNet改进的扩张算法,可以更加有效的对网络的结构进行调整和扩张,在实际应用中,该方法可以根据所在的硬件条件不同,进行适合的运算量调节已适应相应的硬件计算资源。

进一步地,确定了网络结构之后,可以通过前述获得的情绪特征数据输入到网络当中,完成整个网络的训练,之后对效果最佳的网络进行保存。

具体地,请参见图7,图7示出了本发明一个实施例提供的语音情绪识别模型网络训练示意框图。在本发明实施例中,首先,获取语音信息样本,包括了实际场景收集数据和公开数据集,其中,对于实际场景收集数据进行降噪、语音增强,或者人工标注情绪标识等处理。将汇总的语音信息样本进行语音数据预处理,得到处理后的语音数据样本。对语音数据样本分别进行不同的特征提取,得到了声谱图和人工特征集等情绪特征数据。其中,人工特征集中除了包括现有的人工特征外,还包括了待识别语音与关键词语音词典进行音频相似度对比的特征。将声谱图和人工特征集等情绪特征数据输入模型,进行模型构建和模型迭代训练。模型训练包括网络模型数据分类、损失度loss计算以及Adabound优化等步骤。最终,得到对效果最佳的网络模型并保存。

步骤S408:应用语音情绪识别模型。

具体地,在实际的应用场景中获得用户的语音数据,并且对语音数据进行处理后,获得语音数据的情绪特征数据,输入训练好的语音情绪识别模型,识别出用户的语音情绪结果。

步骤S409:输出情绪识别分析的结果。

这里,将语音的情绪特征数据放入之前已经训练好的语音情绪识别模型中,得到用户语音的情绪分类结果,识别出用户的语音情绪,输出情绪识别分析的结果,至此流程结束。

具体地,如图8所示,图8示出了本发明一个实施例提供的语音情绪识别模型实际应用的示意框图;在本发明实施例中,首先,获取语音信息样本,包括了实际场景收集数据和公开数据集,其中,对于实际语音数据收集进行降噪、语音增强,或者人工标注情绪标识等处理。对语音数据预处理后,分别进行不同的特征提取,得到了声谱图和人工特征集等情绪特征数据。其中,人工特征集中除了包括现有的人工特征外,还包括了待识别语音与关键词语音词典进行音频相似度对比的特征。将声谱图和人工特征集等情绪特征数据输入已训练好的语音情绪识别模型,输出情绪识别分析的结果。

综上,在实际场景中,通过具有语音获取功能的硬件设备如麦克风,手机或者其他的语音交互设备获得音频数据。对音频数据进行语音增强和降噪处理。之后进行音频数据的预处理。之后进行三种特征(声谱图、关键词语音词典特征、以及GeMAPS特征集)的提取以及拼接,分别输入到预先训练好的网络模型中获得情绪/情感分类的结果。

在本发明实施例的技术方案,通过和关键词音频词典中的关键词语音对比,获取到语音相似度特征,并将语音相似度特征作为一种人工特征加入到人工特征集中,作为情绪特征数据输入语音情绪识别模型,由此可以有效的提高语音情绪识别的准确率。

此外,该技术方案使用的语音情绪识别模型,是通过前述实施例中的语音情绪识别模型训练方法训练确定的。因此,语音情绪识别模型的网络框架是通过在基准网络框架基础上扩张得到,是结构较复杂但识别精度较高的网络,基于该网络框架,语音情绪识别模型具有更好的语音情绪识别运算效率和准确率。

如图9所示,图9是本发明另一个实施例提供的语音情绪识别模型训练装置的结构示意图。在本发明一实施例中,该语音情绪识别模型训练的装置,具体包括:

第一获取模块901,用于获取多个语音信息样本。

样本预处理模块902,用于分别对多个所述语音信息样本进行预处理,生成多个音频信息样本。

第一提取模块903,用于分别对多个所述音频信息样本进行特征提取,得到多个所述音频信息样本的情绪特征数据样本。

训练模块904,用于将多个所述情绪特征数据样本输入到待训练的语音情绪识别模型,对所述待训练的语音情绪识别模型进行迭代训练,其中,所述语音情绪识别模型的网络框架是按预设系数对基准网络框架扩张调整确定,所述基准网络框架的参数数量小于所述语音情绪识别模型的网络框架的参数数量。

确定模块905,用于当所述训练满足预设的训练条件时,将训练后的语音情绪识别模型作为目标语音情绪识别模型。

如图10所示,图10是本发明另一个实施例提供的语音情绪识别装置的结构示意图。在本发明一实施例中,该语音情绪识别装置,具体包括:

第二获取模块1001,用于获取用户的语音信息;

预处理模块1002,用于对所述语音信息进行预处理,生成音频信息;

第二提取模块1003,用于对所述音频信息进行特征提取,得到所述音频信息的情绪特征数据;

识别模块1004,用于将所述情绪特征数据输入利用上述的语音情绪识别模型的训练方法训练得到的所述语音情绪识别模型中,识别出所述用户的语音情绪结果。

如图11所示,图11是本发明另一个实施例提供的语音情绪识别装置的结构示意图。在本发明一实施例中,该语音情绪识别装置,具体包括:

开启语音识别模块1101,用于获取用户的初始输入选择,当前是否需要开启语音情绪识别功能。

语音数据采集模块1102,用于在前端获取用于的语音数据,并且上传到云端。

语音增强模块1103,在云端对已经接受到的语音数据进行语音增强和降噪。

数据预处理模块1104,对经过语音增强降噪的数据依据需求进行预处理,包括预加重,短时分析,分帧,加窗以及端点检测。

算法模块1105,使用已训练好的情绪识别网络模型对预处理好的语音数据进行分类识别,并输出对应结果。

情绪结果反馈模块1106,对已进行情绪识别的用户的情绪数据进行记录,并且在相应的前端进行显示。

图12示出了本发明实施例提供的语音情绪识别模型训练的的硬件结构示意图。

在语音情绪识别模型训练的设备可以包括处理器1201以及存储有计算机程序指令的存储器1202。

具体地,上述处理器1201可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器1202可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器1202可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1202可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1202可在综合网关容灾设备的内部或外部。在特定实施例中,存储器1202是非易失性固态存储器。在特定实施例中,存储器1202包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器1201通过读取并执行存储器1202中存储的计算机程序指令,以实现上述实施例中的任意一种语音情绪识别模型训练方法。

在一个示例中,语音情绪识别模型训练的设备还可包括通信接口1203和总线1210。其中,如图12所示,处理器1201、存储器1202、通信接口1203通过总线1210连接并完成相互间的通信。

通信接口1203,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线1210包括硬件、软件或两者,将语音情绪识别模型训练的设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1210可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

该语音情绪识别模型训练设备可以执行本发明实施例中的语音情绪识别模型训练的方法,从而实现结合图1、图描述的语音情绪识别模型训练的方法。

如图13所示,图13示出了本发明实施例提供的语音情绪识别的硬件结构示意图。

在语音情绪识别的设备可以包括处理器1301以及存储有计算机程序指令的存储器1302。

具体地,上述处理器1301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器1302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器1302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器1302是非易失性固态存储器。在特定实施例中,存储器1302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器1301通过读取并执行存储器1302中存储的计算机程序指令,以实现上述实施例中的任意一种语音情绪识别的方法。

在一个示例中,语音情绪识别的设备还可包括通信接口1303和总线1310。其中,如图13所示,处理器1301、存储器1302、通信接口1303通过总线1310连接并完成相互间的通信。

通信接口1303,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线1310包括硬件、软件或两者,将语音情绪识别的设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

该语音情绪识别设备可以执行本发明实施例中的语音情绪识别的方法,从而实现结合图5描述的语音情绪识别的方法。

另外,结合上述实施例中的语音情绪识别模型训练方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音情绪识别模型训练方法。

另外,结合上述实施例中的语音情绪识别的方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音情绪识别的方法。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号