公开/公告号CN114927143A
专利类型发明专利
公开/公告日2022-08-19
原文格式PDF
申请/专利权人 厦门大学;
申请/专利号CN202210422650.X
申请日2022-04-21
分类号G10L25/63(2013.01);G10L25/18(2013.01);G10L25/45(2013.01);G10L25/30(2013.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构厦门市新华专利商标代理有限公司 35203;
代理人朱凌
地址 361000 福建省厦门市思明区思明南路422号
入库时间 2023-06-19 16:25:24
法律状态公告日
法律状态信息
法律状态
2022-09-06
实质审查的生效 IPC(主分类):G10L25/63 专利申请号:202210422650X 申请日:20220421
实质审查的生效
技术领域
本发明涉及计算机技术领域,特别指一种基于深度学习的舞美效果自动生成方法及系统。
背景技术
现有的音乐背景和舞美效果的设计存在如下两种方法,其一是针对大型的演唱会,需要专业人士针对每首歌曲,根据其特有的情绪、意境、节奏等信息进行人工设计,但设计过程非常漫长,且成本高昂;其二是针对日常用户,通常采用一幅简单的动态背景壁纸,但变化效果枯燥单一,难以和歌曲做到有机结合。
因此,如何提供一种基于深度学习的舞美效果自动生成方法及系统,实现提升舞美效果生成的效率以及质量,降低舞美效果生成的成本,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于深度学习的舞美效果自动生成方法及系统,实现提升舞美效果生成的效率以及质量,降低舞美效果生成的成本。
第一方面,本发明提供了一种基于深度学习的舞美效果自动生成方法,包括如下步骤:
步骤S10、获取音频数据,将所述音频数据切割为音频片段;
步骤S20、对各所述音频片段进行预处理得到若干个第一单帧频域数组,对所述音频数据进行预处理得到第二单帧频域数组;
步骤S30、对各所述第一单帧频域数组进行横向堆叠得到声谱图;
步骤S40、将所述声谱图输入创建的愉悦度识别模型以及激活度识别模型得到对应的愉悦度和激活度;
步骤S50、基于所述第二单帧频域数组选取音乐的幅度值;
步骤S60、基于所述愉悦度、激活度以及幅度值自动生成舞美效果。
进一步地,所述步骤S10具体为:
获取音频数据,基于预设的时长将所述音频数据切割为若干个音频片段。
进一步地,所述步骤S20具体为:
对各所述音频片段进行分帧加窗以及傅里叶变换的预处理得到若干个第一单帧频域数组,对所述音频数据进行分帧加窗以及傅里叶变换的预处理得到第二单帧频域数组。
进一步地,所述步骤S30具体为:
对各所述音频片段的所有帧的第一单帧频域数组进行横向堆叠,得到各所述音频片段对应的声谱图。
进一步地,所述步骤S40具体为:
基于卷积神经网络创建一愉悦度识别模型以及一激活度识别模型,并对所述愉悦度识别模型以及激活度识别模型进行训练,将所述声谱图输入训练后的愉悦度识别模型以及激活度识别模型得到对应的愉悦度和激活度。
第二方面,本发明提供了一种基于深度学习的舞美效果自动生成系统,包括如下模块:
音频数据切割模块,用于获取音频数据,将所述音频数据切割为音频片段;
单帧频域数组生成模块,用于对各所述音频片段进行预处理得到若干个第一单帧频域数组,对所述音频数据进行预处理得到第二单帧频域数组;
声谱图生成模块,用于对各所述第一单帧频域数组进行横向堆叠得到声谱图;
情绪指标生成模块,用于将所述声谱图输入创建的愉悦度识别模型以及激活度识别模型得到对应的愉悦度和激活度;
幅度值选取模块,用于基于所述第二单帧频域数组选取音乐的幅度值;
舞美效果生成模块,用于基于所述愉悦度、激活度以及幅度值自动生成舞美效果。
进一步地,所述音频数据切割模块具体为:
获取音频数据,基于预设的时长将所述音频数据切割为若干个音频片段。
进一步地,所述单帧频域数组生成模块具体为:
对各所述音频片段进行分帧加窗以及傅里叶变换的预处理得到若干个第一单帧频域数组,对所述音频数据进行分帧加窗以及傅里叶变换的预处理得到第二单帧频域数组。
进一步地,所述声谱图生成模块具体为:
对各所述音频片段的所有帧的第一单帧频域数组进行横向堆叠,得到各所述音频片段对应的声谱图。
进一步地,所述情绪指标生成模块具体为:
基于卷积神经网络创建一愉悦度识别模型以及一激活度识别模型,并对所述愉悦度识别模型以及激活度识别模型进行训练,将所述声谱图输入训练后的愉悦度识别模型以及激活度识别模型得到对应的愉悦度和激活度。
本发明的优点在于:
通过将音频数据切割为音频片段,对各音频片段以及音频数据进行预处理得到第一单帧频域数组和第二单帧频域数组,对各第一单帧频域数组进行横向堆叠得到声谱图,将声谱图输入创建的愉悦度识别模型以及激活度识别模型得到包括愉悦度和激活度的情绪指标,基于第二单帧频域数组选取音乐的幅度值,最后基于情绪指标以及幅度值自动生成舞美效果,即将深度学习和音乐可视化应用到舞美效果的自动生成中,克服人工设计的繁琐过程以及高昂的成本,还能有效解决同一个背景效果无法契合不同音频数据的问题,最终极大的提升了舞美效果生成的效率以及质量,极大的降低了舞美效果生成的成本。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于深度学习的舞美效果自动生成方法的流程图。
图2是本发明一种基于深度学习的舞美效果自动生成系统的结构示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:将深度学习和音乐可视化应用到舞美效果的自动生成中,克服人工设计的繁琐过程以及高昂的成本,还能有效解决同一个背景效果无法契合不同音频数据的问题,以提升舞美效果生成的效率以及质量,降低舞美效果生成的成本。
请参照图1至图2所示,本发明一种基于深度学习的舞美效果自动生成方法的较佳实施例,包括如下步骤:
步骤S10、获取音频数据,将所述音频数据切割为音频片段;
步骤S20、对各所述音频片段进行预处理得到若干个第一单帧频域数组,对所述音频数据进行预处理得到第二单帧频域数组;
步骤S30、对各所述第一单帧频域数组进行横向堆叠得到声谱图;
步骤S40、将所述声谱图输入创建的愉悦度识别模型以及激活度识别模型得到对应的愉悦度(Valence)和激活度(Arousal);所述愉悦度和激活度统称为情绪指标;即针对所述音频数据进行分段预测情绪指标,使背景及时随着音频数据的情绪起伏而变化;
步骤S50、基于所述第二单帧频域数组,按需选取音乐特定频段的幅度值,能够使所生成的舞美效果的背景结合音频数据的节奏信息,与音频数据进一步融合;
步骤S60、基于所述愉悦度、激活度以及幅度值自动生成舞美效果。
结合所述愉悦度和激活度生成舞美效果,可以使舞美效果与音频数据的情绪相符;例如,越高的激活度控制更加剧烈的灯光明暗变换、粒子数量、运动速度等效果;依据愉悦度来确定背景的颜色。由于不同音频数据具有不同的情感色彩,其所呈现的舞美效果也将不同;即使是同一首歌曲,在不同的时间段,也有不同的愉悦度和激活度,因此可以使舞美背景跟随音频数据的情绪起伏而自动变化。
基于幅度值控制光强的公式如下:
Intensity1,Intensity2≤max Intensity;
其中,Intensity1表示当前时刻聚光灯的光强;Intensity2表示下一时刻聚光灯的光强;factor表示比例系数;spectrum表示当前时刻频谱中特定频率的幅度值;decay表示聚光灯光强的衰减速率。
以factor为例,根据区间映射法,利用Arousal来确定factor的值:
其中,Amax表示Arousal的最大值;Amin表示Arousal的最小值;Fmax表示factor的最大值;Fmin表示factor的最小值。
由于参数postion可以获取某个位置的颜色:
因此根据愉悦度确定颜色(postion)的方法为:愉悦度的取值范围为[-1,1],postion的取值范围为[0,1],根据区间映射法即可基于愉悦度确定postion,进而取出对应的颜色作为灯光、粒子的颜色。
基于幅度值以及激活度计算粒子数量的公式如下:
其中,
噪声力与幅度值的关系为:turbulence=e
竖直受力与幅度值、激活度的关系为:
-1.5为粒子所受重力,当前面正项足够大时,粒子受力朝上会呈现上升的效果。
所述步骤S10具体为:
获取音频数据,基于预设的时长将所述音频数据切割为若干个音频片段。例如以3秒为单位对所述音频数据进行切割。
所述步骤S20具体为:
对各所述音频片段进行分帧加窗以及傅里叶变换的预处理得到若干个第一单帧频域数组,对所述音频数据进行分帧加窗以及傅里叶变换的预处理得到第二单帧频域数组。分帧加窗可以得到多帧的数据,再针对每一帧进行傅里叶变换得到单帧频域数组。
所述步骤S30具体为:
对各所述音频片段的所有帧的第一单帧频域数组进行横向堆叠,得到各所述音频片段对应的声谱图。即一段所述音频数据被切割为多个音频片段,各所述音频片段均有对应的声谱图。
所述步骤S40具体为:
基于卷积神经网络创建一愉悦度识别模型以及一激活度识别模型,并对所述愉悦度识别模型以及激活度识别模型进行训练,将所述声谱图输入训练后的愉悦度识别模型以及激活度识别模型进行回归预测,得到对应的愉悦度和激活度。
本发明一种基于深度学习的舞美效果自动生成系统的较佳实施例,包括如下模块:
音频数据切割模块,用于获取音频数据,将所述音频数据切割为音频片段;
单帧频域数组生成模块,用于对各所述音频片段进行预处理得到若干个第一单帧频域数组,对所述音频数据进行预处理得到第二单帧频域数组;
声谱图生成模块,用于对各所述第一单帧频域数组进行横向堆叠得到声谱图;
情绪指标生成模块,用于将所述声谱图输入创建的愉悦度识别模型以及激活度识别模型得到对应的愉悦度(Valence)和激活度(Arousal);所述愉悦度和激活度统称为情绪指标;即针对所述音频数据进行分段预测情绪指标,使背景及时随着音频数据的情绪起伏而变化;
幅度值选取模块,用于基于所述第二单帧频域数组,按需选取音乐特定频段的幅度值,能够使所生成的舞美效果的背景结合音频数据的节奏信息,与音频数据进一步融合;
舞美效果生成模块,用于基于所述愉悦度、激活度以及幅度值自动生成舞美效果。
结合所述愉悦度和激活度生成舞美效果,可以使舞美效果与音频数据的情绪相符;例如,越高的激活度控制更加剧烈的灯光明暗变换、粒子数量、运动速度等效果;依据愉悦度来确定背景的颜色。由于不同音频数据具有不同的情感色彩,其所呈现的舞美效果也将不同;即使是同一首歌曲,在不同的时间段,也有不同的愉悦度和激活度,因此可以使舞美背景跟随音频数据的情绪起伏而自动变化。
基于幅度值控制光强的公式如下:
Intensity1,Intensity2≤maxIntensity;
其中,Intensity1表示当前时刻聚光灯的光强;Intensity2表示下一时刻聚光灯的光强;factor表示比例系数;spectrum表示当前时刻频谱中特定频率的幅度值;decay表示聚光灯光强的衰减速率。
以factor为例,根据区间映射法,利用Arousal来确定factor的值:
其中,Amax表示Arousal的最大值;Amin表示Arousal的最小值;Fmax表示factor的最大值;Fmin表示factor的最小值。
由于参数postion可以获取某个位置的颜色:
因此根据愉悦度确定颜色(postion)的方法为:愉悦度的取值范围为[-1,1],postion的取值范围为[0,1],根据区间映射法即可基于愉悦度确定postion,进而取出对应的颜色作为灯光、粒子的颜色。
基于幅度值以及激活度计算粒子数量的公式如下:
其中,
噪声力与幅度值的关系为:turbulence=e
竖直受力与幅度值、激活度的关系为:
-1.5为粒子所受重力,当前面正项足够大时,粒子受力朝上会呈现上升的效果。
所述音频数据切割模块具体为:
获取音频数据,基于预设的时长将所述音频数据切割为若干个音频片段。例如以3秒为单位对所述音频数据进行切割。
所述单帧频域数组生成模块具体为:
对各所述音频片段进行分帧加窗以及傅里叶变换的预处理得到若干个第一单帧频域数组,对所述音频数据进行分帧加窗以及傅里叶变换的预处理得到第二单帧频域数组。分帧加窗可以得到多帧的数据,再针对每一帧进行傅里叶变换得到单帧频域数组。
所述声谱图生成模块具体为:
对各所述音频片段的所有帧的第一单帧频域数组进行横向堆叠,得到各所述音频片段对应的声谱图。即一段所述音频数据被切割为多个音频片段,各所述音频片段均有对应的声谱图。
所述情绪指标生成模块具体为:
基于卷积神经网络创建一愉悦度识别模型以及一激活度识别模型,并对所述愉悦度识别模型以及激活度识别模型进行训练,将所述声谱图输入训练后的愉悦度识别模型以及激活度识别模型进行回归预测,得到对应的愉悦度和激活度。
综上所述,本发明的优点在于:
通过将音频数据切割为音频片段,对各音频片段以及音频数据进行预处理得到第一单帧频域数组和第二单帧频域数组,对各第一单帧频域数组进行横向堆叠得到声谱图,将声谱图输入创建的愉悦度识别模型以及激活度识别模型得到包括愉悦度和激活度的情绪指标,基于第二单帧频域数组选取音乐的幅度值,最后基于情绪指标以及幅度值自动生成舞美效果,即将深度学习和音乐可视化应用到舞美效果的自动生成中,克服人工设计的繁琐过程以及高昂的成本,还能有效解决同一个背景效果无法契合不同音频数据的问题,最终极大的提升了舞美效果生成的效率以及质量,极大的降低了舞美效果生成的成本。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
机译: 基于深度学习的自动生成基于文本的句子的系统,以实现与乐器样式无限相关的改进
机译: 基于深度学习的人际互动身体语言自动生成方法和系统
机译: 基于深度学习的文本句子自动生成系统,可改善语音模式的无限性