首页> 中国专利> 节拍重拍联合检测模型的训练及节拍重拍联合检测方法

节拍重拍联合检测模型的训练及节拍重拍联合检测方法

摘要

公开一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。训练方法包括:获取样本音频信号和样本音频信号对应的节拍重拍标注信息,节拍重拍标注信息包括节拍标注信息、重拍标注信息和非节拍标注信息;将样本音频信号的音频特征输入节拍重拍联合检测模型,得到样本音频信号中每帧数据的节拍重拍点预测概率,节拍重拍点预测概率表示样本音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的预测概率;将节拍重拍标注信息映射为动态标注信息,并基于节拍重拍点预测概率和对应的动态标注信息,计算训练损失,动态标注信息与样本音频信号的每分钟节拍数相关联;根据训练损失调整节拍重拍联合检测模型的参数。该训练方法可提高模型的检测准确率。

著录项

  • 公开/公告号CN114897157A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 北京达佳互联信息技术有限公司;

    申请/专利号CN202210470363.6

  • 发明设计人 范欣悦;张旭;郑羲光;张晨;

    申请日2022-04-28

  • 分类号G06N3/08(2006.01);G06N3/04(2006.01);G06K9/00(2022.01);G10L25/30(2013.01);G10L25/51(2013.01);

  • 代理机构北京铭硕知识产权代理有限公司 11286;北京铭硕知识产权代理有限公司 11286;

  • 代理人刘超;胡伟

  • 地址 100085 北京市海淀区上地西路6号1幢1层101D1-7

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06N 3/08 专利申请号:2022104703636 申请日:20220428

    实质审查的生效

说明书

技术领域

本公开涉及音频处理领域,尤其涉及一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。

背景技术

在音乐中,节拍(beat)是音乐中表示固定单位时值和强弱规律的组织形式,它定义了音乐作品的韵律结构,而节奏以重拍和非重拍的重复序列为特征,重拍(downbeat)是指音乐中的强拍。目前已经有相当多的研究集中在寻找音乐的节拍上,但对追踪重拍所做的努力却少得多。在西方音乐中,重拍通常和和弦变化或和声变化相吻合,因此节拍重拍联合检测对音乐分析、音乐结构划、自动配乐甚至是一些创意卡点视频制作,节拍主导的灯光秀等实际应用场景中都是至关重要的。

目前,基于深度学习的节拍检测算法解决了部分传统算法的问题,不需要估计音符起始点的位置,依赖于更少的先验知识,并且在一度程度上提升重拍检测的准确度。但是音乐中的节拍、重拍和非节拍(non-beat)的数量严重不平衡,且重拍的数量要远远少于非节拍,如果在用于训练的标注信息中只对节拍和重拍进行标注,那么模型容易在训练的过程中出现过拟合的情况。

发明内容

本公开提供一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法,以至少解决上述相关技术中的问题,也可不解决任何上述问题。

根据本公开实施例的第一方面,提供一种节拍重拍联合检测模型的训练方法,所述训练方法包括:获取样本音频信号和所述样本音频信号对应的节拍重拍标注信息,所述节拍重拍标注信息包括节拍标注信息、重拍标注信息和非节拍标注信息;将所述样本音频信号的音频特征输入节拍重拍联合检测模型,得到所述样本音频信号中每帧数据的节拍重拍点预测概率,其中,所述节拍重拍点预测概率表示所述样本音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的预测概率;将所述节拍重拍标注信息映射为动态标注信息,并基于所述节拍重拍点预测概率和对应的所述动态标注信息,计算训练损失,其中,所述动态标注信息与所述样本音频信号的每分钟节拍数相关联;根据所述训练损失调整所述节拍重拍联合检测模型的参数。

可选地,所述将所述节拍重拍标注信息映射为动态标注信息,包括:基于预先设置的窗函数,对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息。

可选地,所述窗函数包括用于确定所述窗函数的曲线宽度的超参数,其中,所述基于预先设置的窗函数,对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息,包括:基于所述节拍重拍标注信息,确定所述样本音频信号的每分钟节拍数;基于确定的所述样本音频信号的每分钟节拍数,确定所述超参数的值;基于确定的所述超参数的值,通过所述窗函数对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息。

可选地,所述超参数的值与所述样本音频信号的每分钟节拍数成负相关。

可选地,所述通过所述窗函数对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息,包括:基于所述窗函数对所述节拍重拍标注信息进行信息提取,得到所述动态标注信息。

可选地,所述样本音频信号的音频特征通过以下步骤来获取:将所述样本音频信号转换为时频域信号,并将所述时频域信号作为所述样本音频信号的音频特征。

可选地,所述将所述时频域信号作为所述样本音频信号的音频特征,包括:对所述时频域信号进行滤波处理,并将滤波后的时频域信号作为所述样本音频信号的音频特征。

可选地,所述基于所述节拍重拍点预测概率和对应的所述动态标注信息,计算训练损失,包括:根据所述节拍点、重拍点和非节拍点的预测概率和对应的所述动态标注信息,分别计算所述节拍点的预测概率对应的第一损失、所述重拍点的预测概率对应的第二损失和所述非节拍点的预测概率对应的第三损失;根据所述第一损失、所述第二损失和所述第三损失,确定所述训练损失。

根据本公开实施例的第二方面,提供一种节拍重拍联合检测方法,所述节拍重拍联合检测方法包括:获取待处理的音频信号;将所述待处理的音频信号的音频特征输入如上所述的节拍重拍联合检测模型的训练方法训练得到的节拍重拍联合检测模型,得到所述待处理的音频信号中每帧数据的节拍重拍点概率,其中,所述节拍重拍点概率表示所述待处理的音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的概率;根据所述待处理的音频信号中每帧数据的节拍重拍点概率,确定所述待处理的音频信号的节拍重拍联合检测结果。

可选地,所述待处理的音频信号的音频特征通过以下步骤来获取:将所述待处理的音频信号转换为时频域信号,并将所述时频域信号作为所述待处理的音频信号的音频特征。

可选地,所述将所述时频域信号作为所述待处理的音频信号的音频特征,包括:对所述时频域信号进行滤波处理,并将滤波后的时频域信号作为所述待处理的音频信号的音频特征。

可选地,所述根据所述待处理的音频信号中每帧数据的节拍重拍点概率,确定所述待处理的音频信号的节拍重拍联合检测结果,包括:通过对所述待处理的音频信号中每帧数据的节拍重拍点概率进行解码,得到节拍重拍时间序列,并将所述节拍重拍时间序列作为所述待处理的音频信号的节拍重拍联合检测结果。

根据本公开实施例的第三方面,提供一种节拍重拍联合检测模型的训练装置,所述训练装置包括:样本获取单元,被配置为获取样本音频信号和所述样本音频信号对应的节拍重拍标注信息,所述节拍重拍标注信息包括节拍标注信息、重拍标注信息和非节拍标注信息;概率预测单元,被配置为将所述样本音频信号的音频特征输入节拍重拍联合检测模型,得到所述样本音频信号中每帧数据的节拍重拍点预测概率,其中,所述节拍重拍点预测概率表示所述样本音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的预测概率;损失确定单元,被配置为将所述节拍重拍标注信息映射为动态标注信息,并基于所述节拍重拍点预测概率和对应的所述动态标注信息,计算训练损失,其中,所述动态标注信息与所述样本音频信号的每分钟节拍数相关联;模型训练单元,被配置为根据所述训练损失调整所述节拍重拍联合检测模型的参数。

可选地,所述损失确定单元还被配置为:基于预先设置的窗函数,对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息。

可选地,所述窗函数包括用于确定所述窗函数的曲线宽度的超参数,其中,所述损失确定单元还被配置为:基于所述节拍重拍标注信息,确定所述样本音频信号的每分钟节拍数;基于确定的所述样本音频信号的每分钟节拍数,确定所述超参数的值;基于确定的所述超参数的值,通过所述窗函数对所述节拍重拍标注信息进行加窗处理,得到所述动态标注信息。

可选地,所述超参数的值与所述样本音频信号的每分钟节拍数成负相关。

可选地,所述损失确定单元还被配置为:基于所述窗函数对所述节拍重拍标注信息进行信息提取,得到所述动态标注信息。

可选地,所述样本获取单元还被配置为:将所述样本音频信号转换为时频域信号,并将所述时频域信号作为所述样本音频信号的音频特征。

可选地,所述样本获取单元还被配置为:对所述时频域信号进行滤波处理,并将滤波后的时频域信号作为所述样本音频信号的音频特征。

可选地,所述损失确定单元还被配置为:根据所述节拍点、重拍点和非节拍点的预测概率和对应的所述动态标注信息,分别计算所述节拍点的预测概率对应的第一损失、所述重拍点的预测概率对应的第二损失和所述非节拍点的预测概率对应的第三损失;根据所述第一损失、所述第二损失和所述第三损失,确定所述训练损失。

根据本公开实施例的第四方面,提供一种节拍重拍联合检测装置,所述节拍重拍联合检测装置包括:音频获取单元,被配置为获取待处理的音频信号;概率确定单元,被配置为将所述待处理的音频信号的音频特征输入如上所述的节拍重拍联合检测模型的训练方法训练得到的节拍重拍联合检测模型,得到所述待处理的音频信号中每帧数据的节拍重拍点概率,其中,所述节拍重拍点概率表示所述待处理的音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的概率;结果确定单元,被配置为根据所述待处理的音频信号中每帧数据的节拍重拍点概率,确定所述待处理的音频信号的节拍重拍联合检测结果。

可选地,所述音频获取单元还被配置为:将所述待处理的音频信号转换为时频域信号,并将所述时频域信号作为所述待处理的音频信号的音频特征。

可选地,所述音频获取单元还被配置为:对所述时频域信号进行滤波处理,并将滤波后的时频域信号作为所述待处理的音频信号的音频特征。

可选地,所述结果确定单元还被配置为:通过对所述待处理的音频信号中每帧数据的节拍重拍点概率进行解码,得到节拍重拍时间序列,并将所述节拍重拍时间序列作为所述待处理的音频信号的节拍重拍联合检测结果。

根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。

根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。

根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法,在训练的过程中,通过包含节拍信息、重拍信息和非节拍信息的标注信息来计算损失,并在此基础上调整节拍重拍联合检测模型的参数,能够有效避免模型过拟合,并且考虑到人耳对节奏的感知是线性变化,还将标注信息与样本音频信号的每分钟节拍数相关联,从而有助于模型收敛,提高了节拍和重拍检测的准确率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是示出一种相关技术的节拍检测方法的逻辑图;

图2是示出另一种相关技术的节拍检测方法的逻辑图;

图3是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的实施场景示意图;

图4是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的流程图;

图5是示出根据本公开的示例性实施例的窗函数的曲线示意图;

图6是示出根据本公开的示例性实施例的节拍重拍联合检测方法的流程图;

图7是示出根据本公开的示例性实施例的节拍重拍联合检测方法的逻辑图;

图8是示出根据本公开的示例性实施例的检测结果的示意图;

图9是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练装置的框图;

图10是示出根据本公开的示例性实施例的节拍重拍联合检测装置的框图;

图11是示出根据本公开的示例性实施例的电子设备1100的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

图1是示出一种相关技术的节拍检测方法的逻辑图。

参照图1,相关技术的节拍检测方法一般先利用能量/音高/音色/相位上的变化来估计音符起始点(onset),然后基于音乐速度基本稳定和音乐速度的范围等的先验知识,利用音符起始点之间的相关性估计BPM(Beats per Minute,每分钟节拍数),最后使用动态规划找到一组能最大程度匹配估计到的BPM的节拍序列,并且将音符起始点的强度最大的位置作为最优的节拍位置。

上述相关技术的节拍检测方法一般结合信号处理和乐理的先验知识,在节拍稳定的情况下,能得到较为准确的结果,但是对于节拍有变化或节拍感不强的音乐类型,如古典乐和爵士乐等音乐类型,难以得到准确的结果。另外,由于重拍和非重拍的区别度较小,上述相关技术的节拍检测方法在重拍检测方面始终没有很大的突破。具体而言,上述相关技术的节拍检测方法需要依赖于很多人工经验和先验知识,但是这些并不能适应于所有的数据。这就导致在部分音乐类型中,上述相关技术的节拍检测方法能得到较为准确的检测结果,但是在一些与先验知识不匹配的情况下,检测结果就会很差。例如,上述相关技术的节拍检测方法以音乐的BPM总是保持稳定为先验条件,对于BPM变化较大的音乐就不能适用;并且上述相关技术的节拍检测方法一般需要先计算音符起始点,对于敲击乐等能够比较好地估计音符起始点,但是对于弦乐或人声强节拍弱的情况则不能较好地估计音符起始点,从而导致节拍检测不准确。

图2是示出另一种相关技术的节拍检测方法的逻辑图。

参照图2,另一种相关技术的节拍检测方法是基于深度学习的检测方法,一般分为三个主要步骤:特征提取,深度模型的节拍概率预测以及全局节拍位置估计。首先,特征提取通常使用频域特征;其次,深度模型一般基于BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆网络)等网络来构建,通过深度模型可以为每一帧数据计算属于节拍点的概率;最后,全局节拍位置估计会结合动态规划,如DBN(Dynamic BayesianNetwork,动态贝叶斯网络)等,得到一组全局最优的节拍位置。

上述另一种相关技术的节拍检测方法不需要估计音符起始点的位置,对先验知识依赖更少,并且在一度程度上提升了重拍检测的准确度。但是如BiLSTM和BiGRU(Bi-directional Gate Recurrent Unit,双向门控循环单元)等RNN(Recurrent NeuralNetwork,循环神经网络)主要是随着时间推移进行顺序处理,存在梯度爆炸消失等潜在问题,且无法处理更长序列的时序信息。另外,尽管用TCN(Temporal convolutionalnetwork,时序卷积网络)替代RNN,可以通过增强层数,改变膨胀系数和滤波器的大小来改变感受野,使历史信息在长短上更加灵活,但是在测试中,RNN只需要维护一个隐藏状态并接受当前输入,便可以生成一个预测,而TCN仍然需要完整的序列才能进行预测。

另外,重拍检测不同于节拍检测,对于重拍的感知更多是依赖于和弦和音乐织体的变化,但是由于重拍是包含在节拍里面,与节拍共同决定了音乐的音乐律动,因此单独预测重拍会存在一些问题。并且由于节拍、重拍和非节拍的数量严重的不平衡,重拍的数量要远远少于非节拍,因此如果只在标注信息中对节拍和重拍进行标注,模型容易过拟合。

针对上述问题,本公开提供了一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法,能够基于CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)来构建模型,以结合CNN(Convolutional Neural Networks,卷积神经网络)和RNN的优点,既可以直接从输入特征学习到维度更少的局部特征,也可以学习长期依赖的时序信息。另外,在训练的过程中,能够通过包含节拍信息、重拍信息和非节拍信息的标注信息来计算损失,并在此基础上调整节拍重拍联合检测模型的参数,能够有效避免模型过拟合,并且考虑到人耳对节奏的感知是线性变化,还将标注信息与样本音频信号的每分钟节拍数相关联,从而有助于模型收敛,提高了节拍和重拍检测的准确率。

图3是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的实施场景示意图。

参照图3,该实施场景包括服务器300、用户终端310和用户终端320,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取音乐的应用程序,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。

服务器300接收用户终端310、320发送的对节拍重拍联合检测模型进行训练的请求之后,统计从用户终端310、320历史上接收到的音乐片段并对统计的音乐片段中的节拍、重拍和非节拍分别进行标注,并将标注后的音乐片段合并在一起作为训练样本集,其中,训练样本集包括多个音乐片段和每个音乐片段对应的节拍标注信息、重拍标注信息和非节拍标注信息,服务器300在获取到训练样本集后,将其中的音乐片段的音频特征输入节拍检测网络,得到音乐片段中每帧数据的节拍点、重拍点和非节拍点的预测概率,然后,基于节拍点、重拍点和非节拍点的预测概率、对应的节拍标注信息、重拍标注信息和非节拍标注信息,计算损失,再通过损失调整节拍重拍联合检测模型的参数,以对节拍重拍联合检测模型进行训练,得到最优的节拍重拍联合检测模型,通过训练好的模型可以对输入的待处理的音乐片段进行准确的处理,即得到该待处理音乐的节拍和重拍。

下面,将参照图4至图11详细描述根据本公开的示例性实施例的节拍重拍联合检测模型的训练及节拍重拍联合检测方法和装置。

图4是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的流程图。

参照图4,在步骤S401中,可获取样本音频信号和样本音频信号对应的节拍重拍标注信息。这里,节拍重拍标注信息可包括节拍标注信息、重拍标注信息和非节拍标注信息。进一步地,可对样本音频信号的节拍标注信息、重拍标注信息和非节拍标注信息的时间位置进行处理,得到每一帧的基础标签,例如,将非节拍表示为[1,0,0],将节拍表示为[0,1,0],将重拍表示为[0,0,1],但不限于此。通过增加非节拍的标注,能够在节拍、重拍和非节拍的数量不平衡的情况下,避免模型过拟合。另外,上述每个样本音频信号对应的节拍重拍标注信息可以是人工标注的,也可以是通过其他标注方式,本公开在此不做限制。

接下来,在步骤S402中,可将样本音频信号的音频特征输入节拍重拍联合检测模型,得到样本音频信号中每帧数据的节拍重拍点预测概率。这里,节拍重拍点预测概率表示样本音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的预测概率。

根据本公开的示例性实施例,样本音频信号的音频特征可通过以下步骤来获取:将样本音频信号转换为时频域信号,并将时频域信号作为样本音频信号的音频特征。通过将样本音频信号转换为时频域信号,能够使模型在训练的过程中更好地提取样本音频信号的时序特征和频率特征。进一步地,可对时频域信号进行滤波处理,并将滤波后的时频域信号作为样本音频信号的音频特征。通过上述滤波处理,能够对时频域信号进行数据降维,降低模型训练时的资源占用,从而提高模型性能。

作为示例,首先,可以但不限于通过短时傅里叶变换(Short-Time FourierTransform,STFT)将样本音频信号转换为时频域信号;然后,可以但不限于通过对数计算将时频域信号转换为对数频谱特征,从而对时频域信号进行滤波处理,并将滤波得到的对数频谱特征作为样本音频信号的音频特征。具体而言,可通过下述方式获取样本音频信号的音频特征:

1)将原始音频信号通过短时傅里叶变换转到时频域。若长度为T的原始音频信号x在时域上为x(t),其中t代表时间,0

X(n,k)=STFT(x(t)) (1)

这里,STFT(x(t))表示对x(t)进行短时傅里叶变换;n为帧序列,0<0≤Ns,(Ns为总帧数);k为中心频率序列,0

2)计算对数频谱特征(即上述音频特征)可通过如下公式实现:

Log_Spec(n,k‘)=Filter(X(n,k)) (2)

这里,Log_Spec(n,k‘)表示对数频谱特征;Filter(X(n,k))表示对X(n,k)进行滤波处理,k‘为对数频谱转换后的频率序列。

在得到对数频谱特征后,可以将得到的对数频谱特征输入节拍重拍联合检测模型中,得到每一帧数据对应为节拍点、重拍点和非节拍点的概率,具体可以表示如下:

P(n)=CRNN(Log_Spec(n,k‘)) (3)

这里,P(n)表示节拍重拍点预测概率,CRNN(Log_Spec(n,k‘))表示将对数频谱特征输入由CRNN构建的模型中。

接下来,在步骤S403中,可将节拍重拍标注信息映射为动态标注信息,并基于节拍重拍点预测概率和对应的动态标注信息,计算训练损失。这里,动态标注信息可与样本音频信号的每分钟节拍数相关联。通过包含节拍信息、重拍信息和非节拍信息的标注信息来计算损失,能够有效避免模型过拟合,而将标注信息与样本音频信号的每分钟节拍数相关联,能够考虑到人耳对节奏的感知是线性变化的,从而有助于模型收敛。

根据本公开的示例性实施例,可基于预先设置的窗函数,对节拍重拍标注信息进行加窗处理,得到动态标注信息。这里,窗函数可包括用于确定窗函数的曲线宽度的超参数。进一步地,可基于节拍重拍标注信息,确定样本音频信号的每分钟节拍数;然后,可基于确定的样本音频信号的每分钟节拍数,确定超参数的值;然后,可基于确定的超参数的值,通过窗函数将节拍重拍标注信息进行加窗处理,得到动态标注信息。这里,可基于窗函数对节拍重拍标注信息进行信息提取,得到动态标注信息,例如将节拍重拍标注信息与窗函数进行卷积,但本公开不限于此,本领域技术人员可以根据实际情况确定信息提取的计算方式。更进一步地,超参数的值与样本音频信号的每分钟节拍数成负相关,例如反比,但本公开不限于此。通过窗函数给标注信息加窗,能够结合人耳对节奏的感知是线性变化的特点,将标注信息与样本音频信号的每分钟节拍数相关联,从而有助于模型收敛,提高了节拍和重拍检测的准确率。另外,将超参数的值设置为与样本音频信号的每分钟节拍数成负相关,能够考虑到节奏越快的歌,拍点持续时间越短,节奏越慢的歌,拍点持续时间越长,使加窗处理后的结果更加符合人耳感知的特点。

图5是示出根据本公开的示例性实施例的窗函数的曲线示意图。

参照图5,窗函数可以是高斯核函数(Gaussian Kernel Function),高斯核函数g(x)具体可表示如下:

这里,σ是用于确定窗函数的曲线宽度的超参数。如图5所示的窗函数的曲线可以是σ取值为1时的高斯核函数的曲线。通过调整σ的大小,可以调整高斯核函数的取值。由于人耳对速度的感知基本是线性的,因此假设节奏越快的歌,拍点持续时间越短,需要更小的σ,节奏越慢的歌,拍点持续时间越长,则需要更大的σ。另外,歌曲的BPM的范围通常在50-200之间,因此拍间隔(interval)范围在0.3s到1.2s之间。在此基础上,可控制高斯核函数的σ与歌曲的BPM成反比,即与拍间隔成正比。作为示例,可选择σ与拍间隔的比率为2,此时超参数σ具体可表示如下:

σ=2×interval (5)

另外,根据本公开的示例性实施例,在得到动态标注信息后,可基于节拍重拍点预测概率P(n)和对应的动态标注信息B(n),计算训练损失l(n):

l(n)=Loss(P(n),B(n)) (6)

这里,可根据节拍点、重拍点和非节拍点的预测概率和对应的动态标注信息,分别计算节拍点的预测概率对应的第一损失、重拍点的预测概率对应的第二损失和非节拍点的预测概率对应的第三损失;然后,可根据第一损失、第二损失和第三损失,确定训练损失。进一步地,作为示例,可对第一损失、第二损失和第三损失进行加权求和,以确定训练损失,但本公开不限于此。这里,在通过上述加权求和来确定训练损失时可以使第一损失、第二损失和第三损失的权重为19:59:1,但本公开不限于此,本领域技术人员可根据实际情况调整第一损失、第二损失和第三损失各自的权重,从而优化模型训练。更进一步地,可利用加权交叉熵(weighted cross entropy)损失函数来计算损失,即式(6)中的Loss损失函数可以为加权交叉熵损失函数,但本公开不限于此。

返回参照图4,在步骤S404中,可根据训练损失调整节拍重拍联合检测模型的参数,以对节拍重拍联合检测模型进行训练。这里,可以但不限于通过随机梯度下降法来减小损失函数实现更新模型对应的参数,并利用Adam(adaptive moment estimation,适应性矩估计)优化来加速模型训练迭代更新。

根据本公开的示例性实施例,节拍重拍联合检测模型可以是通过卷积循环神经网络构建的。这里,CRNN可包括两层CNN层和两层RNN层,并且RNN可以采用BiLSTM。通过CRNN来构建模型,能够结合CNN和RNN的优点,既可以直接从输入特征学习到维度更少的局部特征,也可以学习长期依赖的时序信息。

图6是示出根据本公开的示例性实施例的节拍重拍联合检测方法的流程图。

参照图6,在步骤S601中,可获取待处理的音频信号。

接下来,在步骤S602中,可将待处理的音频信号的音频特征输入根据本公开的节拍重拍联合检测模型的训练方法训练得到的节拍重拍联合检测模型,得到待处理的音频信号中每帧数据的节拍重拍点概率。这里,节拍重拍点概率表示待处理的音频信号中每帧数据是节拍点、重拍点和非节拍点的概率。

根据本公开的示例性实施例,待处理的音频信号的音频特征看可通过以下步骤来获取:将待处理的音频信号转换为时频域信号,并将时频域信号作为待处理的音频信号的音频特征。通过将待处理的音频信号转换为时频域信号,能够使模型在检测时更好地提取待处理的音频信号的时序特征和频率特征。进一步地,可对时频域信号进行滤波处理,并将滤波后的时频域信号作为待处理的音频信号的音频特征。通过上述滤波处理,能够对时频域信号进行数据降维,降低模型检测时的资源占用,从而提高模型检测性能。

作为示例,首先,可以但不限于通过短时傅里叶变换将待处理的音频信号映射为时频域信号;然后,可以但不限于通过对数计算将时频域信号转换为对数频谱特征,从而对时频域信号进行滤波处理,并将滤波得到的对数频谱特征作为待处理的音频信号的音频特征。

接下来,在步骤S603中,可根据待处理的音频信号中每帧数据的节拍重拍点概率,确定待处理的音频信号的节拍重拍联合检测结果。这里,可通过对待处理的音频信号中每帧数据的节拍重拍点概率进行解码,得到节拍重拍时间序列,并将节拍重拍时间序列作为待处理的音频信号的节拍重拍联合检测结果。作为示例,可以但不限于利用DBN/HMM(Hidden Markov Model,隐马尔科夫模型)/viterbi(维特比算法)等方式对节拍重拍点概率进行解码,得到全局的节拍重拍时间序列。

为了方便理解上述实施例,下面结合图7和图8进行系统的描述。

图7是示出根据本公开的示例性实施例的节拍重拍联合检测方法的逻辑图,图8是示出根据本公开的示例性实施例的检测结果的示意图。

参照图7,节拍重拍联合检测模型是通过CRNN构建的。首先将待处理的音频信号转换为时频域的音频特征,然后将音频特征输入CRNN,通过两层卷积神经网络层(CNN层)提取音频特征的局部特征,再通过两层循环神经网络层(RNN层),即图7所示的双向门控循环单元层(BiGRU层),提取时序特征,再通过一层全连接层(Dense层)得到每一帧数据为节拍、重拍和非节拍的概率,最后为了得到全局信息,可以利用后处理模块,例如Madmom(用于音乐信息抽取的Python开发包)中的DBNDownBeatTracking模块,对上述Dense层输出的概率做解码得到最后的节拍重拍时间序列。音乐常见的拍号类型有2/4拍,3/4拍以及4/4拍,参照图8,对应的重拍帧、节拍中的弱拍帧以及非节拍帧,可作为待处理的音频信号的节拍重拍联合检测结果的示例。

根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法,能够基于CRNN来构建模型,以结合CNN和RNN的优点,既可以直接从输入特征学习到维度更少的局部特征,也可以学习长期依赖的时序信息。另外,根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法,在训练的过程中,通过包含节拍信息、重拍信息和非节拍信息的标注信息来计算损失,并在此基础上调整节拍重拍联合检测模型的参数,能够有效避免模型过拟合,并且考虑到人耳对节奏的感知是线性变化,还将标注信息与样本音频信号的每分钟节拍数相关联,从而有助于模型收敛,提高了节拍和重拍检测的准确率。

图9是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练装置的框图。参照图9,节拍重拍联合检测模型的训练装置900可包括:样本获取单元910、概率预测单元920、损失确定单元930和模型训练单元940。

样本获取单元910可获取样本音频信号和样本音频信号对应的节拍重拍标注信息。这里,节拍重拍标注信息可包括节拍标注信息、重拍标注信息和非节拍标注信息。

概率预测单元920可将样本音频信号的音频特征输入节拍重拍联合检测模型,得到样本音频信号中每帧数据的节拍重拍点预测概率。这里,节拍重拍点预测概率可表示样本音频信号中每帧数据是节拍点、重拍点和非节拍点的预测概率。

损失确定单元930可将节拍重拍标注信息映射为动态标注信息,并基于节拍重拍点预测概率和对应的动态标注信息,计算训练损失。这里,动态标注信息与样本音频信号的每分钟节拍数相关联。

模型训练单元940可根据训练损失调整节拍重拍联合检测模型的参数,以对节拍重拍联合检测模型进行训练。

根据本公开的示例性实施例,损失确定单元930还可基于预先设置的窗函数,对节拍重拍标注信息进行加窗处理,得到动态标注信息。这里,窗函数可包括用于确定窗函数的曲线宽度的超参数。

根据本公开的示例性实施例,损失确定单元930还可基于节拍重拍标注信息,确定样本音频信号的每分钟节拍数;然后,可基于确定的样本音频信号的每分钟节拍数,确定超参数的值;然后,可基于确定的超参数的值,通过窗函数对节拍重拍标注信息进行加窗处理,得到动态标注信息。这里,超参数的值可与样本音频信号的每分钟节拍数成负相关。

根据本公开的示例性实施例,损失确定单元930还可基于窗函数对节拍重拍标注信息进行信息提取,得到动态标注信息。

根据本公开的示例性实施例,损失确定单元930还可根据节拍点、重拍点和非节拍点的预测概率和对应的动态标注信息,分别计算节拍点的预测概率对应的第一损失、重拍点的预测概率对应的第二损失和非节拍点的预测概率对应的第三损失;然后,可根据第一损失、第二损失和第三损失,确定训练损失。

根据本公开的示例性实施例,样本获取单元910还可将样本音频信号转换为时频域信号,并将时频域信号作为样本音频信号的音频特征。

根据本公开的示例性实施例,样本获取单元910还可对时频域信号进行滤波处理,并将滤波后的时频域信号作为样本音频信号的音频特征。

根据本公开的示例性实施例,如上所述,节拍重拍联合检测模型可以是通过卷积循环神经网络构建的。

图10是示出根据本公开的示例性实施例的节拍重拍联合检测装置的框图。参照图10,节拍重拍联合检测装置1000可包括音频获取单元1010、概率确定单元1020和结果确定单元1030。

音频获取单元1010可获取待处理的音频信号。

概率确定单元1020可将待处理的音频信号的音频特征输入根据本公开的节拍重拍联合检测模型的训练方法训练得到的节拍重拍联合检测模型,得到待处理的音频信号中每帧数据的节拍重拍点概率。这里,节拍重拍点概率可表示待处理的音频信号中每帧数据分别属于节拍点、重拍点和非节拍点的概率。

结果确定单元1030可根据待处理的音频信号中每帧数据的节拍重拍点概率,确定待处理的音频信号的节拍重拍联合检测结果。

根据本公开的示例性实施例,音频获取单元1010还可将待处理的音频信号转换为时频域信号,并将时频域信号作为待处理的音频信号的音频特征。

根据本公开的示例性实施例,音频获取单元1010还可对时频域信号进行滤波处理,并将滤波后的时频域信号作为待处理的音频信号的音频特征。

根据本公开的示例性实施例,结果确定单元还可通过对待处理的音频信号中每帧数据的节拍重拍点概率进行解码,得到节拍重拍时间序列,并将节拍重拍时间序列作为待处理的音频信号的节拍重拍联合检测结果。

根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法和装置,能够基于CRNN来构建模型,以结合CNN和RNN的优点,既可以直接从输入特征学习到维度更少的局部特征,也可以学习长期依赖的时序信息。另外,根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法和装置,在训练的过程中,通过包含节拍信息、重拍信息和非节拍信息的标注信息来计算损失,并在此基础上调整节拍重拍联合检测模型的参数,能够有效避免模型过拟合,并且考虑到人耳对节奏的感知是线性变化,还将标注信息与样本音频信号的每分钟节拍数相关联,从而有助于模型收敛,提高了节拍和重拍检测的准确率。

根据本公开的实施例,可提供一种电子设备。图11是根据本公开实施例的一种电子设备1100的框图,该电子设备包括至少一个存储器1110和至少一个处理器1120,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。

作为示例,电子设备1100可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1100并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1100还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备1100中,处理器1120可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器1120还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1120可运行存储在存储器中的指令或代码,其中,存储器1110还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器1110可与处理器1120集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1110可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1110和处理器1120可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1120能够读取存储在存储器1110中的文件。

此外,电子设备1100还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的节拍重拍联合检测模型的训练方法或者节拍重拍联合检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号