首页> 中国专利> 一种基于音视频信息的自动音乐记谱方法及系统

一种基于音视频信息的自动音乐记谱方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于音视频信息的自动音乐记谱方法及系统，所述方法包含：采集钢琴演奏的视频和音频数据；依据采集的视频信息用视频跟踪算法获取手部在钢琴上的所有位置信息，根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息，即依据视频采集信息获得钢琴弹奏的音符备选范围序列集，简称“视频音符备选范围序列集”；对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息，根据基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息；将同步后的视频音符备选范围序列集和音频音符备选范围序列集取交集确定演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息。

著录项

公开/公告号CN103377647A

专利类型发明专利
公开/公告日2013-10-30

原文格式PDF
申请/专利权人中国科学院声学研究所;北京中科信利技术有限公司;
展开▼

申请/专利号CN201210122443.9
发明设计人周若华;颜永红;万玉龙;
展开▼

申请日2012-04-24
分类号G10H1/00(20060101);
代理机构11318 北京法思腾知识产权代理有限公司;
代理人杨小蓉;杨青
地址 100190 北京市海淀区北四环西路21号
入库时间 2024-02-19 20:48:02

法律信息

法律状态公告日

法律状态信息

法律状态
2015-10-07

授权

授权
2013-11-27

实质审查的生效 IPC(主分类):G10H1/00 申请日:20120424

实质审查的生效
2013-10-30

公开

公开

说明书

技术领域

本发明涉及一种应用于钢琴计算机辅助教学的自动音乐记谱技术，更具体地说，本发明涉及基于音视频结合的钢琴自动音乐记谱技术，即本发明提供了一种基于音视频信息的自动音乐记谱方法及系统。

背景技术

自动音乐记谱是指用计算机分析技术将音乐声学信号转换成符号代表，将其所对应的乐谱信息自动翻译出来。它使计算机具有一定程度“听懂“音乐，并完成记谱的能力，在音乐信号处理和分析领域中，有着十分重要的位置，同时也是一个极具挑战性的世界难题.通常音乐记谱需要受过专门训练的音乐工作者人工完成，要耗费大量的时间和人力。自动音乐记谱极大的方便了自动化音乐分析和音乐注释，可被广泛用于基于内容的音乐检索，音乐教育，音乐创作，低位率的压缩编码和自动音乐伴奏系统等，是音乐信号处理中的关键技术。

由于绝大多数音乐都是复音音乐，因此复音音乐自动记谱是该领域的重点和难点，从斯坦福大学70年代开发第一个计算机复音音乐记谱系统至今已有近40年，期间对于复音音乐记谱的研究探索也取得了丰富的学术成果，积累了宝贵的经验，然而当前该技术的准确率和实际应用需求还有相当大的差距，形成这种状况的根本原因在于复音音乐所包括的音乐风格和演奏乐器类型过于繁多，种类繁多，其自动记谱需要很高的智能，只有受过多年训练的音乐专家才能胜任；让计算机也具有如此高的智能，当前的人工智能技术还相距甚远.过去在这一领域的研究绝大部分是不针对任何特定应用的，不能充分利用与特定应用相关的其他信息。

钢琴作为当今世界最流行的乐器，被称为乐器之王，近年来我国越来越多的人特别是青少年开始接受专业或者业余的音乐教育，中国音乐家协会透露，目前全国有 3000多万人在学习钢琴。钢琴作为复音乐器的代表，所需要的音乐自动记谱技术难度最大，如果能有效的解决钢琴音乐的自动记谱，其他乐器的自动记谱问题也能迎刃而解。现有的钢琴自动音乐记谱技术仅仅依靠听觉(声音媒介)，自动音乐记谱的准确率低，难以被实际应用。

发明内容

本发明的目的在于，为克服现有技术的记录钢琴弹奏乐谱存在精度低等诸多缺陷，从而提供一种基于音视频信息的自动音乐记谱方法及系统。

为实现上述目的，本发明提供了一种基于音视频信息的自动音乐记谱方法，该方法采用多媒体技术自动完成钢琴弹奏者的音乐记谱，所述方法包含如下步骤：

步骤101)录制并采集钢琴演奏的视频和音频数据，用于同步处理分析；

步骤102)依据采集的视频信息采用视频跟踪算法获取手部在钢琴上的所有位置信息，根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息，即依据视频采集信息获得钢琴弹奏的音符备选范围序列集，简称“视频音符备选范围序列集”；

步骤103)对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息，根据所述的基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息，即依据音频采集信息获取钢琴弹奏的音符备选范围序列集，简称“音频音符备选范围序列集”；

步骤104)将步骤102)获得的各个弹奏音符的所有手部位置信息和步骤103) 获得的各弹奏音符的基频信息在时间上逐一进行对齐，并对对齐后的视频音符备选范围序列集和音频音符备选范围序列集取交集最终确定演奏者演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息，完成对钢琴演奏的自动音乐记谱；

其中，所述弹奏时刻信息包含：各个音符的开始弹奏时刻及持续时间。

所述步骤102)的视频跟踪算法采用背景差分法及肤色检测算法来跟踪手部在钢琴上的位置。

可选的，所述步骤102)进一步包含如下子步骤：在演奏之前，手动完成钢琴键盘的上下左右边界的设定，同时保存空白键盘的帧作为背景帧；

待演奏开始后，将当前帧和背景帧都转换成灰度图像，并进行灰度图像直方图均衡化，做差分计算，得到差分动态部分的二值图像；同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间，分别在两个色彩空间求背景帧与当前帧的差分，得到肤色部分的动态二值图像；

对所得二值图像进行中值滤波，膨胀腐蚀，最后两两求交集，进行轮廓检测，圈定最大矩形轮廓，得到钢琴键盘上手的活动范围；

最后结合所圈定的钢琴长宽及位置信息，等比例求得手部位置所对应的音符范围。

可选的，所述步骤103)音频自动音乐记谱算法进一步包含：

首先对演奏的钢琴采集其单音音符多种不同响度的样点，进行RTFI频谱分析获取各样点的谐波频谱结构特征及RTFI平均能量谱的平均能量谱并存储；

然后按照谐音组合原理，将RTFI平均能量谱转换为基频能量谱和相对基频能量谱；

根据相对基频能量谱算法采用峰拾取方法对可能出现的基频进行初步预测；

然后根据音符的谐波频谱结构特征和频谱不规律性，消除错误预测。

基于上述方法本发明还提供了一种基于音视频信息的自动音乐记谱系统，该系统采用多媒体技术自动完成钢琴弹奏者的音乐记谱，所述系统包含：

音视频采集模块，用于录制并采集钢琴演奏的视频和音频信息；

音频分析模块，用于将采集的音频数据进行RTFI分析获得RTFI平均能量谱，将获得的RTFI平均能量谱，采用基于能量变化的切分方法得到音符的弹奏时刻和持续时间，运用快速非迭代方法对获得的获得基频信息，结合音符的起始位置和多基频信息得出大致的各个音符的范围及这些音符的各个音符对应的弹奏时刻信息；

视频数据分析模块，用于将采集的视频图像进行图像预处理和分析提取出所有音符对应的手部位置信息，并将所有手部位置信息输入音视频信息综合处理模块；

音视频信息综合处理模块，用于手部位置信息缩小音频数据分析模块的音符判定范围，最终提取出所弹奏的各个音符的乐谱信息。

上述技术方案中，所述视频数据分析处理模块进一步包含如下子模块：

边界界定子模块，用于记录：在演奏之前，手动完成钢琴键盘的上下左右边界的设定，同时保存空白键盘的帧作为背景帧；

二值图像处理子模块，用于待演奏开始后，将当前帧和背景帧都转换成灰度图像，并进行灰度图像直方图均衡化，做差分计算，得到差分动态部分的二值图像；同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间，分别在两个色彩空间求背景帧与当前帧的差分，得到肤色部分的动态二值图像；

第一处理子模块，用于对所得的二值图像进行中值滤波，膨胀腐蚀，最后两两求交集，进行轮廓检测，圈定最大矩形轮廓，得到钢琴键盘上手的活动范围；和

第二处理子模块，用于结合所圈定的钢琴长宽及位置信息，比例求得手部位置所对应的音符范围。

与现有技术相比较，本发明的优点在于：

(1)计算机除了利用音频信息以外，还利用视频中的手部位置信息来设定所演奏音符的范围，显著提高了自动音乐记谱的性能，即大幅度提高钢琴自动音乐记谱的准确率，同时保持算法的快速性。

(2)本发明视频跟踪部分能够采用的是背景差分法及肤色检测算法来跟踪手部在钢琴上的位置，计算量小，能够满足实时应用的要求。

(3)本发明音频自动记谱算法是由本发明负责人在国际上首次提出的，该算法在2008年国际音乐信息检索评测比赛中，获得钢琴自动音乐记谱第一名，且速度最快。

附图说明

图1是本发明的整个钢琴自动音乐记谱方法的具体流程框图；

图2是本发明在钢琴弹奏过程中，摄像头记录手在键盘上的运动示意图，其中，灰色色块代表手的圈定范围。

具体实施方式

下面结合附图对本发明的内容进行详细说明。

本发明采用多媒体融合技术，通过结合视频对于手部在钢琴键盘上的位置信息跟踪和为特定钢琴音符建立包含频谱和时序特征模型的方法，大幅度提高钢琴自动音乐记谱算法的准确率，同时保持算法的快速性，使钢琴自动记谱算法的性能达到计算机辅助教学特定应用的要求。

为实现上述目的，本发明的自动音乐记谱技术方法包括以下步骤予以实现：

第一步，采集钢琴演奏的视频和音频数据，用于同步处理分析。

第二步，对视频先进行钢琴手动定位，并运用视频跟踪算法对手部在钢琴上的位置进行跟踪定位，同时结合钢琴键盘对应的音符分布对所弹奏音符的范围进行限定。其中视频跟踪算法主要包括三个子模块：采集视频图像、图像预处理和图像分析，采集视频图像子模块利用摄像设备监视钢琴的键盘区域，并将所获得图像转换成计算机能够识别的信号；图像预处理子模块将图像进行锐化处理，使图像清晰度更高，有利于计算机处理，便于各种图像特征的分析；图像分析模块，利用背景差分法及人体肤色检测算法，将演奏者手部相关的信息从背景中分离出来，形成二值图像，求其轮廓，最终得到演奏者手部在键盘上的位置信息，最后结合所圈定的钢琴长宽及位置信息，等比例求得手部位置所对应的音符范围。

第三步，对音频进行RTFI频谱分析，然后按照谐音组合原理，将RTFI平均能量谱转换为基频能量谱(pitch energy spectrum，PES)和相对基频能量谱(relative pitch energy spectrum，RPES)，根据相对基频能量谱，采用简单的峰拾取方法对可能出现的基频进行初步预测，并将基频、开始时间及持续时间信息转换成相应的音符时间序列。

第四步，将第二步得到的位置信息和第三步得到的基频信息在时间上对齐，利用位置信息限定的音符范围，消除第三步中出现的错误预测。

第五步，最终确定所演奏的音符及它们的开始和持续时间，完成自动音乐记谱。

如图1所示，该图是本发明的钢琴自动音乐记谱系统的具体流程图，它描述了本发明的核心组成部分，主要由以下几部分构成：音视频采集部分、音频数据分析部分、视频数据分析部分以及音视频信息结合部分。

在钢琴演奏者演奏过程中进行视频及音频录制，将采集到的视频图像输入到视频处理模块，进行图像预处理、图像分析，提取出手部位置信息；同时音频信号经过 RTFI分析后，进行切分并运用快速非迭代方法进行基频估计，结合音符的起始位置和多基频信息得出大致的音符范围；最后将音视频两部分的分析结果结合起来，利用视频信息结果缩小音符判定范围，提取出所弹奏的乐谱。

图2为视频录制及分析示意图。钢琴演奏者弹奏之前，首先手动确定钢琴上下左右边界，设定好钢琴在画面中的位置，并记录空白键盘帧作为背景帧。开始弹奏后，对图像进行背景差分法及肤色识别，圈定手在钢琴键盘上的位置范围，进一步通过分析手所覆盖的按键计算出此时所弹奏音符的范围，辅助音频数据处理结果，提高自动音乐记谱的准确率。

基于上述方法本发明提供了一种基于音视频信息的自动音乐记谱系统，该系统采用多媒体技术自动完成钢琴弹奏者的音乐记谱，所述系统包含：

音视频采集模块，用于录制并采集钢琴演奏的视频和音频信息；

音视频信息综合处理模块，用于手部位置信息缩小音频数据分析模块的音符判定范围，最终提取出所弹奏的各个音符的乐谱信息。

上述技术方案中所述视频数据分析处理模块进一步包含如下子模块：

边界界定子模块，用于记录：在演奏之前，手动完成钢琴键盘的上下左右边界的设定，同时保存空白键盘的帧作为背景帧；

第一处理子模块，用于对所得的二值图像进行中值滤波，膨胀腐蚀，最后两两求交集，进行轮廓检测，圈定最大矩形轮廓，得到钢琴键盘上手的活动范围；

第二处理子模块，用于结合所圈定的钢琴长宽及位置信息，比例求得手部位置所对应的音符范围。

上述技术方案中，所述音频数据分析处理模块进一步包含如下子模块：

时频分析模块，采用RTFI进行时频分析。输入样点为单声道的音乐信号，采用共振滤波器组。滤波器的中心频率按照对数标度设置。输入信号首先通过RTFI分析后，产生了RTFI能量谱(RTFI energy spectrum)；然后RTFI能量谱对每10毫秒帧进行平均得到RTFI平均能量谱。RTFI平均能量谱如下列方程所示：

$A (l, ω_{m}) = db (\frac{1}{M} Σ_{i = (l - 1) M + 1}^{lM} {| RTFI (n, ω_{m}) |}^{2})$

其中M是一个整数，M/采样频率代表了每帧的时间长度。本文所建议的方法中， M被设定为441，所对应的帧时间长度为10ms.RTFI(n，ωm)代表了离散RTFI在采样点n和频率ωm的值；l是帧索引.

音符切分模块，时频分析模块获得的RTFI平均能量谱，被进一步的按照下列方程转换为频谱D.

$R (k, ω_{m}) = \frac{1}{5} Σ_{i = 1}^{5} A (k, i \cdot ω_{m})$

$S (k, ω_{m}) = \frac{1}{25} Σ_{i = k - 2}^{k + 2} Σ_{m - 2}^{m + 2} R (k, ω_{m})$

D(k，ω_m)＝S(k，ω_m)-S(k-n，ω_m)

频谱D可以被用来跟踪瞬时信息，从而产生能量基的侦测函数(detection function)，如下列方程所示：

L(k，ω_m)＝H(D(k，ω_m)-θ₁)，θ₁＞0

DF(k)＝mean(L(k，ω_m))

其中H(x)＝(x+|x|/2是半波整流函数，DF代表了能量基的侦测函数，侦测函数再通过简单的移动平均滤波器来进行光滑。然后简单的峰拾起算法被采用，仅仅那些超过阈值的峰被考虑为可能的音符起始位置。

多基频估计模块，按照谐音组合原理，由时频分析模块输入的RTFI平均能量谱首先按下面的方程被转换为基频能量谱(pitch energy spectrum，PES)和相对基频能量谱(relative pitch energy spectrum，RPES)。

$PES (ω_{k}) = \frac{1}{L} Σ_{i = 1}^{L} A (i \cdot ω_{k})$

$RPES (ω_{k}) = PES (ω_{k}) - \frac{1}{N_{1} + 1} Σ_{i = k - N_{1} / 2}^{k + N_{1} / 2} PES (ω_{i})$

$RES (ω_{k}) = A (ω_{k}) - Σ_{i = k - N_{2} / 2}^{k + N_{2} / 2} A (ω_{i})$

根据相对基频能量谱，算法对可能出现的基频按照下面的假定进行初步预测。在相对基频能量谱中，如果在频率ωk存在一个峰，而且峰值超过一个阈值A1，则该频率被初步估计为一个候选基频。然后对候选基频按照下面的方法进行排除；当基频为ω1的音符和一个基频为nω1的音符混合在一起的时候，则对应的谐音频谱包络不是光滑的；而是每第n谐音分量要明显大于相邻的谐音分量。这种现象能够通过计算频谱不规律性(spectral irregularity，SI)来检测。

$SI (n) = Σ_{i = 1}^{3} (A (i \cdot n \cdot ω_{k}) - (\frac{A (i \cdot n \cdot ω_{k} - 1) + A (i \cdot \cdot ω_{k} + 1)}{2}))$

当候选基频中存在着基频ω1和ω2，且ω2＝nω1。如果更高的基频不存在，则SI(n) 的值常常是小的；反之，由于重叠的谐音分量被加强，SI(n)有比较大的值。基于这一实验观察，当SI(n)小于某个阈值时，则算法会将较高的基频预测ω2排除。其阈值是通过实验来确定的。在实际应用中，大部分由谐音分量重叠所引起的错误预测，其基频是真实存在的基频的2，3或4倍。因此，算法仅对基本频率比为2，3和4 的两个候选基频进行SI检测，以排除可能的错误预测。和

处理模块，按照音符切分模块所检测到的音符起始位置，被分割成不同的时间片段。对于每个时间片段的输入信号，采用多基频估计模块，以预测在该时间片段里所出现一个或多个音符的基频。最后，算法检测每个被预测到的基频是从本时间片段开始，还是从以前的时间片段就已经开始了。对于第n个时间片段，如果一个基频ω被预测，而第n-1个时间片段所预测的基频不包含ω，则基频ω被认定为是第N个时间片段新出现的基频。反之，如果第N-1个时间片段所预测的基频也包含 ω，则只有在基频所对应的能量谱或者第二谐音所对应的能量谱在第N个时间片段有显著的能量增加，才会被认定为是第N个时间片段新出现的基频。当每个时间片段所出现音符的基频和这些音符的起始位置被估计后，下一步就是估计这些音符的持续时间。由于音符的开始时间已经在前面的步骤估计了，系统只需预测出音符的终止时间就可以得到持续时间。当预测第N个时间片段内新出现音符a的终止时间时，系统将从前往后逐个观察后续时间片段内所预测的基频；直到发现了一个时间片段，系统对该片段所预测的基频中不包含该音符的基频，或者包含了该音符的基频，但此基频被估计是新出现的；那么该时间片段的起始位置被确定为音符a的终止时间。

总之，本发明涉及一种可以应用于钢琴计算机辅助教学的自动音乐记谱方法。包括：利用背景差分法及不同色彩空间的肤色检测算法对视频中手部在钢琴键盘上的位置进行跟踪，通过比对钢琴键盘与音符的对应关系设定音符的范围；对音频进行RTFI频谱分析，然后按照谐音组合原理，将RTFI平均能量谱转换为基频能量谱 (pitch energy spectrum，PES)和相对基频能量谱(relative pitch energy spectrum，RPES)，根据相对基频能量谱，采用简单的峰拾取方法对可能出现的基频进行初步预测，并将基频、开始时间及持续时间信息转换成相应的音符时间序列；结合音视频的分析结果对音符的错误预测进行消除。最终确定所演奏的音符及它们的开始和持续时间，完成自动音乐记谱。

相对于现有技术的仅仅依靠音频信息的复音音乐记谱技术由于会出现倍频问题，同时基频预测的算法本身也具有局限性，技术性能尚不能达到实际应用的需求。这一领域的技术研究绝大部分也不是针对特定应用的，不能利用与特定应用相关的其他信息。本发明的目的在于提供一种基于多媒体融合的钢琴计算机辅助教学的自动音乐记谱技术，利用了视频中手部位置信息来设定所演奏音符的范围，显著提高了自动音乐记谱技术的性能，解决了复音音乐记谱技术不能被实际应用的问题。

综上所述，本发明提供了一种基于音视频信息的自动音乐记谱方法及系统，该方法采用多媒体技术自动完成钢琴弹奏者的音乐记谱，所述方法可应用于钢琴计算机辅助教学的自动音乐记谱技术。该方法采用音视频的多媒体融合技术，利用视频中演奏者手部在键盘上的位置信息对自动音乐记谱技术进行修正，从而得到更为精确的自动音乐记谱结果。基于音视频结合的自动音乐记谱技术对钢琴音乐的记谱准确率与未采用多媒体融合的自动音乐记谱技术相比较，有了很大的提高，同时视频部分的算法计算量小，能够满足实时应用。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于音视频信息的自动音乐记谱方法及系统 [P] . 中国专利： CN103377647B . 2015.10.07
2. 一种基于音视频信息的自动音乐记谱方法及系统 [P] . 中国专利： CN103377647A . 2013-10-30
3. automated music composition and generation system, automated music composition and generation process, automated music composition and generation, toy musical instrument, music accompaniment and music composition toy instrument, automated composition toy instrument system and music generation, electronic information processing and display system, enterprise-class internet-based music composition and generation system, network system for automatically generating and delivering digital composite music, stand-alone music-based music composition and performance system artificial intelligence for use in a music environment, autonomous composition process music generation and performance based on artificial intelligence, autonomous analysis instrument system, network for setting up an automated music composition and generation engine, geometry method music theory system operational parameter mapping, method of composing and generating digital music in an automated manner, parameter transform [P] . BR112018006194A2 . 2018-10-09

机译：自动化音乐创作和生成系统，自动化音乐创作和生成过程，自动化音乐创作和生成，玩具乐器，音乐伴奏和音乐创作玩具乐器，自动化创作玩具乐器系统和音乐生成，电子信息处理和显示系统，企业基于互联网的一流音乐创作和生成系统，用于自动生成和传送数字复合音乐的网络系统，用于音乐环境的基于独立音乐的音乐创作和表演系统人工智能，基于音乐的自主创作过程音乐的生成和表演人工智能，自主分析仪器系统，用于建立自动音乐创作和生成引擎的网络，几何方法音乐理论系统操作参数映射，以自动方式构成和生成数字音乐的方法，参数转换
4. METHOD OF COMPOSING A PIECE OF DIGITAL MUSIC USING MUSICAL EXPERIENCE DESCRIPTORS TO INDICATE WHAT, WHEN AND HOW MUSICAL EVENTS SHOULD APPEAR IN THE PIECE OF DIGITAL MUSIC AUTOMATICALLY COMPOSED AND GENERATED BY AN AUTOMATED MUSIC COMPOSITION AND GENERATION SYSTEM [P] . 美国专利： US2020168197A1 . 2020-05-28

机译：一种使用音乐体验描述符来指示数字音乐的方法，以指示由自动音乐合成和生成系统自动组成和生成的数字音乐片段中什么，何时以及如何出现音乐事件
5. Music information, updating system, music information broadcasting apparatus, terminal apparatus having music information updating function, music information updating method, music information broadcasting method, and music information updating method of terminal apparatus [P] . 美国专利： US7496327B2 . 2009-02-24

机译：音乐信息，更新系统，音乐信息广播设备，具有音乐信息更新功能的终端设备，音乐信息更新方法，音乐信息广播方法和终端设备的音乐信息更新方法