首页> 中国专利> 一种音频文件的旋律提取方法及旋律识别系统

一种音频文件的旋律提取方法及旋律识别系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种音频文件的旋律提取方法及旋律识别系统，其不依赖于音频文件中绑定的身份数据信息，能够准确地识别音频文件的身份，并且对音频文件的识别具有较高的速度。所述音频文件的旋律提取方法包括以下步骤：保存预先建立的标签库，其中，所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息；在一个音频文件中截取若干个音频片段，分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签；根据所述第二数字标签查找所述标签库，获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息；将所述身份数据信息与所述音频文件相匹配。

著录项

公开/公告号CN102063904A

专利类型发明专利
公开/公告日2011-05-18

原文格式PDF
申请/专利权人广州酷狗计算机科技有限公司;
展开▼

申请/专利号CN201010567156.X
发明设计人谢振宇;
展开▼

申请日2010-11-30
分类号G10L15/28;G10L15/02;G10L17/00;
代理机构广州华进联合专利商标代理有限公司;
代理人王茹
地址 510665 广东省广州市天河区科韵路16号B1栋13楼
入库时间 2023-12-18 02:21:58

法律信息

法律状态公告日

法律状态信息

法律状态
2012-06-27

授权

授权
2011-07-20

实质审查的生效 IPC(主分类):G10L15/28 申请日:20101130

实质审查的生效
2011-05-18

公开

公开

说明书

技术领域

本发明涉及一种音频文件的旋律提取方法，以及一种音频文件的旋律识别系统。

背景技术

传统的音频播放器或者音乐下载器中，常常通过与音频文件绑定的身份数据信息来识别音频文件，这部分身份数据信息通常设置在音频文件的开头或末尾的若干字节内，称为ID3信息，所述ID3信息常常记载了所述音频文件的歌手、标题、专辑名称、年代、风格等信息。播放器或者下载器在音频文件中提取这部分身份数据信息，然后显示给用户查看。

然而，如今通过相关的软件可以轻易地修改音频文件中的所述身份数据信息，在网络上传播的音频文件，所述身份数据信息在多次转载的过程中可能会被不同的用户修改甚至删除，导致所述音频文件的身份数据信息与实际不符甚至无法识别，给用户使用带来不便。

发明内容

本发明要解决的技术问题是提供一种较准确的音频文件的旋律提取方法，其不依赖于音频文件中绑定的身份数据信息，能够准确地识别音频文件的身份。

一种音频文件的旋律提取方法，包括以下步骤：保存预先建立的标签库，其中，所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息；在一个音频文件中截取若干个音频片段，分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签；根据所述第二数字标签查找所述标签库，获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息；将所述身份数据信息与所述音频文件相匹配。

本发明要解决的技术问题还在于提供一种较准确的音频文件的旋律识别系统。

所述音频文件的旋律识别系统包括客户端和服务器，所述客户端用于在一个音频文件中截取若干个音频片段；分别提取所述若干个音频片段的音频特征，生成所述音频文件的第二数字标签，然后将所述第二数字标签发送至所述服务器；接收所述服务器发送的身份数据信息，将所述身份数据信息与所述音频文件相匹配。所述服务器用于保存预先建立的标签库，其中，所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息；接收所述客户端发送的第二数字标签，根据所述第二数字标签查找所述标签库，获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息，并将所述身份数据信息发送至所述客户端。

与现有技术相比较，本发明的音频文件的旋律提取方法及旋律识别系统中，对一个音频文件截取音频片段，提取所述音频片段的特征生成所述第二数字标签，查找所述标签库，获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息，而是直接根据其本身的音频特征来识别所述音频文件，因为每个所述音频文件都有其唯一的音频特征，所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件，不会因为在转载过程中身份数据信息的修改而导致无法识别。并且，由于不是对整个音频文件生成所述第二数字标签，而是截取音频文件中的音频片段来生成所述第二数字标签，所以，所述第二数字标签的数据量比较小；通过截取数据片段的过程筛选出非静音的音频片段，还可以在生成所述第二数字标签时过滤掉连续静音的音频片段，进一步减小所述数字标签的数据量，因此可以加快在所述标签库中查找数字标签的速度，从而提高整个音频文件识别过程的效率；另外，还可以使所述标签库中储存更多的数字标签，增强对音频文件的识别能力。

附图说明

图1是本发明音频文件的旋律提取方法的步骤流程图；

图2是本发明音频文件的旋律识别系统的结构示意图；

图3是本发明音频文件的旋律识别系统中客户端的结构示意图。

具体实施方式

请参阅图1，图1是本发明音频文件的旋律提取方法的步骤流程图。

所述音频文件的旋律提取方法包括以下步骤：

在步骤S101，保存预先建立的标签库。

其中，所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息。

在本步骤中，可以先对音频库中的音频文件进行音频片段的截取，然后根据所述音频片段的音频特征生成所述音频库中所有音频文件的第一数字标签，然后将所述音频文件标准的身份数据信息与所述第一数字标签建立一一对应的关系，建立所述标签库。所述第一数字标签根据所述音频文件的音频特征生成，其生成步骤可与步骤S102中所述第二数字标签的生成方法相同。

在所述标签库中，对于一个音频文件，可以保存根据所述音频文件的一个音频片段的音频特征生成的第一数字标签，也可以同时保存分别根据所述音频文件的多个音频片段的音频特征生成的多个第一数字标签。

所述音频文件的身份数据信息的确定可以采用趋势算法，即，在多个用户的音频库中，所述音频文件可能对应保存有不同的身份数据信息，此时，对所有用户保存的所述音频文件的身份数据信息进行统计，将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息，则，将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系，建立所述标签库。其中，所述身份数据信息包括：歌手、歌词、所属专辑、流派等。

在步骤S102，在一个音频文件中截取若干个音频片段，分别根据所述若干个音频片段的音频特征生成所述音频文件的第二数字标签。

在本步骤中，首先获取用户指定的音频文件，然后根据用户选定的范围在所述音频文件中截取相应的音频片段，然后分析提取所述音频片段的音频特征，生成相应的第二数字标签。

其中，本步骤中的所述第二数字标签和步骤S101中的第一数字标签可以根据所述音频文件的某种音频特征或者多种音频特征组合形成，例如：响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数、线性预测系数等。通过对上述各种音频特征的检测、采样、量化、编码，从而生成对应的数字标签。

所述音频文件的音频特征分为时域特征和频域特征。时域特征如：短时平均能量、过零率。其中，短时平均能量反映了音频能量幅度的变化，而过零率则表示语音信号波形超过横轴(零电平)的次数。短时平均能量和过零率结合常常用来区分静音、非静音、清音、浊音，以及音乐的开始和结束。

特别地，在提取所述音频文件的过零率特征时，为了避免静音段的随机噪声带来过高的过零率，预先设定一个门限值，如：delta＝0.02，如果在单位时间内样点值改变符号，并且差值的绝对值大于0.02，则过零率加1。

而音频文件的频域特征包括：能量谱、倒谱值等。在提取所述音频文件的频域特征时，可以先对音频信号进行傅立叶变换，分析出组成该信号的不同频率和不同幅值的谐波，然后分别对这些谐波进行频域特征系数的提取。其中，能量谱用于分析该音频文件的能量分布，可获得构成该音频文件的主要频率；而检测倒谱值则可以获得声门波的频率(音调)和声道的特征(共振峰)。

再者，某些音频信号具有很强的时变特性，即在一段时间内表现出周期信号的特性，而在另一段时间段则表现出噪音特性。对于这些时变剧烈的音频信号，既要考虑其时域特性，也要考虑其频域特性，则，可以采取短时傅里叶变换思想：假定非平稳的音频信号x(t)在分析窗函数g(t)的一个短时间间隔内是平稳的，移动分析窗函数g(t)，使x(t)g(t-τ)在不同的有限时间宽度内是平稳信号，从而计算出所述音频信号x(t)在各个不同时刻的能量谱。

在生成所述第一数字标签或者所述第二数字标签时，可以根据实际需要，单独提取所述音频文件的时域特征来生成所述第一数字标签或者所述第二数字标签，或者单独提取所述音频文件的频域特征来生成所述第一数字标签或者所述第二数字标签，也可以同时提取音频文件的时域特征和频域特征，将两者互相结合来生成所述第一数字标签或者所述第二数字标签。

进一步地，在所述音频文件中截取所述音频片段时，可以预先根据隐马尔科夫模型建立分割所述音频文件的音频片段筛选模板，由于隐马尔科夫模型具有良好的随机时序性，并且不依赖于具体的阈值，因此，通过所述音频片段筛选模板可以筛选出所述音频文件中用户应用较多或者检索较多的音频片段，例如含有音乐高潮部分的音频片段；同时过滤掉所述音频文件中用户应用较少或者检索较少的音频片段，例如静音部分的音频片段，从而大大提高生成所述第一数字标签或者所述第二数字标签的速度，也提高了音频文件识别的准确率。

进一步地，在本步骤中，将所述音频文件分成多个帧，帧与帧之间互相重叠，每一帧即为对所述音频文件截取的音频片段，则，对所述音频文件截取的若干个音频片段覆盖了整个所述音频文件所有部分的音频特征，如此可以提高识别音频文件的准确率。

在步骤S103，根据所述第二数字标签查找所述标签库，获取与所述第二数字标签相匹配的第一数字标签及其对应的音频文件身份数据信息。

在查找所述标签库时，因为截取音频片段和提取音频片段的音频特征时可能会有误差，导致所述第一数字标签和所述第二数字标签可能并不完全相同，因此在本步骤中，可对所述第一数字标签和所述第二数字标签采取模糊类聚算法来对比，即在预设的误差范围内查找与所述第二数字标签相似度最高的所述第一数字标签，并获取所述第一数字标签及其对应的音频文件身份数据信息。

在步骤S104，将所述身份数据信息与所述音频文件相匹配。

在本步骤中，可以将上述步骤S103中获取的所述音频文件身份数据信息，替换原来混乱的或者错误的身份数据信息。

与现有技术相比较，本发明的音频文件的旋律提取方法中，对一个音频文件截取音频片段，提取所述音频片段的特征生成所述第二数字标签，查找所述标签库，获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息，而是直接根据其本身的音频特征来识别所述音频文件，因为每个所述音频文件都有其唯一的音频特征，所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件，不会因为在转载过程中身份数据信息的修改而导致无法识别。并且，由于不是对整个音频文件生成所述第二数字标签，而是截取音频文件中的音频片段来生成所述第二数字标签，所以，所述第二数字标签的数据量比较小；通过截取数据片段的过程筛选出非静音的音频片段，还可以在生成所述第二数字标签时过滤掉连续静音的音频片段，进一步减小所述数字标签的数据量，因此可以加快在所述标签库中查找数字标签的速度，从而提高整个音频文件识别过程的效率；另外，还可以使所述标签库中储存更多的数字标签，增强对音频文件的识别能力。

请一并参阅图2和图3，图2是本发明音频文件的旋律识别系统的结构示意图；图3是本发明音频文件的旋律识别系统中客户端的结构示意图。

所述音频文件的旋律识别系统包括：客户端21和服务器22；

所述客户端21用于在一个音频文件中截取若干个音频片段；分别提取所述若干个音频片段的音频特征，生成所述音频文件的第二数字标签，然后将所述第二数字标签发送至所述服务器22；接收所述服务器22发送的身份数据信息，将所述身份数据信息与所述音频文件相匹配；

所述服务器22用于保存预先建立的标签库，其中，所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息；接收所述客户端21发送的第二数字标签，根据所述第二数字标签查找所述标签库，获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息，并将所述身份数据信息发送至所述客户端21。

所述服务器22中储存所述标签库，在本实施方式中，可以先对连接所述服务器22各个所述客户端21的音频库中的音频文件进行音频片段的截取，然后根据所述音频片段的音频特征生成所述音频库中所有音频文件的第一数字标签，将所述第一数字标签保存在所述服务器22中，与所述第一数字标签建立一一对应的关系，建立所述标签库。所述第一数字标签根据所述音频文件的音频特征生成，其生成方式可与所述第二数字标签的生成方法相同。

所述音频文件的身份数据信息的确定可以采用趋势算法，即，在多个所述客户端21的音频库中，所述音频文件可能对应保存有不同的身份数据信息，此时，对所有所述客户端21的音频库中保存的所述音频文件的身份数据信息进行统计，将最多客户端21保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息，则，将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系，在所述服务器22中建立所述标签库。其中，所述身份数据信息包括：歌手、歌词、所属专辑、流派等。

在所述客户端21包括音频库211和数字标签生成模块212。

所述数字标签生成模块212用于获取所述音频库211中用户指定的音频文件，然后根据用户选定的范围在所述音频文件中截取相应的音频片段，分析提取所述音频片段的音频特征，生成相应的第一数值标签或者第二数字标签。

其中，所述第二数字标签和所述第一数字标签可以根据所述音频文件的某种音频特征或者多种音频特征组合形成，例如：响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数、线性预测系数等。所述数字标签生成模块212通过对上述各种音频特征的检测、采样、量化、编码，从而生成对应的数字标签。

特别地，所述数字标签生成模块212在提取所述音频文件的过零率特征时，为了避免静音段的随机噪声带来过高的过零率，预先设定一个门限值，如：delta＝0.02，如果在单位时间内样点值改变符号，并且差值的绝对值大于0.02，则过零率加1。

而音频文件的频域特征包括：能量谱、倒谱值等。所述数字标签生成模块212在提取所述音频文件的频域特征时，可以先对音频信号进行傅立叶变换，分析出组成该信号的不同频率和不同幅值的谐波，然后分别对这些谐波进行频域特征系数的提取。其中，能量谱用于分析该音频文件的能量分布，可获得构成该音频文件的主要频率；而检测倒谱值则可以获得声门波的频率(音调)和声道的特征(共振峰)。

再者，某些音频信号具有很强的时变特性，即在一段时间内表现出周期信号的特性，而在另一段时间段则表现出噪音特性。对于这些时变剧烈的音频信号，所述数字标签生成模块212在提取其音频特征时既要考虑其时域特性，也要考虑其频域特性，则，可以采取短时傅里叶变换思想：假定非平稳的音频信号x(t)在分析窗函数g(t)的一个短时间间隔内是平稳的，移动分析窗函数g(t)，使x(t)g(t-τ)在不同的有限时间宽度内是平稳信号，从而计算出所述音频信号x(t)在各个不同时刻的能量谱。

所述数字标签生成模块212在生成所述第一数字标签或者所述第二数字标签时，可以根据实际需要，单独提取所述音频文件的时域特征来生成所述第一数字标签或者所述第二数字标签，或者单独提取所述音频文件的频域特征来生成所述第一数字标签或者所述第二数字标签，也可以同时提取音频文件的时域特征和频域特征，将两者互相结合来生成所述第一数字标签或者所述第二数字标签。

进一步地，所述数字标签生成模块212中可以根据隐马尔科夫模型建立音频文件数字标签提取的音频片段筛选模板，由于隐马尔科夫模型具有良好的随机时序性，并且不依赖于具体的阈值，因此，通过所述音频片段筛选模板可以筛选出所述音频文件中用户应用较多或者检索较多的音频片段，例如含有音乐高潮部分的音频片段；同时过滤掉所述音频文件中用户应用较少或者检索较少的音频片段，例如静音部分的音频片段，从而大大提高生成所述第一数字标签或者所述第二数字标签的速度，也提高了音频文件识别的准确率。

进一步地，所述数字标签生成模块212中，将用户选定的所述音频文件分成多个帧，帧与帧之间互相重叠，每一帧即为对所述音频文件截取的音频片段，使所述数字标签生成模块212对所述音频文件截取的若干个音频片段覆盖了整个所述音频文件所有部分的音频特征，如此可以提高识别音频文件的准确率。

所述服务器22在查找所述标签库时，因为截取音频片段和提取音频片段的音频特征时可能会有误差，可能会导致所述第一数字标签和所述第二数字标签不完全相同，因此所述服务器22可对所述第一数字标签和所述第二数字标签采取模糊类聚算法，即在预设的误差范围内查找与所述第二数字标签相似度最高的所述第一数字标签，获取所述第一数字标签及其对应的音频文件身份数据信息，并将所述身份数据信息发送至所述客户端21。

所述客户端21接收所述服务器22发送的所述身份数据信息，将所述音频文件身份数据信息，替换原来保存在所述音频库211中的混乱的或者错误的身份数据信息。

与现有技术相比较，本发明的音频文件的旋律识别系统中，所述客户端21中的数字标签生成模块212根据音频片段的特征生成所述第二数字标签，所述服务器22根据所述第二数字标签查找所述标签库，获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息，而是直接根据其本身的音频特征来识别所述音频文件，又因为每个所述音频文件都有其唯一的音频特征，所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件，不会因为在转载过程中对身份数据信息的修改而导致无法识别。并且，由于所述客户端21不是对整个音频文件生成所述第二数字标签，而是截取音频文件中的音频片段来生成所述第二数字标签，所以，所述第二数字标签的数据量比较小；通过截取数据片段的过程筛选出非静音的音频片段，还可以在生成所述第二数字标签时过滤掉连续静音的音频片段，进一步减小所述数字标签的数据量，因此可以加快所述数字标签在所述客户端21和所述服务器22之间传输的速度，同时加快所述服务器22在所述标签库中查找匹配数字标签的速度，从而提高整个音频文件的旋律识别系统的工作效率；另外，因为数字标签的数据量较小，所以所述服务器22保存的所述标签库中可以储存更多的数字标签，增强所述音频文件的旋律识别系统对音频文件的识别能力。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种音频文件的旋律提取方法及旋律识别系统 [P] . 中国专利： CN102063904B . 2012.06.27
2. 一种基于简谱识别和基频提取的人声旋律提取方法及系统 [P] . 中国专利： CN111326171A . 2020-06-23
3. Information processing apparatus, melody line extraction method, baseline extraction method, and program [P] . 日本专利： JP5593608B2 . 2014-09-24

机译：信息处理设备，旋律线提取方法，基线提取方法和程序
4. Information processing apparatus, melody line extraction method, bass line extraction method, and program [P] . 美国专利： US8618401B2 . 2013-12-31

机译：信息处理设备，旋律线提取方法，低音线提取方法和程序
5. INFORMATION PROCESSING APPARATUS, MELODY LINE EXTRACTION METHOD, BASS LINE EXTRACTION METHOD, AND PROGRAM [P] . 日本专利： JP2010134290A . 2010-06-17

机译：信息处理设备，旋律线提取方法，低音线提取方法和程序