首页> 中国专利> 民族音乐生成方法、装置、设备及存储介质

民族音乐生成方法、装置、设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及人工智能领域，公开了一种民族音乐生成方法、装置、设备及存储介质，生成用于冥想放松的多民族风格冥想音乐，该方法包括：获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数根据场景参数和风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于渲染规则对音乐素材进行音色渲染，得到成品素材；对成品素材进行音频处理，生成音乐文件并输出。此外，本发明还涉及区块链技术，乐谱素材可存储于区块链中。

著录项

公开/公告号CN113035162A

专利类型发明专利
公开/公告日2021-06-25

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202110301854.3
发明设计人蔡梓丰;韩宝强;肖京;
展开▼

申请日2021-03-22
分类号G10H1/00(20060101);G06F16/27(20190101);G06F16/635(20190101);G06F16/65(20190101);G06F16/683(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11321 北京市京大律师事务所;
代理人姚维
地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及人工智能领域，尤其涉及一种民族音乐生成方法、装置、设备及存储介质。

背景技术

现代人在日常工作生活中，不乏受到外部环境的压力或被动接收负面信息，从而产生不安、焦虑、抑郁甚至恐慌等负面情绪。研究表明，适当的音乐对改善不良情绪、促进患者的身心健康有明显的作用。同时，冥想或正念训练，也助于调节情绪、缓解压力。因此，在佛学善知识平台构建的业务背景下，我们提出了一种多民族风格的冥想音乐生成方案，希望能借助这种具有民族特色的音乐，帮助用户在冥想、放松、睡眠等场景下，专注凝神、放松心情。

目前用户开始趋向于使用移动端APP进行冥想训练或缓解压力，而这方面的音乐或声音，在内容上多为现成的乐曲，由钢琴、管弦乐器等为主，或者使用诸多自然声音效如流水声、雨声等白噪音。由算法自动生成乐曲较少，在音乐内容的丰富性、生成方法的灵活度等方面有所欠缺。同时在音乐内容的版权问题，也存在成本较高、容易侵权等不足。

发明内容

本发明的主要目的在于解决现有的算法自动生成乐曲的乐器较为单一的技术问题。

本发明第一方面提供了一种民族音乐生成方法，包括：

获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；

根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；

根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；

对所述成品素材进行音频处理，生成音乐文件并输出。

可选的，在本发明第一方面的第一种实现方式中，所述根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材包括：

根据所述场景参数和风格参数选择对应的乐器类型；

基于所述乐器类型从预设音乐数据库中抓取对应的乐谱素材，以及从预设的素材模型库中选择对应的音乐素材生成模型；

根据所述时间参数，从所有所述乐谱素材中筛选N个乐谱数据作为模型输入数据；

将所述模型输入数据输入所述音乐素材生成模型中，获得N个音乐素材。

可选的，在本发明第一方面的第二种实现方式中，所述乐素材生成模型为述LSTM网络模型，所述将所述模型输入数据输入所述音乐素材生成模型中，获得N个音乐素材包括：

对所述模型输入数据进行聚类处理得到全局音乐序列；

获取第一音乐序列，将所述全局音乐序列与所述第一音乐序列输入所述LSTM网络模型，基于所述LSTM网络模型的第一网络层确认所述第一音乐序列对应的序列上下文信息并输出所述序列上下文信息对应的目标音符；

将所述目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层获得所述目标音符的输入持续时长信息；

根据所述目标音符的输入持续时长信息与所述目标音符，生成第二音乐序列，基于所述第二音乐序列得到音乐素材。

可选的，在本发明第一方面的第三种实现方式中，所述第一音乐序列中包括连续的音符；所述第一网络层由第一循环神经网络RNN构成；所述基于所述LSTM网络模型的第一网络层确认所述第一音乐序列对应的序列上下文信息并输出所述序列上下文信息对应的目标音符包括：

获取所述全局音乐序列与所述第一音乐序列对应的音符表示信息，基于所述第一RNN中的LSTM单元根据所述全局音乐序列与所述第一音乐序列，以及所述音符表示信息确定所述第一音乐序列对应的序列上下文信息；

根据所述序列上下文信息确定所述第一音乐序列的最后一个音符的下一个音符，输出所述下一个音符以得到所述序列上下文信息对应的目标音符。

可选的，在本发明第一方面的第四种实现方式中，所述第二音乐序列中包括旋律和和弦，所述第二网络层由第二循环神经网络RNN构成；所述根据所述目标音符的输入持续时长信息与所述目标音符，生成第二音乐序列，基于所述第二音乐序列得到音乐素材包括：

根据所述目标音符的输入持续时长信息和所述目标音符生成旋律；

获取所述第一网络层输出的多个连续的目标音符；

将所述多个连续的目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层中的所述第三RNN生成所述多个连续的目标音符对应的和弦；

基于所述和弦和所述旋律得到音乐素材。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材包括：

根据所述乐器类型，对所述音乐素材进行民族乐器音色挂载处理；

判断所述乐器类型是否包含打击乐器；

若无打击乐器，则将所述N个音乐素材进行间隔拼接；

若有打击乐器，则将所述N个音乐素材进行无间隔拼接；

将民族乐器音色挂载处理和拼接处理后的音乐素材作为成品素材。

可选的，在本发明第一方面的第六种实现方式中，所述对所述成品素材进行音频处理，生成音乐文件并输出包括：

对所述成品素材中的旋律轨道加入混响效果；

在加入混响效果的成品素材中加入预设的自然音效轨道；

将所述旋律轨道和所述自然音效轨道合并，并转换为预设的文件形式，得到音乐文件并输出。

本发明第二方面提供了一种民族音乐生成装置，包括：

获取模块，用于获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；

素材生成模块，用于根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；

音色渲染模块，用于根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；

输出模块，用于对所述成品素材进行音频处理，生成音乐文件并输出。

可选的，在本发明第二方面的第一种实现方式中，所述素材生成模块包括：

乐器选择模块，用于根据所述场景参数和风格参数选择对应的乐器类型；

模型选择模块，用于基于所述乐器类型从预设音乐数据库中抓取对应的乐谱素材，以及从预设的素材模型库中选择对应的音乐素材生成模型；

数据筛选模块，用于根据所述时间参数，从所有所述乐谱素材中筛选N个乐谱数据作为模型输入数据；

输入模块，用于将所述模型输入数据输入所述音乐素材生成模型中，获得N个音乐素材。

可选的，在本发明第二方面的第二种实现方式中，所述输入单元包括：

聚类子单元，用于对所述模型输入数据进行聚类处理得到全局音乐序列；

第一输入子单元，用于获取第一音乐序列，将所述全局音乐序列与所述第一音乐序列输入所述LSTM网络模型，基于所述LSTM网络模型的第一网络层确认所述第一音乐序列对应的序列上下文信息并输出所述序列上下文信息对应的目标音符；

第二输入子单元，用于将所述目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层获得所述目标音符的输入持续时长信息；

序列生成子单元，用于根据所述目标音符的输入持续时长信息与所述目标音符，生成第二音乐序列，基于所述第二音乐序列得到音乐素材。

可选的，在本发明第二方面的第三种实现方式中，所述第一音乐序列中包括连续的音符；所述第一网络层由第一循环神经网络RNN构成；所述第一输入子单元具体用于：

根据所述序列上下文信息确定所述第一音乐序列的最后一个音符的下一个音符，输出所述下一个音符以得到所述序列上下文信息对应的目标音符。

可选的，在本发明第二方面的第四种实现方式中，所述第二音乐序列中包括旋律和和弦，所述第二网络层由第二循环神经网络RNN构成；所述民第二输入子单元具体用于：

根据所述目标音符的输入持续时长信息和所述目标音符生成旋律；

获取所述第一网络层输出的多个连续的目标音符；

将所述多个连续的目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层中的所述第三RNN生成所述多个连续的目标音符对应的和弦；

基于所述和弦和所述旋律得到音乐素材。

可选的，在本发明第二方面的第五种实现方式中，所述音色渲染模块具体用于：

根据所述乐器类型，对所述音乐素材进行民族乐器音色挂载处理；

判断所述乐器类型是否包含打击乐器；

若无打击乐器，则将所述N个音乐素材进行间隔拼接；

若有打击乐器，则将所述N个音乐素材进行无间隔拼接；

将民族乐器音色挂载处理和拼接处理后的音乐素材作为成品素材。

可选的，在本发明第二方面的第六种实现方式中，所述输出模块具体用于：

对所述成品素材中的旋律轨道加入混响效果；

在加入混响效果的成品素材中加入预设的自然音效轨道；

将所述旋律轨道和所述自然音效轨道合并，并转换为预设的文件形式，得到音乐文件并输出。

本发明第三方面提供了一种民族音乐生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述民族音乐生成设备执行上述的民族音乐生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的民族音乐生成方法。

本发明的技术方案中，获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；对所述成品素材进行音频处理，生成音乐文件并输出。本提案通过能帮助用户在冥想、放松、睡眠等场景中，专注凝神、调节情绪、缓解压力，从而达到放松的状态，帮助提升其身心健康。算法生成音乐可以大大提升产品的音乐内容的丰富性和自由度，也降低使用版权音乐、音效的成本与风险。同时还希望借此推广中国传统民间艺术，普及具有民族特色的音乐。此外，本发明还涉及区块链技术，所述音乐素材可存储于区块链中。

附图说明

图1为本发明实施例中民族音乐生成方法的第一个实施例示意图；

图2为本发明实施例中民族音乐生成方法的第二个实施例示意图；

图3为本发明实施例中民族音乐生成方法的第三个实施例示意图；

图4为本发明实施例中民族音乐生成方法的第四个实施例示意图；

图5为本发明实施例中民族音乐生成方法的第五个实施例示意图；

图6为本发明实施例中民族音乐生成装置的一个实施例示意图；

图7为本发明实施例中民族音乐生成装置的另一个实施例示意图；

图8为本发明实施例中民族音乐生成设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中民族音乐生成方法的第一个实施例包括：

101、获取用户输入的民族音乐生成参数，其中，民族音乐生成参数包括场景参数、风格参数和时间参数；

可以理解的是，本发明的执行主体可以为民族音乐生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要强调的是，为保证上述生成的音乐文件的私密和安全性，上述乐谱数据可以存储于一区块链的节点中。

在本实施例中，用户在可以在前端界面上选择不同的民族乐生成参数，包括场景参数、风格参数和时间参数，其中，场景参数为生成的民族音乐的应用场景，在本实施例中主要包括“冥想”“放松”“睡眠”同时每个场景参数对应有风格参数供用户进行选择，风格参数主要影响生成的民族音乐的音乐风格，其中，“冥想”对应的风格参数包括“云南”“西藏”，“放松”对应的风格参数包括“延边”“新疆”，“睡眠”对应的风格参数包括“江南”“内蒙古”，在实际应用中，场景参数可以根据音乐使用的应用场景，风格参数可以根据各个民族音乐的音乐风格进行增加，本发明不做限定。

在本实施例中，根据用户的场景需要，还需要输入时间参数，所述时间参数主要是用于对生成的民族音乐的时间长度进行限定，其中，所述时间参数可以是设置了预设时间间隔的时间参数，例如，用户能够在界面中选择1、2、3分钟的音乐时间等整数的时间，同时也可设置为任意时间长度，固定的时间长度的好处在于方便后续的音乐素材的生成和拼接，而任意时间长度能够提高用户的体验，本发明不做限定。

102、根据场景参数和风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从乐谱素材中筛选其中N个乐谱数据输入至音乐素材生成模型中，生成N个音乐素材；

在本实际应用中，根据场景参数和风格参数的不同，预先设置有对应的音乐素材生成模型，例如在本实施例中，包括了“云南”、“西藏”、“延边”“新疆”、“江南”、“内蒙古”等六种音乐风格，对应的，预先训练好6种不同的音乐素材生成模型，其中，所述音乐素材生成模型主要是通过6种民族风格的乐谱资料。

在本实施例中，由于所述乐谱资料的数量格式、声部、长度不同，所以需要进行数据预处理，首先需要对乐谱资料进行统一格式为MIDI格式，MIDI格式是通用的电脑音乐文件格式，而且是编曲界最广泛的音乐标准格式，可称为“计算机能理解的乐谱”。它的发明是为了统一乐器并使每个乐器兼容。MIDI文件记录音乐的乐谱信息，它可以告诉声卡如何再现音乐的每一组指令。在不同的计算机中，MIDI文件播放出来的声音可能不一样，就像同一个乐谱，不同的人演奏有不同的效果。另外，MIDI文件非常小，传输十分的方便。在将非MIDI格式的乐谱资料转换为MIDI格式后，提取这些乐谱资料的主旋律声部，通常该声部处在乐谱资料中的第一轨道，此处的轨道是指音轨，而MIDI文件几乎都是多轨的，可以先将MIDI文件进行音轨分解，然后选择其中的第一轨道，也可以在将MIDI文件进行音轨分解得到多个音轨后，根据旋律的特征进行识别提取，例如，连续，指各个乐句内的音符之间时长不能过长，变化，指音符的时值和音高不能一成不变或缺乏变化等。提取出主旋律声部后，按8小节长度进行截取，每段记为1个8小节的训练数据。使用一个两层的LSTM结构，对上述的6种风格数据分别进行训练，得到6个预训练模型。每次接受不同的风格参数后，调用对应的预训练模型，生成节拍为2/4拍，速度为30bpm的3小节midi素材。

在本实施例中，在获得训练数据后，还需要将同一风格的数据进行调性统一处理，将同一风格的所有数据统一在一个固定的调上，例如C调。

103、根据乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于渲染规则对音乐素材进行音色渲染，得到成品素材；

在本实施例中，每种风格参数都对应有乐器类型，包括主奏乐器和打击乐器，例如音乐风格“云南”对应的主奏乐器为葫芦丝，打击乐器为竖琴，“西藏”的主奏乐器为铜钦，打击乐器为颂钵，场景参数、音乐特点、风格参数、乐器类型的对应关系如表1：

表1.场景参数、音乐特点、风格参数、乐器类型的对应关系

在本实施例中，输入音乐素材生成模型的乐谱文件为MIDI格式，音乐素材生成文件输出的音乐素材也是MIDI格式，此时，需要将获得的音乐素材的格式从MIDI格式转换为MP3格式，这是由于MIDI文件重放的效果完全依赖声卡的档次，MIDI文件应用也有很大的限制，那就是很多软件和设备都无法兼容MIDI文件，因此需要将MIDI格式的文件转换为其他格式的文件，以便于更好的编辑音频内容，在本实施例中，在将MIDI文格式的音乐素材转换成MP3格式时，需要对音乐素材进行音色渲染，这是由于MIDI文件是记录音乐的乐谱信息，音色渲染能够对乐谱中的各音符进行对应音色的呈现，例如将某个音符听起来是马头琴的音色。

104、对成品素材进行音频处理，生成音乐文件并输出。

在本实施例中，在生成成品素材后，需要对成品素材音频处理，包括旋律轨道合成、音效处理和混音并轨等，将得到的多个成品素材合成为一段音频，并将该音频以预设的格式进行输出。

在本实施例中，通过获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；对所述成品素材进行音频处理，生成音乐文件并输出。本提案通过能帮助用户在冥想、放松、睡眠等场景中，专注凝神、调节情绪、缓解压力，从而达到放松的状态，帮助提升其身心健康。算法生成音乐可以大大提升产品的音乐内容的丰富性和自由度，也降低使用版权音乐、音效的成本与风险。同时还希望借此推广中国传统民间艺术，普及具有民族特色的音乐。此外，本发明还涉及区块链技术，所述音乐素材可存储于区块链中。

请参阅图2，本发明实施例中民族音乐生成方法的第二个实施例包括：

201、获取用户输入的民族音乐生成参数，其中，民族音乐生成参数包括场景参数、风格参数和时间参数；

本实施例中的步骤201与第一实施例中的步骤101相似，此处不再赘述。

202、根据场景参数和风格参数选择对应的乐器类型；

203、基于乐器类型从预设音乐数据库中抓取对应的乐谱素材，以及从预设的素材模型库中选择对应的音乐素材生成模型；

204、根据时间参数，从所有乐谱素材中筛选N个乐谱数据作为模型输入数据；

在本实施例中，在确定时间参数时，会从选择的风格参数对应的乐谱数据中抽取一定数量的数据作为音乐素材生成模型的输入，该时间参数主要取决于用户需要生成的民族音乐的时间长度，而音乐素材生成模型生成的音乐素材均为相同的长度，也即是说音乐素材N的数量由时间参数T决定，本实施例中设置两者关系为N＝4T，也就是说用户设置1分钟的时间参数，会得到4段音乐素材，也就需要从该用户选择的风格参数中选择4端乐谱数据，生成的音乐素材为12秒，每段音乐素材之间会有3秒的空白间隔，为15秒，4段音乐素材为1分钟。

205、将模型输入数据输入音乐素材生成模型中，获得N个音乐素材；

在本实施例中，所述音乐素材生成模型为一个两层的LSTM(Long Short-TermMemory，长短期记忆网络)结构，是一种时间循环神经网络，对上述的风格参数分别进行训练，得到预训练模型。每次接受不同的风格标签参数后，调用对应的预训练模型，生成节拍为2/4拍，速度为30bpm的3小节midi素材。每个素材为12秒。

在本实施例中，所述音乐素材生成模型，以上述的乐谱数据作为样本音乐数据，在进行数据的预处理，所述预处理包括获取上述样本音乐数据中每一乐谱数据对应的音阶，以及得到分别用于表示上述每一首音乐旋律整体结构的全局音乐序列(可以称为Melodyprofile)，全局音乐序列可通过获取上述样本音乐数据中的每首乐谱数据两个bar范围内的音符，并分别计算上述每首乐谱数据对应的两个bar范围内的音符直方图。对于上述每首乐谱数据对应的两个bar范围内的音符直方图，均采用K-means聚类算法对上述获得的两个bar范围内的音符直方图进行分类。基于上述聚类处理，可获得的上述样本音乐数据集中每首音乐对应的音阶和全局音乐序列，上述音阶与上述全局音乐序列均可作为上述叠层LSTM网络模型的输入用于训练该网络模型，基于获得的全局音乐序列与音阶，可采用反向传播算法(Back-propagation algorithm，BP)进行上述叠层LSTM网络模型的训练，需要说明的是，上述叠层LSTM网络模型中的每一层均可以由一个具有LSTM单元的RNN模型构成，上述RNN可以由输入层、隐含层、输出层组成，其中，隐含层之间的节点互相连接，上述隐含层的输入不仅包括输入层的输出还包括上一时刻上述隐含层的输出。上述叠层LSTM网络模型的每一层采用的训练方式可以是相同的，。基于上述训练过程，并行训练上述叠层LSTM网络模型的各层RNN，直至训练结束，将训练得到的各层RNN的最优权重保存，以备后续生成音乐素材。

206、根据乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于渲染规则对音乐素材进行音色渲染，得到成品素材；

207、对成品素材进行音频处理，生成音乐文件并输出。

本实施例中的步骤205-206与第一实施例中的步骤103-104相似，此处不再赘述。

本实施例在上一实施例的基础上，详细地描述了生成音乐素材的过程，的过程，根据所述场景参数和风格参数选择对应的乐器类型、乐谱数据和音乐素材生成模型；根据所述时间参数，从所有所述乐谱数据中筛选N个乐谱数据作为模型输入数据；将所述模型输入数据输入所述音乐素材生成模型中，获得N个音乐素材。并介绍了音乐素材生成模型的训练过程。通过本方法，能够根据风格参数进行不同音乐素材的生成，根据用户不同的需求生成不同风格的音乐素材进而合成不用的民族音乐，满足用户不同场景的听觉需求。

请参阅图3，本发明实施例中民族音乐生成方法的第三个实施例包括：

301、获取用户输入的民族音乐生成参数，其中，民族音乐生成参数包括场景参数、风格参数和时间参数；

302、根据场景参数和风格参数选择对应的乐器类型；

303、基于乐器类型从预设音乐数据库中抓取对应的乐谱素材，以及从预设的素材模型库中选择对应的音乐素材生成模型；

304、根据时间参数，从所有乐谱素材中筛选N个乐谱数据作为模型输入数据；

305、对模型输入数据进行聚类处理得到全局音乐序列；

在本实施例中，可通过计算目标音乐数据中每两个bar(一个bar代表八个连续的音符)范围内的音符直方图，基于聚类分析对计算得到的局部音符直方图进行分类，获得多个聚类ID，并选择一个聚类ID在一段持续时间内可生成全局音乐序列，同时，可以从目标音乐数据中随机选择一个音阶作为第一音乐序列。其中，一个音阶可以包含7个连续的音符。

306、获取全局音乐序列与第一音乐序列对应的音符表示信息，基于第一RNN中的LSTM单元根据全局音乐序列与第一音乐序列，以及音符表示信息确定第一音乐序列对应的序列上下文信息；

307、根据序列上下文信息确定第一音乐序列的最后一个音符的下一个音符，输出下一个音符以得到序列上下文信息对应的目标音符；

308、将目标音符输入LSTM网络模型的第二网络层，通过第二网络层获得目标音符的输入持续时长信息；

309、根据目标音符的输入持续时长信息和目标音符生成旋律；

310、获取第一网络层输出的多个连续的目标音符；

311、将多个连续的目标音符输入LSTM网络模型的第二网络层，通过第二网络层中的第三RNN生成多个连续的目标音符对应的和弦；

在本实施例中，第一音乐序列中包括连续的音符，所述第二音乐序列中包括旋律和和弦等，可以将上述获取的全局音乐序列及第一音乐序列输入已构建完成的LSTM网络模型中，利用LSTM网络模型的记忆功能获取上述第一音乐序列的序列上下文信息，从而预测得到第二音乐序列，第二音乐序列可以包括音乐的旋律、和弦以及节拍，上述旋律、和弦、节拍可以分别通过上述LSTM网络模型的网络层生成。

312、基于和弦和旋律得到音乐素材；

在本实施例中，可以对上述得到的第二音乐序列在音符级别上进行调整，得到调整优化后的音乐旋律、和弦及节拍，将上述旋律、和弦及节拍进行结合，可以合成一段完整的音乐素材。

313、根据乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于渲染规则对音乐素材进行音色渲染，得到成品素材；

314、对成品素材进行音频处理，生成音乐文件并输出。

本实施例在前实施例的基础上，详细描述了音乐素材生辰模型生成音乐素材的过程，通过对模型输入数据进行聚类处理得到全局音乐序列，获取全局音乐序列与第一音乐序列对应的音符表示信息，基于第一RNN中的LSTM单元根据全局音乐序列与第一音乐序列，以及音符表示信息确定第一音乐序列对应的序列上下文信息，根据序列上下文信息确定第一音乐序列的最后一个音符的下一个音符，输出下一个音符以得到序列上下文信息对应的目标音符，将目标音符输入LSTM网络模型的第二网络层，通过第二网络层获得目标音符的输入持续时长信息，根据目标音符的输入持续时长信息和目标音符生成旋律，获取第一网络层输出的多个连续的目标音符，将多个连续的目标音符输入LSTM网络模型的第二网络层，通过第二网络层中的第三RNN生成多个连续的目标音符对应的和弦，基于和弦和旋律得到音乐素材。通过本方法，能够根据风格参数进行不同音乐素材的生成，根据用户不同的需求生成不同风格的音乐素材进而合成不用的民族音乐，满足用户不同场景的听觉需求。

请参阅图4，本发明实施例中民族音乐生成方法的第四个实施例包括：

401、获取用户输入的民族音乐生成参数，其中，民族音乐生成参数包括场景参数、风格参数和时间参数；

402、根据场景参数和风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从乐谱素材中筛选其中N个乐谱数据输入至音乐素材生成模型中，生成N个音乐素材；

在本实施例中，在获得N个音乐素材后，还可以将这N个音乐素材进行移调处理，进行五度和八度的平移，得到另外的N个音乐素材，作为对上述模型生成的素材的补充，得到2N个音乐素材。

403、根据乐器类型，对音乐素材进行民族乐器音色挂载处理；

404、判断乐器类型是否包含打击乐器；

在本实施例中，风格参数对应的乐器类型不包含打击乐器，例如在场景参数“睡眠”对应的乐器类型中的打击乐器都是无，而“冥想”“放松”两种场景参数对应的乐器类型分别包括“竖琴”“颂钵”“长鼓”“都塔尔”等，通过风格参数与乐器类型的对应关系即可判断是否包含打击乐器

405、若无打击乐器，则将N个音乐素材进行间隔拼接；

406、若有打击乐器，则将N个音乐素材进行无间隔拼接；

在本实施例中，需要将得到的N个音乐素材合成一段完整的成品素材，再将所述成品素材进行加工得到需要的民族音乐，其中合成方式主要是将这些音乐素材进行拼接，拼接方式主要取决于是否有打击乐，对于没有打击乐的，可以将生成的N段音频素材进行拼接，每段音频间隔t

又因N＝4T，所以有：

对于有打击乐把生成的N段音频素材进行无间隔拼接，同时在开头和结束处加入两个相等的间隔t

407、将民族乐器音色挂载处理和拼接处理后的音乐素材作为成品素材；

在本实施例中，在完成拼接后，由于生成的音乐素材为MIDI格式，经过拼接后仍然为MIDI格式，由于MIDI文件是记录音乐的乐谱信息，需要生成具备音色的音乐，音色渲染能够对乐谱中的各音符进行对应音色的呈现，例如将某个音符听起来是马头琴的音色，通过给每个音符挂载对于的乐器类型，实现民族乐器音色挂载处理，并将MIDI格式转换为MP3格式得到成品素材。

408、对成品素材进行音频处理，生成音乐文件并输出。

本实施例在前实施例的基础上，详细描述了根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材的过程，需要对音乐素材进行旋律轨道合成处理通过根据所述乐器类型，对所述音乐素材进行民族乐器音色挂载处理；判断所述乐器类型是否包含打击乐器；若无打击乐器，则将所述N个音乐素材进行间隔拼接；若有打击乐器，则将所述N个音乐素材进行无间隔拼接；然后进行音色渲染处理将民族乐器音色挂载处理和拼接处理后的音乐素材作为成品素材。通过本方法，能够根据风格参数进行不同音乐素材的生成，根据用户不同的需求生成不同风格的音乐素材进而合成不用的民族音乐，满足用户不同场景的听觉需求。

请参阅图5，本发明实施例中民族音乐生成方法的第五个实施例包括：

501、获取用户输入的民族音乐生成参数，其中，民族音乐生成参数包括场景参数、风格参数和时间参数；

502、根据场景参数和风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从乐谱素材中筛选其中N个乐谱数据输入至音乐素材生成模型中，生成N个音乐素材；

503、根据乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于渲染规则对音乐素材进行音色渲染，得到成品素材；

504、对成品素材中的旋律轨道加入混响效果；

在实际应用中，声音经过多次反射，会有多条声音反射线到底用户的耳朵，例如在这样一个房间里，教师的声音经过多次反射，假如有5条声音反射线到达学生耳朵，教师每讲一句话，学生实际上就听到了6句：第一句是直接传到了学生的耳朵里，没有经过反射，后面5句是经过各种反射线路到达学生耳朵的声音。这6句话时间隔得非常近，图中声音到达有时间表，注意时间单位是毫秒(1毫秒等于0.001秒)。由于这些反射声到达的时间间隔太近了，所以学生就听不出来是6句话，而是1句带有混响感觉的话。这只是为了讲解方便，真实情况是几千几万个声音的叠加。把声音进行很多很多次的重复叠加，就得到了混响效果。在数学中通过卷积计算把教师的声音，根据上面那张6个脉冲的图，进行叠加计算。一般的声音如果不加混响，声音会发干，非常不舒服。

505、在加入混响效果的成品素材中加入预设的自然音效轨道；

506、将旋律轨道和自然音效轨道合并，并转换为预设的文件形式，得到音乐文件并输出。

本实施例在前实施例的基础上，详细描述了对所述成品素材进行音频处理，生成音乐文件并输出的过程，通过对所述成品素材中的旋律轨道加入混响效果；

在加入混响效果的成品素材中加入预设的自然音效轨道；将所述旋律轨道和所述自然音效轨道合并，并转换为预设的文件形式，得到音乐文件并输出。，通过本方法，使得抽象语法树中的所有节点中的代码具备兼容性，进而使得转换后的前端文件具备兼容性。通过本方法，能够根据风格参数进行不同音乐素材的生成，根据用户不同的需求生成不同风格的音乐素材进而合成不用的民族音乐，满足用户不同场景的听觉需求。

上面对本发明实施例中民族音乐生成方法进行了描述，下面对本发明实施例中民族音乐生成装置进行描述，请参阅图6，本发明实施例中民族音乐生成装置一个实施例包括：

获取模块601，用于获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；

素材生成模块602，用于根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；

音色渲染模块603，用于根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；

输出模块604，用于对所述成品素材进行音频处理，生成音乐文件并输出。

需要强调的是，为为保证上述生成的音乐文件的私密和安全性，上述乐谱数据可以存储于一区块链的节点中。

本发明实施例中，所述民族音乐生成装置运行上述民族音乐生成方法，所述民族音乐生成方法包括：通过获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；根据所述场景参数和所述风格参数确定乐器类型、乐谱素材和音乐素材生成模型，并从所述乐谱素材中筛选其中N个乐谱数据输入至所述音乐素材生成模型中，生成N个音乐素材，其中，N为不小于1的自然数；根据所述乐器类型，从预设渲染规则库中选择对应的渲染规则，并基于所述渲染规则对所述音乐素材进行音色渲染，得到成品素材；对所述成品素材进行音频处理，生成音乐文件并输出。本提案通过能帮助用户在冥想、放松、睡眠等场景中，专注凝神、调节情绪、缓解压力，从而达到放松的状态，帮助提升其身心健康。算法生成音乐可以大大提升产品的音乐内容的丰富性和自由度，也降低使用版权音乐、音效的成本与风险。同时还希望借此推广中国传统民间艺术，普及具有民族特色的音乐。此外，本发明还涉及区块链技术，所述音乐素材可存储于区块链中。

请参阅图7，本发明实施例中民族音乐生成装置的第二个实施例包括：

获取模块601，用于获取用户输入的民族音乐生成参数，其中，所述民族音乐生成参数包括场景参数、风格参数和时间参数；

输出模块604，用于对所述成品素材进行音频处理，生成音乐文件并输出。

其中，所述素材生成模块602包括：

乐器选择模块6021，用于根据所述场景参数和风格参数选择对应的乐器类型；

模型选择模块6022，用于基于所述乐器类型从预设音乐数据库中抓取对应的乐谱素材，以及从预设的素材模型库中选择对应的音乐素材生成模型；

数据筛选模块6023，用于根据所述时间参数，从所有所述乐谱素材中筛选N个乐谱数据作为模型输入数据；

输入模块6024，用于将所述模型输入数据输入所述音乐素材生成模型中，获得N个音乐素材。

其中，所述输入单元6024包括：

聚类子单元60241，用于对所述模型输入数据进行聚类处理得到全局音乐序列；

第一输入子单元60242，用于获取第一音乐序列，将所述全局音乐序列与所述第一音乐序列输入所述LSTM网络模型，基于所述LSTM网络模型的第一网络层确认所述第一音乐序列对应的序列上下文信息并输出所述序列上下文信息对应的目标音符；

第二输入子单元60243，用于将所述目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层获得所述目标音符的输入持续时长信息；

序列生成子单元60244，用于根据所述目标音符的输入持续时长信息与所述目标音符，生成第二音乐序列，基于所述第二音乐序列得到音乐素材。

可选的，所述第一音乐序列中包括连续的音符；所述第一网络层由第一循环神经网络RNN构成；所述第一输入子单元60242具体用于：

根据所述序列上下文信息确定所述第一音乐序列的最后一个音符的下一个音符，输出所述下一个音符以得到所述序列上下文信息对应的目标音符。

可选的，所述第二音乐序列中包括旋律和和弦，所述第二网络层由第二循环神经网络RNN构成；所述民第二输入子单元60243具体用于：

根据所述目标音符的输入持续时长信息和所述目标音符生成旋律；

获取所述第一网络层输出的多个连续的目标音符；

将所述多个连续的目标音符输入所述LSTM网络模型的第二网络层，通过所述第二网络层中的所述第三RNN生成所述多个连续的目标音符对应的和弦；

基于所述和弦和所述旋律得到音乐素材。

可选的，所述音色渲染模块603具体用于：

根据所述乐器类型，对所述音乐素材进行民族乐器音色挂载处理；

判断所述乐器类型是否包含打击乐器；

若无打击乐器，则将所述N个音乐素材进行间隔拼接；

若有打击乐器，则将所述N个音乐素材进行无间隔拼接；

将民族乐器音色挂载处理和拼接处理后的音乐素材作为成品素材。

可选的，所述输出模块604具体用于：

对所述成品素材中的旋律轨道加入混响效果；

在加入混响效果的成品素材中加入预设的自然音效轨道；

将所述旋律轨道和所述自然音效轨道合并，并转换为预设的文件形式，得到音乐文件并输出。

本实施例在上一实施例的基础上，详细描述了各个模块的具体功能以及部分模块的单元构成，通过本装置，能够根据风格参数进行不同音乐素材的生成，根据用户不同的需求生成不同风格的音乐素材进而合成不用的民族音乐，满足用户不同场景的听觉需求。此外，本发明还涉及区块链技术，所述前端文件可存储于区块链中。

上面图6和图7从模块化功能实体的角度对本发明实施例中的中民族音乐生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中民族音乐生成设备进行详细描述。

图8是本发明实施例提供的一种民族音乐生成设备的结构示意图，该民族音乐生成设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对民族音乐生成设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在民族音乐生成设备800上执行存储介质830中的一系列指令操作，以实现上述民族音乐生成方法的步骤。

民族音乐生成设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的民族音乐生成设备结构并不构成对本申请提供的民族音乐生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述民族音乐生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 民族音乐生成方法、装置、设备及存储介质 [P] . 中国专利： CN113035162A . 2021-06-25
2. 图像生成模型训练方法、图像生成方法、装置、设备及存储介质 [P] . 中国专利： CN110097086A . 2019-08-06
3. METHOD AND DEVICE FOR RETRIEVAL, STORAGE MEDIUM HAVING RETRIEVAL PROGRAM STORED THEREIN, METHOD AND DEVICE FOR RETRIEVAL OBJECT MAP GENERATION, METHOD AND DEVICE FOR IMAGE RETRIEVAL, STORAGE MEDIUM HAVING IMAGE RETRIEVAL PROGRAM STORED THEREIN, STORAGE MEDIUM HAVING IMAGE RETRIEVAL DATA STORED THEREIN, AND METHOD AND DEVICE FOR IMAGE MAP GENERATION [P] . 日本专利： JP2001344278A . 2001-12-14

机译：用于检索的方法和装置，存储有其中的检索程序的存储介质，用于检索对象图生成的方法和装置，用于图像检索的存储介质和具有图像检索的方法，用于存储该图像的方法，用于存储该图像的方法，用于存储该图像的方法和用于生成图像映射的设备
4. IMAGE RECOGNITION MODEL GENERATING DEVICE, IMAGE RECOGNITION MODEL GENERATING METHOD, IMAGE RECOGNITION MODEL GENERATING PROGRAM STORING MEDIUM, IMAGE GENERATING DEVICE, IMAGE GENERATING METHOD, AND IMAGE GENERATING PROGRAM STORING MEDIUM [P] . 世界知识产权组织专利： WO2019111840A1 . 2019-06-13

机译：图像识别模型生成装置，图像识别模型生成方法，图像识别模型生成程序存储介质，图像生成装置，图像生成方法以及图像生成程序存储介质
5. Color conversion definition method, profile production method, color conversion definition apparatus, profile production apparatus, color conversion definition program storage medium, and profile production program storage medium [P] . 美国专利： US7633658B2 . 2009-12-15

机译：颜色转换定义方法，配置文件生成方法，颜色转换定义设备，配置文件生成设备，颜色转换定义程序存储介质和配置文件生成程序存储介质