基于集成学习的乐声分离方法

         

摘要

针对频域乐声分离方法缺失相位信息,时域端到端方法无法充分利用时频表示中的声学信息的问题,提出了一种基于集成学习的乐声分离方法。通过在频域U型卷积神经网络(U-Net)的编码块和解码块之间引入卷积块注意力模块(convolutional block attention module,CBAM),从通道和空间两方面调整权重,增强模型特征提取能力;通过提出一种时域端对端分离模型ST-Demucs(soft threshold-Demucs),在编码层中添加全连接子网络和软阈值化层,有选择性地提取特征,抑制冗余噪声;最后,通过软投票的策略对两种模型的分离结果进行融合,弥补频域模型相位缺失弊端,得到更加接近纯净音频的目标音源波形图。在MUSDB18数据集上的实验结果表明:改进后的频域网络模型的信号失真比提升了0.33 dB,时域网络模型的信号失真比提升了0.31 dB,经过集成后,信号失真比得到了进一步提高,提出的基于集成学习的乐声分离方法在分离性能上优于相关单个模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号