首页> 中文期刊> 《电脑知识与技术》 >使用原始音频波形的超深层环境声音识别卷积网络

使用原始音频波形的超深层环境声音识别卷积网络

         

摘要

直接从音频的原始波形学习声学模型具有挑战性.当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征.在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入.我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征.我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量.我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小.实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号