Speaker recognition; spectrogram; end-to-end; residual network; squeeze-and-excitation network;
机译:用局部块CNN和基于注意力的空间加权CNN的多模式活动识别
机译:使用一维三重态CNN融合MFCC和LPC功能,以在严重降级的音频信号中识别扬声器
机译:使用深CNN的JPEG块的语义分割用于非对齐JPEG伪造检测和定位
机译:带有SE块的Deep CNN用于说话人识别
机译:使用具有音频,视频和生物医学传感器的深度学习模型,对说话人和情感识别进行多模式传感和数据处理
机译:深网络:使用深频特征的基于轻量级CNN的语音情感识别系统
机译:深网络:使用深频特征的基于轻量级CNN的语音情感识别系统
机译:强大的语音处理和识别:说话者ID,语言ID,语音识别/关键字识别,Diarization / Co-Channel /环境表征,说话者状态评估。