Deep CNN with SE Block for Speaker Recognition

机译：扬声器识别的SE块深CNN

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper highlights a structure called SECNN. It combines squeeze-and-excitation (SE) components with a simplified residual convolutional neural network (ResNet). This model takes time-frequency spectrogram as input and measures speaker similarity between an utterance embedding and speaker models by cosine similarity. Speaker models are obtained by averaging utterance level features of each enrollment speaker. On the one hand, SECNN can mitigate speaker overfitting in speaker verification by using some techniques such as regularization techniques and SE operation. On the other hand, SECNN is a lightweight model with merely 1.5M parameters. Experimental results indicate that SECNN outperforms other end-to-end models such as Deep Speaker and achieves an equal error rate (EER) of 5.55% in speaker verification and accuracy of 93.92% in speaker identification on Librispeech dataset. It also achieves an EER of 2.58% in speaker verification and accuracy of 95.83% in speaker identification on TIMIT dataset.

机译：本文突出了一个名为SECNN的结构。它将挤压和激励（SE）组件与简化的残余卷积神经网络（Reset）结合起来。该模型将时间频谱图作为输入，通过余弦相似性在话语嵌入和扬声器模型之间测量扬声器相似性。通过平均每个注册扬声器的话语级别功能获得扬声器模型。一方面，通过使用诸如正则化技术和SE操作的一些技术，SECNN可以减轻扬声器验证中的扬声器过度装备。另一方面，SECNN是一种轻量级模型，仅为1.5米参数。实验结果表明，SECNN优于诸如深扬声器的其他端到端模型，并在LibrisPeech数据集上的扬声器验证和准确度的扬声器验证和准确度实现了5.55％的相同错误率（eer）。它还在Timit DataSet上实现了扬声器验证和扬声器验证和准确性的eer，eer为95.83％。

著录项

来源
《Information Communication Technologies Conference》|2020年|350p|共5页
会议地点
作者
Minhui Qi; Yongbin Yu; Yifan Tang; QuanXin Deng; Feng Mai; Nima Zhaxi;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类计算技术、计算机技术;
关键词
Speaker recognition; spectrogram; end-to-end; residual network; squeeze-and-excitation network;

机译：扬声器识别;谱图;端到端;剩余网络;挤压和激励网络;

相似文献

外文文献
中文文献
专利

1. Multimodal activity recognition with local block CNN and attention- based spatial weighted CNN [J] . Zhu Suguo, Fang Zhenying, Wang Yi, Journal of visual communication & image representation . 2019,第Apra期

机译：用局部块CNN和基于注意力的空间加权CNN的多模式活动识别
2. Fusing MFCC and LPC Features Using 1D Triplet CNN for Speaker Recognition in Severely Degraded Audio Signals [J] . Chowdhury Anurag, Ross Arun IEEE transactions on information forensics and security . 2020,第期

机译：使用一维三重态CNN融合MFCC和LPC功能，以在严重降级的音频信号中识别扬声器
3. Semantic segmentation of JPEG blocks using a deep CNN for non-aligned JPEG forgery detection and localization [J] . Neda Alipour, Alireza Behrad Multimedia Tools and Applications . 2020,第11a12期

机译：使用深CNN的JPEG块的语义分割用于非对齐JPEG伪造检测和定位
4. Deep CNN with SE Block for Speaker Recognition [C] . Minhui Qi, Yongbin Yu, Yifan Tang, Information Communication Technologies Conference . 2020

机译：带有SE块的Deep CNN用于说话人识别
5. Multimodal Sensing and Data Processing for Speaker and Emotion Recognition Using Deep Learning Models with Audio, Video and Biomedical Sensors [D] . Abtahi, Farnaz. 2018

机译：使用具有音频，视频和生物医学传感器的深度学习模型，对说话人和情感识别进行多模式传感和数据处理
6. Deep-Net: A Lightweight CNN-Based Speech Emotion Recognition System Using Deep Frequency Features [O] . Tursunov Anvarjon, Mustaqeem, Soonil Kwon 2020

机译：深网络：使用深频特征的基于轻量级CNN的语音情感识别系统
7. Deep-Net: A Lightweight CNN-Based Speech Emotion Recognition System Using Deep Frequency Features [O] . Tursunov Anvarjon, Soonil Kwon 2020

机译：深网络：使用深频特征的基于轻量级CNN的语音情感识别系统
8. Robust Speech Processing & Recognition: Speaker ID, Language ID, Speech Recognition/Keyword Spotting, Diarization/Co-Channel/Environmental Characterization, Speaker State Assessment. [R] . Hansen, J. H. 2015

机译：强大的语音处理和识别：说话者ID，语言ID，语音识别/关键字识别，Diarization / Co-Channel /环境表征，说话者状态评估。

Deep CNN with SE Block for Speaker Recognition

摘要

著录项

相似文献

相关主题

期刊订阅