语音转换
语音转换的相关文献在1998年到2022年内共计341篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、教育
等领域,其中期刊论文117篇、会议论文21篇、专利文献168686篇;相关期刊82种,包括国防科技大学学报、中国新技术新产品、电声技术等;
相关会议17种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国信号处理学术年会及产业发展大会、浙江省信号处理学会2012学术年会等;语音转换的相关文献由668位作者贡献,包括徐宁、李波、康永国等。
语音转换—发文量
专利文献>
论文:168686篇
占比:99.92%
总计:168824篇
语音转换
-研究学者
- 徐宁
- 李波
- 康永国
- 张雄伟
- 王健宗
- 王成友
- 张旭龙
- 王俊超
- 陈怿翔
- 陶建华
- 俞一彪
- 张玲华
- 李燕萍
- 杨震
- 魏建国
- 刘小峰
- 张尔扬
- 张燕
- 王浩
- 程宁
- 蔡宣平
- 万永菁
- 单鸣雷
- 孙蒙
- 张帆
- 张维
- 更太加
- 朱昌平
- 李雪
- 杨吉斌
- 汤一彬
- 潘安顺
- 王民
- 王碧芳
- 简志华
- 苗晓孔
- 高远
- 鲍静益
- 双志伟
- 孙健
- 宋鹏
- 曹盼
- 曹铁勇
- 李元良
- 李立峰
- 李阳
- 柴海新
- 牛海军
- 王光艳
- 王向文
-
-
张煜之;
王锐芳;
朱亮;
赵坤园;
刘梦琪
-
-
摘要:
近年来兴起的深度伪造技术能够高度逼真地模拟和伪造音视频内容,并得到了广泛的良性和恶意应用.针对深度伪造的生成和检测,国内外专家学者进行了深入研究,并提出了相应的生成和检测方案.对现有的基于深度学习的音视频深度伪造生成技术、检测技术、数据集以及未来研究方向进行了全面的概述和详细分析,这些工作将有助于相关人员对深度伪造的理解和对恶意深度伪造防御检测的研究.
-
-
-
李燕萍;
曹盼;
左宇涛;
张燕;
钱博
-
-
摘要:
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法,实现了非平行文本条件下高质量的多对多语音转换.性能良好的语音转换系统,既要保持重构语音的自然度,又要兼顾转换语音的说话人个性特征是否准确.首先为了改善合成语音自然度,利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络,通过构造相对鉴别器的方式,使得鉴别器的输出依赖于真实样本和生成样本间的相对值,克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题.进一步为了提升转换语音的说话人个性相似度,在解码阶段,引入含有丰富个性信息的i向量,以充分学习说话人的个性化特征.客观和主观实验表明,转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%,平均意见得分值提升5.12%,ABX值提升8.60%,验证了该方法在语音自然度和个性相似度两个方面均有显著的提高,实现了高质量的语音转换.
-
-
朱丽
-
-
摘要:
科技与艺术的碰撞,传媒与智能的交融,智能语音技术与新闻播报的结合是人类科学技术的一大进步。人工智能语音技术在新闻广播中的应用能够推动现代新闻广播艺术的发展,转变传统新闻播报的方式。智能语音播报技术是一种计算机语音处理技术,在经历了文字与语音转换过程之后,新闻播报可以实现智能化,在某种程度上来说,智能语音播报技术的应用促进了新闻播报方式的创新发展。
-
-
何信;
胡金瑶;
艾斯卡尔·艾木都拉;
米吉提·阿不里米提
-
-
摘要:
目前最先进的语音合成和语音转换模型能够生成人耳无法区分的虚假语音,这对自动说话人验证(ASV)系统的安全构成巨大威胁。近年来,越来越多抗欺骗对策用于提高ASV系统的可靠性。然而,在实际使用中,在检测未知攻击时遇到困难,特别是,合成语音欺骗算法的快速发展正在产生越来越强大的未知攻击。在这项工作中,由于ResNeSt网络模型在图像分类和检测任务中取得较好的成绩,因此构建了残差卷积神经网络的变体ResNeSt,使用时域二维特征转换、频域特征等各种特征提取方法(MFCC、LFCC、CQCC)来检测未知的合成语音欺骗攻击。实验结果表明,ResNeSt系统在ASV的逻辑评估集上达到了6.04%的等错误率(EER),相比ASVspoof2019的基线模型提高了25%的性能。
-
-
郑百花;
雷群泌
-
-
摘要:
人工翻译的速度较慢,不能适应当前社会发展的需求,手语与英语间的互译难度更高。因此,该文设计了基于语音图像融合平台的英语与手语自动翻译系统。在系统的硬件设计方面,以STM32微控制器作为主控模块,实现英语与手语自动翻译系统的同步信息转换。在系统的软件设计方面,用CNN对特征图像进行模型训练和识别,采用语义单元的本体融合方法,自动提取系统内录入的英语和手语的语义语境,按照解码生成的顺序规整双向翻译。仿真试验表明,自动翻译系统的翻译准确率和召回率高,出现翻译错误的概率较低,具有较强的智能性。
-
-
韩灿灿;
李志华;
徐睿
-
-
摘要:
针对语音去噪问题,提出一种基于循环生成对抗网络(CycleGAN)的方法来对声音场景中的语音进行去噪.该方法把CycleGAN的网络模型与不同领域间的语音转换技术进行结合与优化,通过提取语音频谱包络特征,对语音进行编码与解码的处理,旨在用先进的生成技术实现语音端到端的去噪,从而简化语音去噪过程中带来的高阶差异问题,同时泛化其应用场景.通过对非平行数据集和平行数据集进行训练与测试,主要比较该方法与传统CycleGAN的语音去噪方法下的去噪效果,由实验结果得到PESQ、NR、SSNR这3项指标分别相对提高了8.49%、6.53%、23.30%,有效地解决了实际场景中的非平行语音去噪问题.
-
-
黄奕婷;
于宝雲;
高丽萍;
王光艳
-
-
摘要:
文章重点研究了基于LPC模型的DTW语音转换方法.采用DTW技术进行模型特征参数对齐的优势是:经过数据对齐后,使得人工神经网络算法更好的训练特征参数,得到的映射规则能很好规范要转换的特征参数,使得语音转换质量更高.论文的仿真结果和数据分析表明,基于LPC模型的DTW语音转换系统转换出的语音自然度较高.该研究结论对于语音转换技术的研究与应用,具有参考价值.
-
-
李燕萍;
曹盼;
石杨;
张燕
-
-
摘要:
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
-
-
王超;
俞一彪
-
-
摘要:
基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用.本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder,VQ-REG-VAE).在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中.在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换.由于转换时没有进行矢量量化,语义特征信息得以更好保留.客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升.
-
-
SONG Nan;
宋南;
WU Pei-wen;
吴沛文;
YANG Hong-wu;
杨鸿武
- 《2018中国西部声学学术交流会》
| 2018年
-
摘要:
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法.首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征.其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签.同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统.最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音.客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%.主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感.
-
-
张少飞;
谢磊;
明怀平;
黄东延
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
人发出的声音通常包含三种信息:内容、音色和韵律.在声学特征层面,音色通常是通过谱包络来表征,韵律特征通常包括基频,能量和时长.通常,语音转换系统的目标即:不改变语音内容的前提下,改变源说话人的音色或者韵律,使之听起来像是目标说话人发出的声音.语音转换系统的应用场景很多,包括TTS语料库构造、协助发音、说话人转换、口音转换、情感转换、歌唱转换、窄宽带转换等等.
-
-
SONG Peng;
宋鹏;
WANG Hao;
王浩;
ZHAO Li;
赵力
- 《第十二届全国人机语言通讯学术会议(NCMMSC`2013)》
| 2013年
-
摘要:
针对非对称语料库情况下的语音转换,本文提出了一种基于混合高斯归一化的语音转换方法.首先,通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型.然后,利用训练得到的模型自适应参数,提出了基于高斯归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合高斯归一化的方法.同时,针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化.最后,通过主客观实验对提出的算法的有效性进行了仿真和验证.实验结果表明,本文提出的基于混合高斯归一化的语音转换方法,无论是倒谱失真度、还是转换语音的目标倾向度以及感知质量,都在很大程度上获得了接近基于对称语音库的传统高斯混合模型(Gaussian mixture model,GMM)方法的效果.
-
-
SONG Peng;
宋鹏;
WANG Hao;
王浩;
ZHAO Li;
赵力
- 《第十六届全国信号处理学术年会及产业发展大会》
| 2013年
-
摘要:
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法.首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换.通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果.
-
-
-
-
-
-