您现在的位置: 首页> 研究主题> 语音转换

语音转换

语音转换的相关文献在1998年到2022年内共计341篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、教育 等领域,其中期刊论文117篇、会议论文21篇、专利文献168686篇;相关期刊82种,包括国防科技大学学报、中国新技术新产品、电声技术等; 相关会议17种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国信号处理学术年会及产业发展大会、浙江省信号处理学会2012学术年会等;语音转换的相关文献由668位作者贡献,包括徐宁、李波、康永国等。

语音转换—发文量

期刊论文>

论文:117 占比:0.07%

会议论文>

论文:21 占比:0.01%

专利文献>

论文:168686 占比:99.92%

总计:168824篇

语音转换—发文趋势图

语音转换

-研究学者

  • 徐宁
  • 李波
  • 康永国
  • 张雄伟
  • 王健宗
  • 王成友
  • 张旭龙
  • 王俊超
  • 陈怿翔
  • 陶建华
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 张煜之; 王锐芳; 朱亮; 赵坤园; 刘梦琪
    • 摘要: 近年来兴起的深度伪造技术能够高度逼真地模拟和伪造音视频内容,并得到了广泛的良性和恶意应用.针对深度伪造的生成和检测,国内外专家学者进行了深入研究,并提出了相应的生成和检测方案.对现有的基于深度学习的音视频深度伪造生成技术、检测技术、数据集以及未来研究方向进行了全面的概述和详细分析,这些工作将有助于相关人员对深度伪造的理解和对恶意深度伪造防御检测的研究.
    • 甄清岚
    • 摘要: 2019年9月16日,北京2022年冬奥会和冬残奥会(以下简称北京冬奥会)官方自动语音转换与翻译独家供应商发布会在北京冬奥组委园区举行。科大讯飞正式成为北京冬奥会官方自动语音转换与翻译独家供应商,开启了其打造"信息沟通无障碍的冬奥会"之路。
    • 李燕萍; 曹盼; 左宇涛; 张燕; 钱博
    • 摘要: 提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法,实现了非平行文本条件下高质量的多对多语音转换.性能良好的语音转换系统,既要保持重构语音的自然度,又要兼顾转换语音的说话人个性特征是否准确.首先为了改善合成语音自然度,利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络,通过构造相对鉴别器的方式,使得鉴别器的输出依赖于真实样本和生成样本间的相对值,克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题.进一步为了提升转换语音的说话人个性相似度,在解码阶段,引入含有丰富个性信息的i向量,以充分学习说话人的个性化特征.客观和主观实验表明,转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%,平均意见得分值提升5.12%,ABX值提升8.60%,验证了该方法在语音自然度和个性相似度两个方面均有显著的提高,实现了高质量的语音转换.
    • 朱丽
    • 摘要: 科技与艺术的碰撞,传媒与智能的交融,智能语音技术与新闻播报的结合是人类科学技术的一大进步。人工智能语音技术在新闻广播中的应用能够推动现代新闻广播艺术的发展,转变传统新闻播报的方式。智能语音播报技术是一种计算机语音处理技术,在经历了文字与语音转换过程之后,新闻播报可以实现智能化,在某种程度上来说,智能语音播报技术的应用促进了新闻播报方式的创新发展。
    • 何信; 胡金瑶; 艾斯卡尔·艾木都拉; 米吉提·阿不里米提
    • 摘要: 目前最先进的语音合成和语音转换模型能够生成人耳无法区分的虚假语音,这对自动说话人验证(ASV)系统的安全构成巨大威胁。近年来,越来越多抗欺骗对策用于提高ASV系统的可靠性。然而,在实际使用中,在检测未知攻击时遇到困难,特别是,合成语音欺骗算法的快速发展正在产生越来越强大的未知攻击。在这项工作中,由于ResNeSt网络模型在图像分类和检测任务中取得较好的成绩,因此构建了残差卷积神经网络的变体ResNeSt,使用时域二维特征转换、频域特征等各种特征提取方法(MFCC、LFCC、CQCC)来检测未知的合成语音欺骗攻击。实验结果表明,ResNeSt系统在ASV的逻辑评估集上达到了6.04%的等错误率(EER),相比ASVspoof2019的基线模型提高了25%的性能。
    • 郑百花; 雷群泌
    • 摘要: 人工翻译的速度较慢,不能适应当前社会发展的需求,手语与英语间的互译难度更高。因此,该文设计了基于语音图像融合平台的英语与手语自动翻译系统。在系统的硬件设计方面,以STM32微控制器作为主控模块,实现英语与手语自动翻译系统的同步信息转换。在系统的软件设计方面,用CNN对特征图像进行模型训练和识别,采用语义单元的本体融合方法,自动提取系统内录入的英语和手语的语义语境,按照解码生成的顺序规整双向翻译。仿真试验表明,自动翻译系统的翻译准确率和召回率高,出现翻译错误的概率较低,具有较强的智能性。
    • 韩灿灿; 李志华; 徐睿
    • 摘要: 针对语音去噪问题,提出一种基于循环生成对抗网络(CycleGAN)的方法来对声音场景中的语音进行去噪.该方法把CycleGAN的网络模型与不同领域间的语音转换技术进行结合与优化,通过提取语音频谱包络特征,对语音进行编码与解码的处理,旨在用先进的生成技术实现语音端到端的去噪,从而简化语音去噪过程中带来的高阶差异问题,同时泛化其应用场景.通过对非平行数据集和平行数据集进行训练与测试,主要比较该方法与传统CycleGAN的语音去噪方法下的去噪效果,由实验结果得到PESQ、NR、SSNR这3项指标分别相对提高了8.49%、6.53%、23.30%,有效地解决了实际场景中的非平行语音去噪问题.
    • 黄奕婷; 于宝雲; 高丽萍; 王光艳
    • 摘要: 文章重点研究了基于LPC模型的DTW语音转换方法.采用DTW技术进行模型特征参数对齐的优势是:经过数据对齐后,使得人工神经网络算法更好的训练特征参数,得到的映射规则能很好规范要转换的特征参数,使得语音转换质量更高.论文的仿真结果和数据分析表明,基于LPC模型的DTW语音转换系统转换出的语音自然度较高.该研究结论对于语音转换技术的研究与应用,具有参考价值.
    • 李燕萍; 曹盼; 石杨; 张燕
    • 摘要: 针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
    • 王超; 俞一彪
    • 摘要: 基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用.本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder,VQ-REG-VAE).在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中.在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换.由于转换时没有进行矢量量化,语义特征信息得以更好保留.客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号