首页> 中国专利> 一种基于可控最大熵自编码器的零样本语音风格迁移方法

一种基于可控最大熵自编码器的零样本语音风格迁移方法

摘要

本发明提出了一种基于可控最大熵自编码器的零样本语音风格迁移方法,其中,方法包括:构建标签为说话人的语音数据集;构建可控熵风格特征提取分类网络,利用语音数据集语音及其标签对该网络参数进行优化;构建无标注语音数据集;构建可控最大熵语音风格迁移自编码器网络,利用无标注语音数据集语音对该网络参数进行优化;引入源语音以及目标语音,利用可控最大熵语音风格迁移自编码器网络对源语音以及目标语音进行风格迁移,将风格迁移后语音样本的梅尔谱图通过频谱逆变器转换为风格迁移之后的语音片段。本发明的技术方案,训练简单,易于收敛,实现了风格特征和内容特征的解耦,可以解决零样本、少样本、多语言的语音风格迁移任务。

著录项

  • 公开/公告号CN113889069A

    专利类型发明专利

  • 公开/公告日2022-01-04

    原文格式PDF

  • 申请/专利权人 武汉理工大学;

    申请/专利号CN202111042601.5

  • 发明设计人 熊盛武;路雄博;荣毅;陈亚雄;

    申请日2021-09-07

  • 分类号G10L13/02(20130101);G10L13/08(20130101);G10L25/18(20130101);G10L25/30(20130101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人许莲英

  • 地址 430070 湖北省武汉市洪山区珞狮路122号

  • 入库时间 2023-06-19 13:32:21

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号