首页> 中国专利> 一种自适应实现男女声切换方法

一种自适应实现男女声切换方法

摘要

本发明公开了一种自适应实现男女声切换方法,包括以下步骤:训练时,将语音数据库的语音数据进行分段提取音频数据库的声音数据,再提取其动静态梅尔倒谱参数特征,然后将其送入深度限制波尔机网络进行语音性别学习。用户使用时,采集语音信号,按照与语音数据库的语音数据相同的步骤处理后送入深度限制波尔机网络进行语音性别判别;根据性别判别结果设定变音目标,再利用时间动态规划SOLAFS算法根据变音目标对音频信号进行时长规整和重采样,最终达到自动实现男女声切换的效果。本发明能实时辨别性别并自适应设定变声目标,再进行实时变声处理,无需每次使用时手动设定参数,语音的动态判断准确。

著录项

  • 公开/公告号CN103514883A

    专利类型发明专利

  • 公开/公告日2014-01-15

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201310444837.0

  • 发明设计人 郭礼华;邓迪;

    申请日2013-09-26

  • 分类号G10L21/003(20130101);G10L15/02(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人陈文姬

  • 地址 511458 广东省广州市南沙区环市大道南路25号华工大广州产研院

  • 入库时间 2024-02-19 22:01:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    未缴年费专利权终止 IPC(主分类):G10L21/003 专利号:ZL2013104448370 申请日:20130926 授权公告日:20151202

    专利权的终止

  • 2015-12-02

    授权

    授权

  • 2014-02-19

    实质审查的生效 IPC(主分类):G10L21/003 申请日:20130926

    实质审查的生效

  • 2014-01-15

    公开

    公开

说明书

技术领域

本发明涉及机器学习和音频处理领域,特别涉及一种自适应实现男女声切 换方法男女声切换方法。

背景技术

男女声互相变换是通过改变语音信号的音调和音色,传统方法是利用语音 信号处理方法来实现,其是语音信号处理领域中一个的重要理论研究方向,并 且男女语音切换可以应用在保密通信,娱乐通信等多个领域,具有很好的实际 应用价值。目前也有不少方法设计了男女声切换方法,如目前的专利 CN03137014.4提供一种变声方法,该方法通过手动设定变音目标,通过改变信 号的长度来达到变音的效果。专利CN200410062337.1利用频谱搬移,将语音信 号先转换成频域型号,然后在频域上,将信号频谱整体搬移到高频域范围,最 后再将其变换回时域,最终完成变声目的。但是现有的变声方法需要手动设定 变音目标(如设定男变女,或者女变男),设定变音目标后,不能自动变更变音 目标,也不能实时监测说话人性别并进行变音。

发明内容

为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种自适应 实现男女声切换方法男女声切换方法,能够自动实时辨识性别,然后根据识别 的性别设定变音目标,并完成最终的男女语音变音。

本发明的目的通过以下技术方案实现:

一种自适应实现男女声切换方法,包括以下步骤:

(1)训练过程:

(1-1)收集语音数据库;所述语音数据库中的语音数据包括男声和女声;

(1-2)对语音数据库中的语音数据进行预处理;

(1-3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分 成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将 这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即 yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态 梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数 的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到 90*24维的动静态梅尔倒谱参数的语音特征矢量;

(1-4)采用基于深度限制波尔机网络进行语音性别训练学习:

基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、 第三隐层和输出层;基于深度限制波尔机网络形成四层网络,其中,第一层网 络由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为 第一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为 第二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐 层和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层 网络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络 的输入层,输出层作为第四层网络的输出层;每层网络的能量定义为 E(v,h)=-bv-ch-hWv,其中b是该层网络的输入层v的偏差,c是该层网络的输出 层h的偏差,W是该层网络的输入层v和该层网络的输出层h的权重值;

将步骤(1-3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作 为输入层,采用吉比特采样方法根据输入层生成第一层网络的输入层的偏差、 第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权 重值;将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络, 将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏 差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;

(2)识别过程:

(2-1)采集用户的语音信号;

(2-2)对采集到的语音信号进行预处理;

(2-3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分 成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12; 将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即 yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态 梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数 的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到 90*24维的动静态梅尔倒谱参数的语音特征矢量;

(2-3)将步骤(2-2)得到的语音特征矢量展开成1维,利用步骤(1-4) 得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入 层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设 定变音目标:

如果性别判断为女,则变音目标为女声变男声;

如果性别判断为男,则变音目标为男声变女声;

(2-4)根据步骤(2-3)设定的变音目标,利用时间动态规划SOLAFS算法 对语音信号进行时长规整,将时长规整后的语音信息输出。

步骤(1-2)所述对语音数据库中的语音数据进行预处理,具体为:

对语音数据进行去平均化能量处理。

步骤(2-2)所述对采集到的语音信号进行预处理,具体为:

对语音信号进行去平均化能量处理。

步骤(2-4)所述利用时间动态规划SOLAFS算法对语音信号进行时长规整, 具体为:

当变音目标为女声变男声时,将语音信号的时长扩大为原语音时长的1.25 倍;再进行重采样,重采样率为原采样率的0.75倍;

当变音目标为男声变女声时,将语音信号的时长缩小为原语音时长的0.75 倍;再进行重采样,重采样率为原采样率的1.25倍。

进行步骤(2-4)之后,还进行以下步骤:

(2-5)计算下一个时长为90帧的语音信号平均能量,如果当前语音信号平 均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语 音信号与第一个时长为90帧的语音信号由同一用户发出,则继续使用上一个语 音信号变音目标,进行步骤(2-4);

如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量 的0.2倍,则认为当前语音中断;继续计算下一个时长为语音信号的平均能量, 直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧 的语音信号的平均能量的0.2倍时,将语音信号的平均能量更新为当前时长为 90帧的语音信号的平均能量,重新进行步骤(2-3)~(2-5)。

与现有技术相比,本发明具有以下优点和有益效果:

(1)本发明的自适应实现男女声切换方法男女声切换方法能实时辨别性别 并自适应设定变声目标,再进行实时变声处理,无需每次使用时手动设定参数。

(2)本发明的自适应实现男女声切换方法提取的语音特征是采用动静态梅 尔倒谱参数的语音特征,使语音的动态判断更加准确。

(3)本发明的自适应实现男女声切换方法采用深度限制波尔机网络的语音 性别训练学习和识别,从而对语音性别的判断更准确,减少误判率。

附图说明

图1为本发明的实施例的自适应实现男女声切换方法的流程图。

具体实施方式

下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不 限于此。

实施例

如图1所示,本实施例的自适应实现男女声切换方法,包括以下步骤:

(1)训练过程:

(1-1)收集语音数据库:主要是从电子汉语词典真人发音数据库根据单词 提取了10组男女声数据库,其中男生5组,女生5组,每组数据库中包含常用 的3893个单词的语音发音;

(1-2)对语音数据库中的语音数据进行去平均化能量预处理;

首先截取语音开始点和结束点的数据,先统计整个语音的平均能量,为了 简化计算,本发明取每个语音数据的绝对值的平均值作为其平均能量第一个 语音信号值大于即是语音开始点,最后一个语音信号值大于即为语音结束 点。截取语音开始和结束之间信号,然后将语音数据进行去平均化能量处理, 即将语音数据除了平均能量以统一各个语音数据的能量分布;

(1-3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分 成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将 这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即 yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态 梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数 的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到 90*24维的动静态梅尔倒谱参数的语音特征矢量;

(1-4)采用基于深度限制波尔机网络(Deep Restrict Boltzman  Machine,DRBM)进行语音性别训练学习:

基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、 第三隐层和输出层,其中输入层维度为2160,第一、二、三隐层的维度分别为 500、500、3000;基于深度限制波尔机网络形成四层网络,其中,第一层网络 由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为第 一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为第 二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐层 和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层网 络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络的 输入层,输出层作为第四层网络的输出层。对于每层网络,正向迭代次数为50 次,反向为200次,每层网络的能量定义为E(v,h)=-bv-ch-hWv,其中b是该层 网络的输入层v的偏差,c是该层网络的输出层h的偏差,W是该层网络的输入 层v和该层网络的输出层h的权重值;

将步骤(1-3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作 为输入层,采用吉比特(Gibbs)采样方法根据输入层生成第一层网络的输入层 的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输 出层的权重值(具体实现细节可参考文献Hinton,G.E.,Osindero,S.and Teh,Y.,A  fast learning algorithm for deep belief nets.Neural Computation18:1527-1554, 2006);将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络, 将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏 差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;

(2)识别过程:

(2-1)采集用户的语音信号;

(2-2)对采集到的语音信号进行去平均化能量预处理;

首先截取语音开始点和结束点的数据,先统计整个语音的平均能量,为了 简化计算,本发明取每个语音数据的绝对值的平均值作为其平均能量第一个 语音信号值大于即是语音开始点,最后一个语音信号值大于即为语音结束 点。截取语音开始和结束之间信号,然后将语音数据进行去平均化能量处理, 即将语音数据除了平均能量以统一各个语音数据的能量分布;

(2-3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分 成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12; 将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即 yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态 梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数 的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到 90*24维的动静态梅尔倒谱参数的语音特征矢量;

(2-3)将步骤(2-2)得到的语音特征矢量展开成1维,利用步骤(1-4) 得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入 层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设 定变音目标:

如果性别判断为女,则变音目标为女声变男声;

如果性别判断为男,则变音目标为男声变女声;

(2-4)根据步骤(2-3)设定的变音目标,利用时间动态规划SOLAFS算法 对语音信号进行时长规整,将时长规整后的语音信息输出;所述利用时间动态 规划SOLAFS算法对语音信号进行时长规整,具体为:

当变音目标为女声变男声时,将语音信号的时长扩大为原语音时长的1.25 倍;再进行重采样,重采样率为原采样率的0.75倍;

当变音目标为男声变女声时,将语音信号的时长缩小为原语音时长的0.75 倍;再进行重采样,重采样率为原采样率的1.25倍。

在用户的后续使用过程中,还可以进行以下步骤:

(2-5)计算下一个时长为90帧的语音信号平均能量,如果当前语音信号平 均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语 音信号与第一个时长为90帧的语音信号由同一用户发出,则继续使用上一个语 音信号变音目标,进行步骤(2-4);

如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量 的0.2倍,则认为当前语音中断(可能使用人已改变);继续计算下一个时长为 语音信号的平均能量,直至检测到某一个时长为90帧的语音信号的平均能量大 于第一个时长为90帧的语音信号的平均能量的0.2倍时,将语音信号的平均能 量更新为当前时长为90帧的语音信号的平均能量,重新进行步骤(2-3)~(2-5), 这样处理的最大好处在于,当当前使用人发生改变时,系统可以实现自动化适 配不同性别使用者的变声处理。

本实施例的自适应实现男女声切换方法在应用时,可以使用计算机提取语 音数据库的语音信号特征和训练深度限制波尔机网络,然后将训练好的深度限 制波尔机网络模型配置在每台手机端,当手机用户使用时,麦克风采集当前用 户的语音信号,提取当前语音信号特征,并利用训练好的深度限制波尔机网络 模型进行判断性别,然后自动调整变音目标,利用时间动态规划SOLAFS算法 对语音信号进行时长规整和重采样语音信号,再传送给远端用户。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号