首页> 中国专利> 唱歌语音转换设备及其方法

唱歌语音转换设备及其方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种唱歌语音转换设备，包括：样本语音库，存储有多条样本语音及其基频值；基频提取模块，从每条语音中提取出离散的基频值序列；录音模块，将人歌唱的声音录制为源语音；音符切分模块，将源语音根据源语音的基频值序列切分为多个源语音片段；基频变换模块，在样本语音库中检索出与每个源语音片段的基频值具有最相近基频值的样本语音，并进行基频和时长的变换；拼接模块，将变换后的样本语音拼接并生成为一个输出语音。本发明还公开了与之对应的唱歌语音转换方法。本发明唱歌语音转换设备及方法针对人类唱歌的语音，扩展了语音转换的应用领域，可应用于唱歌语音到旋律信息的转换系统中、保密通讯中、旋律信息识别和数字娱乐领域。

著录项

公开/公告号CN103295574A

专利类型发明专利
公开/公告日2013-09-11

原文格式PDF
申请/专利权人盛乐信息技术(上海)有限公司;
展开▼

申请/专利号CN201210052385.7
发明设计人曹裕行;王磊;李鹏;苏牧;
展开▼

申请日2012-03-02
分类号G10L15/04(20130101);G10L13/08(20130101);G10L25/18(20130101);G10L25/54(20130101);
代理机构31211 上海浦一知识产权代理有限公司;
代理人丁纪铁
地址 201203 上海市浦东新区郭守敬路356号
入库时间 2024-02-19 20:52:29

法律信息

法律状态公告日

法律状态信息

法律状态
2018-09-18

授权

授权
2015-03-04

实质审查的生效 IPC(主分类):G10L15/04 申请日:20120302

实质审查的生效
2014-08-20

专利申请权的转移 IPC(主分类):G10L15/04 变更前: 变更后: 登记生效日:20140730 申请日:20120302

专利申请权、专利权的转移
2013-09-11

公开

公开

说明书

技术领域

本发明涉及一种对人类的语音信号进行处理的设备和方法。

背景技术

语音(speech或voice)是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。音高指声波频率；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为“时长”；音色指声音的特色和本质，也称作“音质”。

语音转换(voice conversion)是指改变源说话人(source speaker)的语音个性特征(例如语音频谱特征)，但保留原有语义信息不变，使之具有目标说话人(target speaker)的语音个性特征。

语音变换(voice transformation)并不是将源说话人声音变为另外一个特定人的声音，而只是对其进行某种变换使之产生某种特效。例如通过对基频的变换使原先的男声听起来像女声或者使原先的女声听起来像男声，或者通过对频谱进行变换使原先的人声变得像机器人的声音。

在有些文献中(包括本申请)，对于语音转换和语音变换并不作严格区分。

语音转换和语音变换在以下领域得到广泛应用：

1、文本到语音的转换(TTS，text-to-speech)系统、语音到文本的转换(voice to text)系统中的应用。

2、保密通信中进行语音个性化的伪装。

3、语音识别(ASR，Automatic Speech Recognition)的前端预处理，以减少说话人差异的影响。

4、数字娱乐领域，例如影视配音、将普通人声变换为有趣的声音等。

现有的语音转换主要针对人类说话、朗读的语音。例如授权公告号为 CN1811911B、授权公告日为2010年6月23日的中国发明专利就公开了一种语音变换处理方法。它是通过对源语音中的基频和/或共振峰进行提取，使之转换为样本语音数据库中对应的目标语音。

有些语音转换虽然可以应用于人类在歌唱时发出的语音，但是技术比较简单。例如在移动通讯的软件市场中的娱乐软件“会说话的汤姆猫” (Talking Tome Cat)，只是简单地将用户输入的语音做了基频提升，达到了变声的效果。

发明内容

本发明所要解决的技术问题是针对人类在歌唱时发出的语音，提供一种唱歌语音转换设备和对应的转换方法，使之保留原有旋律不变，而听起来与源唱歌人的发音完全不同。

为解决上述技术问题，本发明唱歌语音转换设备包括：

样本语音库，存储有多条样本语音，并记录有每条样本语音的基频值；

基频提取模块，从每条语音中提取出离散的基频值序列，对一条语音的离散的基频值序列计算算术平均值作为该条语音的基频值；

录音模块，将人歌唱的声音录制为源语音；

音符切分模块，将源语音切分为多个片段；

基频变换模块，在样本语音库中检索出与每个源语音片段的基频值具有最相近基频值的样本语音，将该条样本语音的基频变换为对应的源语音片段的基频值，将该条样本语音的时长缩放为对应的源语音片段的时长；

拼接模块，将变换后的样本语音按源语音片段的切分顺序进行拼接，并生成为一个输出语音。

与所述唱歌语音转换设备相对应的，唱歌语音转换方法包括如下步骤：

第1步，在样本语音库中存储多条样本语音，基频提取模块从每条样本语音中提取出离散的基频值序列，并对每条样本语音的基频值序列计算算术平均值作为该条样本语音的基频值；

第2步，录音模块将人唱歌的声音录制为源语音；

第3步，音频切分模块将源语音切分为多个源语音片段；

第4步，基频提取模块从每个源语音片段中提取出离散的基频值序列，并对每个源语音片段的基频值序列计算算术平均值，作为该源语音片段的基频值；

第5步，基频变换模块从样本语音库中检索出与每个源语音片段的基频值具有最相近基频值的样本语音，将该条样本语音的基频变换为对应的源语音片段的基频值，将该条样本语音的时长缩放为对应的源语音片段的时长；

第6步，拼接模块将变换后的样本语音按源语音片段的切分顺序进行拼接，并生成为一个输出语音。

本发明唱歌语音转换设备及方法针对人类唱歌的语音，通过划分为多个片段，每个片段由样本语音库中的具有相同或相近基频值的样本语音进行基频和时长变换后予以替换，最后予以拼接输出。这将语音转换的应用领域由说话、朗读拓展到了唱歌语音，可应用于唱歌语音到旋律信息的转换系统中、保密通讯中、旋律信息识别和数字娱乐领域等。

附图说明

图1a、图1b是本发明唱歌语音转换设备的两个实施例的结构示意图；

图2a、图2b是本发明唱歌语音转换方法的两个实施例的流程示意图。

图中附图标记说明：

11为样本语音库；12为录音模块；13、131为基频提取模块；14、141 为音符切分模块；15为基频变换模块；16为拼接模块；S21为构建样本语音库的步骤；S22为录制源语音的步骤；S23、S231为从源语音(或源语音片段)中提取基频值序列的步骤；S24、S241为将源语音切分为多个片段的步骤；S25为对每个源语音片段找到基频最接近的样本语音进行基频和时长变换的步骤；S26为将多个输出语音片段按切分顺序拼接的步骤。

具体实施方式

图1a给出了本发明唱歌语音转换设备的一个实施例，其包括样本语音库11、录音模块12、基频提取模块13、音符切分模块14、基频变换模块 15和拼接模块16。

所述样本语音库11中存储有多条样本语音，并记录有每条样本语音的基频值和时长。这些样本语音可以是人声、动物叫声、乐器弹奏声、计算机制作的虚拟语音等。

每条样本语音的基频值是这样得到的：基频提取模块12从每条样本语音中以数字信号采样的方式提取出离散的基频值序列，然后对该基频值序列计算算术平均值作为该条样本语音的基频值，每条样本语音的基频值与该条样本语音一起存储在样本语音库11中。

优选地，样本语音库11中存储有各种不同基频值的样本语音，并且这些样本语音的基频值与不同音符的频率值一一对应(相等或相近)。例如，采用科学音调记号法(scientific pitch notation)的A4音符的频率为440Hz， C4音符的频率为261.626Hz，那么在样本语音库11中有一条样本语音的基频值为440Hz与A4音符相对应，另一条样本语音的基频值为261.626Hz 与C4音符相对应。现有的音高频率表中可以查询10个八度，每个八度内 12个音符的频率，可作为构建样本语音库11的一种参考。

优选地，每条样本语音的时间长度以十几毫秒到几十毫秒为宜。

所述录音模块12将人歌唱的声音录制为源语音，优选录制成数字音频，可以保存为文件，也可以直接将源语音传递给基频提取模块13。

所述基频提取模块13，从每条样本语音、或源语音中以数字信号采样的方式提取出离散的基频值序列，离散程度视采样周期而定，例如采样周期设为0.01秒；还对每条样本语音的基频值序列计算算术平均值作为该条样本语音的基频值。

例如，一条样本语音的时长为0.01秒，基频提取模块13的采样周期为 0.002秒，并获得了该条样本语音的由5个基频值所组成的序列[f1，f2，f3， f4，f5]。那么(f1+f2+f3+f4+f5)/5就作为该条样本语音的基频值。

所述音符切分模块14，将源语音切分为多个源语音片段，并记录每个源语音片段的时间长度，并计算每个源语音片段的基频值。所述源语音片段的基频值就是该源语音片段所包含的基频值序列的算术平均值。

优选地，切分后的每个源语音片段的时间长度相等，例如均为0.5秒、或均为0.2秒等。源语音片段的时长越小，则其中发生基频改变的概率就越小，因而进行语音转换的精确程度也就越高。

所述基频变换模块15，对每个源语音片段都进行如下操作：在样本语音库11中检索出与该源语音片段的基频值具有最相近基频值的样本语音，将该条样本语音的基频变换为该源语音片段的基频，将该条样本语音的时长缩放为该源语音片段的时长。进行了基频和时长转换后的样本语音作为该源语音片段的输出语音片段。

所述拼接模块16，将各个输出语音片段按源语音片段的切分顺序进行拼接，并生成为一个输出语音。该输出语音可以直接播放，也可以保存为文件。

图1b给出了本发明唱歌语音转换设备的另一个实施例，仅有基频提取模块131、音符切分模块141与图1a有所区别。

所述音符切分模块141，将源语音切分为多个源语音片段，并记录每个源语音片段的时间长度。

所述基频提取模块131，从每条样本语音、或源语音片段中以数字信号采样的方式提取出离散的基频值序列；还对每条样本语音、或源语音片段的基频值序列计算算术平均值作为该条样本语音、或源语音片段的基频值。

图2a给出了本发明唱歌语音转换方法的一个实施例，其包括如下步骤 (结合图1a)：

步骤S21，在样本语音库11中存储多条样本语音。基频提取模块13 从每条样本语音中提取出离散的基频值序列，并对每条样本语音的基频值序列计算算术平均值作为该条样本语音的基频值，每条样本语音的基频值与该条样本语音一起存储在样本语音库11中。

例如，样本语音库中存储有120条样本语音Ri，i为1～120之间的自然数。每条样本语音的基频值f(Ri)都不同，且分别对应于(相等或相近) 具有10个八度(0～9)，每个八度内12个音符(C、升C或降D、D、升D 或降E、E、升E或降F、F、升F或降G、G、升G或降A、A、升A或降 B、B)的频率。

步骤S22，录音模块12将人唱歌的声音录制为源语音。

步骤S23，基频提取模块13从源语音中以数字信号采样的方式提取出离散的基频值序列。

步骤S24，音频切分模块14将源语音切分为多个源语音片段，并对每个源语音片段所包含的基频值序列计算算术平均值作为该源语音片段的基频值。

例如，源语音的时长为100秒，切分标准是以0.1秒时长等分，那么源语音就被切分为1000个源语音片段Sj，j为1～1000之间的自然数。假设基频提取模块13的采样周期为0.01秒，那么每个源语音片段Sj中包括由 10个离散的基频值所组成的序列。音频切分模块14对每个源语音片段Sj 中所包含的基频值序列计算算术平均值，作为该源语音片段Sj的基频值 f(Sj)。

步骤S25，对每个源语音片段，基频变换模块15从样本语音库11中检索出与该源语音片段的基频值具有最相近基频值的样本语音，将检索出的样本语音的基频转换为该源语音片段的基频，将检索出的样本语音的时长缩放为该源语音片段的时长。进行了基频和时长变换后的样本语音作为该源语音片段的输出语音片段。

以第1个源语音片段S1为例，比较其基频值f(S1)与各个样本语音Ri 的基频值f(Ri)，找到与f(S1)最为接近的f(Ri)，即两者差值的绝对值最小，将该样本语音Ri作为检索出的样本语音。将找到的那条样本语音Ri的基频 f(Ri)转换为该第1个源语音片段S1的基频值f(S1)，将找到的那条样本语音 Ri的时长扩展或压缩成该第1个源语音片段S1的时长，然后作为该第1个源语音片段S1的输出语音片段。

步骤S26，拼接模块16将各个输出语音片段按照源语音片段的切分顺序重新拼接，并生成为一个输出语音。

图2b给出了本发明唱歌语音转换方法的另一个实施例，仅有步骤 S231、步骤S241与图2a有所区别。

步骤S241，音频切分模块14将源语音切分为多个源语音片段。

步骤S231，基频提取模块13从每个源语音片段中提取出离散的基频值序列，并对每个源语音片段的基频值序列计算算术平均值作为每个源语音片段的基频值。

以上仅为本发明的优选实施例，并不用于限定本发明。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 唱歌语音转换设备及其方法 [P] . 中国专利： CN103295574B . 2018.09.18
2. 语音转换设备、语音转换方法、程序以及媒介 [P] . 中国专利： CN1369834A . 2002-09-18
3. VOICE CONVERSION DEVICE, VOICE CONVERSION LEARNING DEVICE, IMAGE GENERATION DEVICE, IMAGE GENERATION LEARNING DEVICE, VOICE CONVERSION METHOD, VOICE CONVERSION LEARNING METHOD, IMAGE GENERATION METHOD, IMAGE GENERATION LEARNING METHOD, AND COMPUTER PROGRAM [P] . WO2021045194A1 . 2021-03-11

机译：语音转换设备，语音转换学习设备，图像生成设备，图像生成学习设备，语音转换方法，语音转换学习方法，图像生成方法，图像生成学习方法和计算机程序
4. Voice conversion device, voice conversion learning device, image generation device, image generation learning device, voice conversion method, voice conversion learning method, image generation method, image generation learning method and computer program [P] . JP2021043264A . 2021-03-18

机译：语音转换设备，语音转换学习设备，图像生成设备，图像生成学习设备，语音转换方法，语音转换学习方法，图像生成方法，图像生成学习方法和计算机程序
5. VOICE CONVERTING CIRCUIT AND KARAOKE SINGING EQUIPMENT [P] . 日本专利： JPH09179572A . 1997-07-11

机译：语音转换电路和卡拉OK唱歌设备