首页> 中国专利> 一种彝语语音数据自动标注方法

一种彝语语音数据自动标注方法

摘要

本发明提供一种彝语语音数据自动标注方法,包括:步骤一:将彝语样本分别处理成彝语文字样本和对应的彝语语音样本;然后所述将彝语文字样本在语言层进行共享表示得到语言层共享标识样本;将所述彝语语音样本在声学层进行共享表示得到声学层共享标识样本;步骤二:对所述语言层共享标识样本和声学层共享标识样本进行对齐融合以完成预处理,从而得到在语言层和声学层对齐融合后的彝语样本数据;步骤三:利用扩展高斯混合模型和隐马尔科夫模型GMM‑HMM对所述对齐融合后的彝语样本数据进行标注参数计算;步骤四:将所述标注参数计算结果作为依据进行标注,最终完成彝语样本数据的自动标注。本发明方法能够提高自动标注的正确率。

著录项

  • 公开/公告号CN112632977A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 昆明学院;

    申请/专利号CN202011534682.6

  • 申请日2020-12-23

  • 分类号G06F40/284(20200101);G06F40/117(20200101);G06F40/30(20200101);G10L15/22(20060101);G10L17/04(20130101);G10L25/24(20130101);

  • 代理机构11265 北京挺立专利事务所(普通合伙);

  • 代理人高福勇

  • 地址 650214 云南省昆明市经济技术开发区浦新路2号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及智能识别技术领域,尤其涉及一种彝语语音数据自动标注方法。

背景技术

彝族是我国西南少数民族中人口最多的民族之一,约870万人口,其中仅云南就有510万人。彝语属汉藏语系藏缅语族彝语支,涉及地理分布很广,方言、次方言、土语较多,分为东部、南部、西部、北部、东南部和中部六大方言区。彝语使用情况各地不尽相同,多数彝族聚集区一半以上居民不懂或基本不懂汉语。彝语在声学层面(音素、口音、协音等)和语言学层面(词汇、词法、语法、语义等)都具有很多特征:第一,分支方言较多。方言、次方言多,且差异较大;第二,受汉语借来词影响显著。许多汉语词汇已经在彝语中普遍使用,特别在口语表达中尤为明显;第三,不均衡性。由于散居较多,语音内部标准化程度低,受地域影响严重。

数据标注是对未处理的原始数据,包括语音、图片、文本、视频等进行加工,转换为机器可识别信息的过程。迄今为止,深度学习中的监督学习已取得非常大的成功,但是算法的训练过程往往依赖于百万级以上的标注数据,通常需要花费大量的人力物力进行人工标注。例如在图像识别领域,大量的互联网图像标注数据大大推动了图像识别研究进程,并获得巨大成功。随着深层神经网络等方法的深入应用,语音识别也获得长足发展,但建立具有高普适性和优秀分类性能的统计模型,需要更多、更准确的语音标注数据支撑。彝语语音标注数据极度匮乏已经成为制约彝语语音识别性能的关键因素,而由机器完成的自动标注方法具有非常重要的意义。

目前已有的数据标注方法主要包括:第一,人工语音数据标注方法,该方法成本较高且标注质量参差不齐,会影响后期的数据使用效果;第二,图像等领域的自动标注方法,图像数据自动标注方法在领域内已经取得较大成功,但不具备推广至其它领域的通用性。第三,基于单模态特征的语音数据自动标注方法,采用现有的语音识别技术原理实现标注,但因仅考虑了某一方面的特征因素导致数据标注正确率较低。

综上所述,由于应用领域和语言特性的差异,需要针对彝语的特点构建一种专门的、正确率高的数据自动标注方法。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷,提供一种正确率高的彝语语音数据自动标注方法。

一种彝语语音数据自动标注方法,包括以下步骤:

步骤一:将彝语样本分别处理成彝语文字样本和对应的彝语语音样本;然后所述将彝语文字样本在语言层进行共享表示得到语言层共享标识样本;将所述彝语语音样本在声学层进行共享表示得到声学层共享标识样本;

步骤二:对所述语言层共享标识样本和声学层共享标识样本进行对齐融合以完成预处理,从而得到在语言层和声学层对齐融合后的彝语样本数据;

步骤三:利用扩展高斯混合模型和隐马尔科夫模型GMM-HMM对所述对齐融合后的彝语样本数据进行标注参数计算;

步骤四:将所述标注参数计算结果作为依据进行标注,最终完成彝语样本数据的自动标注。

进一步地,如上所述的彝语语音数据自动标注方法,步骤一中所述将彝语文字样本在语言层进行共享表示得到语言层共享标识样本包括以下步骤:

步骤1:将所述彝语文字样本以词汇为单位进行标识,得到彝语词汇文字样本;

步骤2:以词汇为单位,将所述彝语词汇文字样本与已有的彝语词汇表进行逐一自动匹配,若匹配上,则将匹配上的彝语词汇文字样本标识为共享彝语词,并摘录所述共享彝语词的汇表内容;若不能匹配,则执行步骤3:

所述共享彝语词的汇表内容包括:词汇编号、词性、语义描述、备注信息;

步骤3:以词汇为单位,将剩余不能与已有的彝语词汇表匹配的彝语词汇文字样本与已有的汉语词汇表进行逐一自动匹配,若匹配上,则将之标识为共享汉语借来词,并摘录所述共享汉语借来词的汇表内容:否则执行步骤4;

所述共享汉语借来词的汇表内容包括:词汇编号、词性、语义描述、备注信息;

步骤4:将无法与已有的彝语词汇表和汉语词汇表匹配的剩余词汇标识为其他词;

步骤5:将所述共享彝语词汇表以及对应的内容、共享汉语借来词汇表以及对应的内容、其他词存入特征库;

所述将彝语语音样本在声学层进行共享表示得到声学层共享标识样本包括以下步骤:

步骤1:将所述彝语语音样本以词汇为单位进行标识,得到彝语词汇语音样本;

步骤2:将所述彝语词汇语音样本以帧为单位提取每个词汇的梅尔倒频谱系数特征;

步骤3:根据所述梅尔倒频谱系数特征分别计算每一个彝语词汇的梅尔特征值相似度,公式如下:

其中:S

步骤4:根据所述梅尔特征值相似度与预先设置的梅尔特征值相似度阈值Q进行比较,根据比较结果来确定所述彝语词汇语音样本是否存在发音偏误;若大于或等于阈值Q,则将该部分彝语词汇语音样本标识为发音有偏误语音样本,并对所述发音有偏误语音样本进行标识;若小于阈值Q,则将该部分彝语词汇语音样本标识为发音无偏误语音样本;

标识的内容包括:词汇编号、梅尔特征值相似度、方言类型、备注信息;

步骤5:将所述发音有偏误语音样本以及标识的内容和发音无偏误语音样本以及标识的内容存入特征库。

进一步地,如上所述的彝语语音数据自动标注方法,所述步骤二包括以下步骤:

步骤1:提取所述声学层共享标识样本的声学特征,从给定的彝语样本数据中提取基频、共振峰、梅尔频谱系数三个特征,完成帧层面的特征提取,并将提取的特征存入特征规则库;

步骤2:提取所述语言层共享标识样本的语言学特征,从给定的彝语样本数据中提取词汇、句子二个特征,完成词汇层面的特征提取,并将提取的特征存入特征规则库;

步骤3:将所述基频、共振峰、梅尔频谱系数、词汇、句子进行线性变换,完成帧到词汇的映射,并在词汇序列中加入单元实现特征对齐,在词汇层面实现彝语样本数据的文字和语音的对齐,并将对齐后的词汇信息存入特征规则库;

步骤4:所有对齐融合后的词汇标识信息整理入库,获得在语言层和声学层对齐融合后的彝语样本数据。

进一步地,如上所述的彝语语音数据自动标注方法,步骤三中所述利用扩展高斯混合模型和隐马尔科夫模型GMM-HMM对所述对齐融合后的彝语样本数据进行标注参数计算包括以下步骤:

步骤1:导入所述对齐融合后的彝语样本数据,逐一读取彝语词汇序列;

步骤2:利用GMM-HMM中的扩展HMM模型对所述对齐融合后的彝语样本数据进行处理得到双层观察序列矩阵;基于所述语言层共享标识样本,当彝语词汇标识为汉语借来词时,则建立彝语文字序列和汉语文字序列的层间关联关系,即关联矩阵元素值设为“1”;获得完整的模型双层观察序列矩阵;

步骤3:利用GMM-HMM中的GMM模型对所述对齐融合后的彝语样本数据进行处理得到观察状态与隐含状态的关联矩阵;基于所述声学层共享标识样本,当彝语词汇标识为发音有偏误时,则建立模型观察状态与隐含状态的关联关系,即关联矩阵元素值设为“1”;获得完整的模型观察状态与隐含状态的关联矩阵。

步骤3:将计算获得的双层观察序列矩阵、模型观察状态与隐含状态的关联矩阵作为标注参数的计算结果进行存储。

进一步地,如上所述的彝语语音数据自动标注方法,所述步骤四具体包括以下步骤:

步骤1:基于所述标注参数计算结果,将所述对齐融合后的彝语样本数据的词汇序列输入所述扩展HMM模型,执行后获得词汇预测结果,即得到词汇编号;

步骤2:基于所述词汇编号,以特征规则库中对应的词汇编号为唯一标识,将所述对齐融合后的彝语样本数据的词汇信息与声学层共享标记样本标注和语言层共享标记样本标注进行关联,得到完整样本数据的标注内容;

所述样本数据的标注内容包括:词汇编号、词性、语义描述、文字备注信息、梅尔特征值相似度、方言类型、语音备注信息、偏误类型、共享类型;

步骤3:将所述词汇标识内容进行自动存储,完成自动标注过程。

其中,所述高斯混合模型和隐马尔科夫模型(GMM-HMM)是语音识别领域传统、成熟的机器学习方法,对基于时间序列的预测问题效果较好,其中GMM用来模拟声学特征的概率密度分布,HMM用来预测下一步的发音和文字。因此,优先考虑将该模型移植到彝语语音自动标注中,但需要针对分层共享学习问题进行模型扩展。

所述扩展HMM的基本思路是:将HMM的单个观察层扩展为双层,即彝语层和汉语层,通过层间观察状态相关性实现共享。用GMM来拟合彝语多种分支方言声学特征构成的概率密度函数。

有益效果:

第一,本发明是一种专门针对彝语语音数据的自动标注方法,与现有的人工数据标注、图像等领域的自动标注、基于单模态特征的自动标注方法有较大区别,标注效率、准确率都有较大提升。

第二,本发明针对彝语分支方言发音区别大和汉语借来词占比高的特点,采用分层共享表示方法,考虑了影响标注效果的关键因素,是提高彝语语音数据标注准确率的核心技术。

第三,本发明是一种数据自动标注方法,与现有的人工数据标注方法相比,节约了人工成本、提高了标注效率。通过快速获得标注数据,可有效促进语音智能化技术研究进程。

附图说明

图1为图语音数据标注示例图;

图2为语言层分层共享学习建模示意图;

图3为声学层分层共享学习建模示意图;

图4为协同标注框架图;

图5为分层共享学习的GMM-HMM模型扩展结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种彝语语音数据自动标注方法,该方法包括以下步骤:

步骤一:将彝语样本分别处理成彝语文字样本和对应的彝语语音样本;然后所述将彝语文字样本在语言层进行共享表示得到语言层共享标识样本;将所述彝语语音样本在声学层进行共享表示得到声学层共享标识样本;

步骤二:对所述语言层共享标识样本和声学层共享标识样本进行对齐融合以完成预处理,从而得到在语言层和声学层对齐融合后的彝语样本数据;

步骤三:利用扩展高斯混合模型和隐马尔科夫模型GMM-HMM对所述对齐融合后的彝语样本数据进行标注参数计算;

步骤四:将所述标注参数计算结果作为依据进行标注,最终完成彝语样本数据的自动标注。

本发明提供的方法解决了以下问题:第一,针对彝语的分支方言发音区别大和汉语借来词占比高两个重要特点,采用分层共享表示方法,即在语言层面与汉语共享词汇表,在声学层面与各分支方言共享语音特征,从而有效提升彝语语音数据标注的准确性。第二,提取彝语数据的基频、共振峰、梅尔频谱、词汇、句子、情感等多模态特征,基于现有的多模态融合技术,融合分层共享表示特征完成数据标注预处理。解决了仅基于单模态特征方法正确率低的问题。第三,基于现有的深度学习模型技术,通过参数训练和计算,完成彝语语音数据自动标注。通过本发明的方法可快速获得高质量的大量彝语语音标注数据,从而有效促进彝语语音智能化技术的发展。

下面对本发明的技术方案做详细阐述:

(1)标注内容。因为原始数据已经带基础信息标注,本申请重点研究声学层的语音特征(基频、共振峰、梅尔倒频谱系数等)和语言层的文字转录(词汇、句子和情感等)的标注内容。彝语数据标注内容示例如图1所示(人工利用Praat工具标注),以彝语标注内容为例说明标注与语言本身的高耦合性。彝语词汇普遍带有情感,且大部分都以词缀形式出现,因此从词缀入手提取情感词汇可作为情感标注的重要模态之一。如表1所示。

表1彝语词缀示例表

(2)分层特征表示方法。

分层共享表示方法。针对分支方言发音区别大和汉语借来词占比高两个关键问题,提出分层两个共享表示方法,即通过共享外部资源更准确地表示彝语本质特征的方法,分别在语言层面与汉语共享词汇,在声学层面与分支方言共享语音。

语言层共享表示,如图2所示,在语言层面,建模空间在彝语词汇和语法表上。彝语和汉语具有不同的语法结构,拥有自己独立的虚词空间V1和V2,但汉语的部分实体词E的语义空间与彝语一致,可以进行词汇共享。例如:在利用循环神经网络(RNN)建立语言模型(RNNLM)时,可以引入这些共享词汇增强模型的准确度。该方法可以使词汇的自动标注更准确。声学层共享表示。在声学层面,如图3所示,建模空间在更高层的彝语语音上。基于不同分支方言的部分词汇P在发音模式上的区别,将这些特殊词汇作为约束条件,研究语音特性和共性的统一学习建模,通过训练较优的模型参数,提高自动标注的准确性。

具体的,所述将彝语文字样本在语言层进行共享表示得到语言层共享标识样本,包括以下步骤:

步骤1:将所述彝语文字样本以词汇为单位进行标识,得到彝语词汇文字样本;

步骤2:以词汇为单位,将所述彝语词汇文字样本与已有的彝语词汇表进行逐一自动匹配,若匹配上,则将匹配上的彝语词汇文字样本标识为共享彝语词,并摘录所述共享彝语词的汇表内容;若不能匹配,则执行步骤3:

所述共享彝语词的汇表内容包括:词汇编号、词性、语义描述、备注信息;

步骤3:以词汇为单位,将剩余不能与已有的彝语词汇表匹配的彝语词汇文字样本与已有的汉语词汇表进行逐一自动匹配,若匹配上,则将之标识为共享汉语借来词,并摘录所述共享汉语借来词的汇表内容:否则执行步骤4;

所述共享汉语借来词的汇表内容包括:词汇编号、词性、语义描述、备注信息;

步骤4:将无法与已有的彝语词汇表和汉语词汇表匹配的剩余词汇标识为其他词;

步骤5:将所述共享彝语词汇表以及对应的内容、共享汉语借来词汇表以及对应的内容、其他词存入特征库。

所述将彝语语音样本在声学层进行共享表示得到声学层共享标识样本包括以下步骤:

步骤1:将所述彝语语音样本以词汇为单位进行标识,得到彝语词汇语音样本;

步骤2:将所述彝语词汇语音样本以帧为单位提取每个词汇的梅尔倒频谱系数特征;

步骤3:根据所述梅尔倒频谱系数特征分别计算每一个彝语词汇的梅尔特征值相似度,公式如下:

其中:S

步骤4:根据所述梅尔特征值相似度与预先设置的梅尔特征值相似度阈值Q进行比较,根据比较结果来确定所述彝语词汇语音样本是否存在发音偏误;若大于或等于阈值Q,则将该部分彝语词汇语音样本标识为发音有偏误语音样本,并对所述发音有偏误语音样本进行标识;若小于阈值Q,则将该部分彝语词汇语音样本标识为发音无偏误语音样本;

标识的内容包括:词汇编号、梅尔特征值相似度、方言类型、备注信息;

步骤5:将所述发音有偏误语音样本以及标识的内容和发音无偏误语音样本以及标识的内容存入特征库。

(3)自动标注流程

基于分层共享表示方法和多模态特征,完成协同标注模型构建流程。结合彝语特点提取多种特征,进行多模态特征表示、对齐和融合,建立多模态学习模型。再利用基于特征规则库的逻辑推理,进行逻辑推理和机器学习分类的协同决策,实现自动标注。如图4所示。

具体地,协同标注模型构建流程具体包括以下步骤:

步骤1:提取所述声学层共享标识样本的声学特征,从给定的彝语样本数据中提取基频、共振峰、梅尔频谱系数三个特征,完成帧层面的特征提取,并将提取的特征存入特征规则库;

步骤2:提取所述语言层共享标识样本的语言学特征,从给定的彝语样本数据中提取词汇、句子二个特征,完成词汇层面的特征提取,并将提取的特征存入特征规则库;

步骤3:将所述基频、共振峰、梅尔频谱系数、词汇、句子进行线性变换,完成帧到词汇的映射,并在词汇序列中加入单元实现特征对齐,在词汇层面实现彝语样本数据的文字和语音的对齐,并将对齐后的词汇信息存入特征规则库;

步骤4:所有对齐融合后的词汇标识信息整理入库,获得在语言层和声学层对齐融合后的彝语样本数据。

(4)标注关键技术

自动标注方法选择能适应多模态特征、较为成熟、分类性能优的深度学习模型。由于有种子数据进行支撑,拟优先尝试监督学习方法,例如:高斯混合模型和隐马尔科夫模型(GMM-HMM)。GMM-HMM是语音识别领域传统、成熟的方法,对基于时间序列的预测问题效果较好,因此优先考虑将该模型移植到彝语语音自动标注中,但需要针对分层共享学习进行扩展。基本思路是:将HMM扩展为双层观察序列,即彝语语言层和汉语语言层,通过层间观察状态相关性实现共享,用GMM来拟合多种分支方言声学特征构成的概率密度函数。当然,也可以尝试将HMM扩展为二阶,但由于用到的汉语词汇较少,性能是否优越有待实验验证。如图5所示,其采用维特比(Viterbi)、最大期望(EM)等算法对模型参数进行训练,并不断优化参数。

具体的,所述利用扩展高斯混合模型和隐马尔科夫模型GMM-HMM对所述对齐融合后的彝语样本数据进行标注参数计算包括以下步骤:

步骤1:导入所述对齐融合后的彝语样本数据,逐一读取彝语词汇序列;

步骤2:利用GMM-HMM中的扩展HMM模型对所述对齐融合后的彝语样本数据进行处理得到双层观察序列矩阵;基于所述语言层共享标识样本,当彝语词汇标识为汉语借来词时,则建立彝语文字序列和汉语文字序列的层间关联关系,即关联矩阵元素值设为“1”;获得完整的模型双层观察序列矩阵;

步骤3:利用GMM-HMM中的GMM模型对所述对齐融合后的彝语样本数据进行处理得到观察状态与隐含状态的关联矩阵;基于所述声学层共享标识样本,当彝语词汇标识为发音有偏误时,则建立模型观察状态与隐含状态的关联关系,即关联矩阵元素值设为“1”;获得完整的模型观察状态与隐含状态的关联矩阵。

步骤3:将计算获得的双层观察序列矩阵、模型观察状态与隐含状态的关联矩阵作为标注参数的计算结果进行存储。

所述将所述标注参数计算结果作为依据进行标注,最终完成彝语样本数据的自动标注包括:步骤1:基于所述标注参数计算结果,将所述对齐融合后的彝语样本数据的词汇序列输入所述扩展HMM模型,执行后获得词汇预测结果,即得到词汇编号;

步骤2:基于所述词汇编号,以特征规则库中对应的词汇编号为唯一标识,将所述对齐融合后的彝语样本数据的词汇信息与声学层共享标记样本标注和语言层共享标记样本标注进行关联,得到完整样本数据的标注内容;

所述样本数据的标注内容包括:词汇编号、词性、语义描述、文字备注信息、梅尔特征值相似度、方言类型、语音备注信息、偏误类型、共享类型;

步骤3:将所述词汇标识内容进行自动存储,完成自动标注过程。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号