首页> 中国专利> 自由朗读题型的口语评测方法及系统

自由朗读题型的口语评测方法及系统

摘要

本发明公开了一种自由朗读题型的口语评测方法及系统,该方法包括:接收待评测语音信号;对所述语音信号进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段;根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征,并将所述发音准确性特征作为所述语音信号的评测特征;所述发音准确性特征包括以下任意一种或多种:非误识别单词的后验概率、错读单词比例、正确朗读单词比例;根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分。本发明可以准确实现自由朗读题型的自动评测。

著录项

  • 公开/公告号CN105845134A

    专利类型发明专利

  • 公开/公告日2016-08-10

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN201610423082.X

  • 发明设计人 宋碧霄;潘颂声;宋铁;高前勇;

    申请日2016-06-14

  • 分类号G10L15/19(20130101);G10L15/02(20060101);G10L15/04(20130101);G10L15/08(20060101);G10L15/26(20060101);G09B19/04(20060101);

  • 代理机构11252 北京维澳专利代理有限公司;

  • 代理人刘路尧;逢京喜

  • 地址 230088 安徽省合肥市高新开发区望江西路666号

  • 入库时间 2023-06-19 00:13:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-07

    授权

    授权

  • 2016-09-07

    实质审查的生效 IPC(主分类):G10L15/19 申请日:20160614

    实质审查的生效

  • 2016-08-10

    公开

    公开

说明书

技术领域

本发明涉及语音信号技术领域,具体涉及一种自由朗读题型的口语评测方法及系统。

背景技术

作为人际交流的重要媒介,口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。为此,业界相继开发出了一些语言教学和评测系统。

随着口语评测技术的不断成熟,越来越多的口语学习或者口语教学者都纷纷借助于这种技术来进行教学和学习口语。目前常见的口语学习场景都是指定朗读文本,然后根据学习者朗读的语音进行发音准确性和流畅度的评估。但是,指定朗读文本,就限定了学习者必须指定一个既定的题目或者内容来进行口语练习。因此,为了让学习者能够更加方便地进行口语学习,自由朗读题型便应运而生。自由朗读题型,即学习者随意选择朗读文本进行口语练习。

由于现有的口语评测技术都是针对指定朗读文本,基于先验文本内容的口语评测,而自由朗读题型没有标准答案,因此现有的口语评测技术无法准确地实现自由朗读题型的自动评测。

发明内容

本发明实施例提供一种自由朗读题型的口语评测方法及系统,以准确实现自由朗读题型的自动评测。

为此,本发明实施例提供如下技术方案:

一种自由朗读题型的口语评测方法,包括:

接收待评测语音信号;

对所述语音信号进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段;

根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征,并将所述发音准确性特征作为所述语音信号的评测特征;所述发音准确性特征包括以下任意一种或多种:非误识别单词的后验概率、错读单词比例、正确朗读单词比例;

根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分。

优选地,所述根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征包括:

根据所述识别文本及各语音片段获取所述识别文本中各单词的分类特征,所述分类特征包括以下任意一种或多种:声学特征、语言模型特征、语法特征;

基于所述分类特征及预先训练的单词分类模型,确定各单词的类别,所述类别包括:误识别、错读、正确朗读;

获取所述识别文本中以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

优选地,根据所述识别文本及各语音片段获取所述识别文本中各单词的声学特征包括:

根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的后验概率;

对于每个单词,计算所述单词包含的所有基本语音单元的后验概率的均值,并将该均值作为所述单词的声学特征。

优选地,根据所述识别文本及各语音片段获取所述识别文本中各单词的语言模型特征包括:

根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的语言模型得分;

对于每个单词,计算所述单词包含的所有基本语音单元的语言模型得分的均值,并将该均值作为所述单词的语言模型特征。

优选地,根据所述识别文本及各语音片段获取所述识别文本中各单词的语法特征包括:

根据语法规则对所述识别文本进行语法检错,得到检错结果;

根据所述检错结果确定所述识别文本中各单词的语法特征。

优选地,所述评测特征还包括:流畅度特征;所述方法还包括:

提取所述语音信号中语音分类基本语音单元的声学特征,所述语音分类基本单元为音节、或单词、或短语;

利用所述声学特征及预先构建的语音分类模型,确定所述语音信号中的增读语音和非增读语音;

根据所述语音信号中的增读语音和非增读语音,提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速;

所述根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分包括:

分别根据提取的语音信号的发音准确性特征及流畅度特征以及与所述特征对应的评测模型计算所述语音信号发音准确性得分和流畅度得分,然后根据所述发音准确性得分和流畅度得分计算所述语音信号的评测得分;或者

将所述语音信号的发音准确性特征和流畅度特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分。

优选地,按以下方式构建所述语音分类模型:

收集不同类型的增读语音数据和非增读语音数据,并将收集的语音数据作为训练数据;

提取所述训练数据的声学特征;

利用所述声学特征训练得到所述语音分类模型。

优选地,所述评测特征还包括:语言表达能力特征;所述方法还包括:

根据所述识别文本提取所述语音信号的语言表达能力特征,所述语言表达能力特征包括以下任意一种或多种特征:

语义连续特征,指所述识别文本中每句或者每段语义是否连续;

词汇特征,包括以下任意一种或多种:所述识别文本中不重复词汇的数量、成语数量、高级词汇数量;

文采特征,指所述识别文本中每句或者每段的文字表达是否优美;

所述根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分包括:

分别根据提取的语音信号的发音准确性特征、流畅度特征、语言表达能力特征以及与所述特征对应的评测模型计算所述语音信号的发音准确性得分、流畅度得分、以及语言表达能力得分,然后根据所述发音准确性得分、流畅度得分、以及语言表达能力得分,计算所述语音信号的评测得分;或者

将所述语音信号的发音准确性特征、流畅度特征、以及语言表达能力特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分。

优选地,所述根据所述识别文本提取所述语音信号的语言表达能力特征包括:

确定所述识别文本中的误识别单词;

对所述识别文本进行修正处理,所述修正处理包括:从所述识别文本中去除所述误识别单词、或更正所述识别文本中的误识别单词;

根据修正后的识别文本提取所述语音信号的语言表达能力特征。

一种自由朗读题型的口语评测系统,包括:

接收模块,用于接收待评测语音信号;

语音识别模块,用于对所述语音信号进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段;

发音准确性特征提取模块,用于根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征,并将所述发音准确性特征作为所述语音信号的评测特征;所述发音准确性特征包括以下任意一种或多种:非误识别单词的后验概率、错读单词比例、正确朗读单词比例;

评测模块,用于根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分。

优选地,所述发音准确性特征提取模块包括:

分类特征获取单元,用于根据所述识别文本及各语音片段获取所述识别文本中各单词的分类特征,所述分类特征包括以下任意一种或多种:声学特征、语言模型特征、语法特征;

单词类别确定单元,用于基于所述分类特征及预先训练的单词分类模型,确定各单词的类别,所述类别包括:误识别、错读、正确朗读;

第一计算单元,用于获取所述识别文本中以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

优选地,所述分类特征获取单元包括:

声学特征获取子单元,用于根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的后验概率;然后对于每个单词,计算所述单词包含的所有基本语音单元的后验概率的均值,并将该均值作为所述单词的声学特征;

语言模型特征获取子单元,用于根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的语言模型得分;然后对于每个单词,计算所述单词包含的所有基本语音单元的语言模型得分的均值,并将该均值作为所述单词的语言模型特征;

语法特征获取子单元,用于根据语法规则对所述识别文本进行语法检错,得到检错结果;然后根据所述检错结果确定所述识别文本中各单词的语法特征。

优选地,所述系统还包括:

流畅度特征提取模块,用于提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速;所述流畅度特征提取模块包括:

声学特征提取单元,用于提取所述语音信号中语音分类基本语音单元的声学特征,所述语音分类基本单元为音节、或单词、或短语;

语音类别确定单元,用于利用所述声学特征及预先构建的语音分类模型,确定所述语音信号中的增读语音和非增读语音;

第二计算单元,用于根据所述语音信号中的增读语音和非增读语音,提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速;

所述评测模块,具体用于将所述语音信号的发音准确性特征和流畅度特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分;或者

所述评测模块包括:

发音准确性评测单元,用于根据所述语音信号的发音准确性特征及发音准确性评测模型计算所述语音信号的发音准确性得分;

流畅度评测单元,用于根据所述语音信号的流畅度特征及流畅度评测模型计算所述语音信号的流畅度得分;

第一评测得分计算单元,用于根据所述发音准确性得分和流畅度得分计算所述语音信号的评测得分。

优选地,所述流畅度特征提取模块还包括:语音分类模型构建单元,用于构建所述语音分类模型;所述语音分类模型构建单元包括:

训练数据收集子单元,用于收集不同类型的增读语音数据和非增读语音数据,并将收集的语音数据作为训练数据;

声学特征提取子单元,用于提取所述训练数据的声学特征;

训练子单元,用于利用所述声学特征训练得到所述语音分类模型。

优选地,所述系统还包括:

语言表达能力特征提取模块,用于根据所述识别文本提取所述语音信号的语言表达能力特征,所述语言表达能力特征包括以下任意一种或多种特征:

语义连续特征,指所述识别文本中每句或者每段语义是否连续;

词汇特征,包括以下任意一种或多种:所述识别文本中不重复词汇的数量、成语数量、高级词汇数量;

文采特征,指所述识别文本中每句或者每段的文字表达是否优美;

所述评测模块,具体用于将所述语音信号的发音准确性特征、流畅度特征、以及语言表达能力特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分;或者

所述评测模块包括:

发音准确性评测单元,用于根据所述语音信号的发音准确性特征及发音准确性评测模型计算所述语音信号的发音准确性得分;

流畅度评测单元,用于根据所述语音信号的流畅度特征及流畅度评测模型计算所述语音信号的流畅度得分;

语言表达能力评测单元,用于根据所述语音信号的语言表达能力特征及语言表达能力评测模型计算所述语音信号的语言表达能力得分;

第二评测得分计算单元,用于根据所述发音准确性得分、流畅度得分、以及语言表达能力得分,计算所述语音信号的评测得分。

优选地,所述语言表达能力特征提取模块包括:

识别错误确定单元,用于确定所述识别文本中的误识别单词;

修正单元,用于对所述识别文本进行修正处理,所述修正处理包括:从所述识别文本中去除所述误识别单词、或更正所述识别文本中的误识别单词;

提取单元,用于根据修正后的识别文本提取所述语音信号的语言表达能力特征。

本发明实施例提供的自由朗读题型的口语评测方法及系统,针对自由朗读题型没有标准答案的特点,对待评测语音信号先进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段,然后根据识别文本及各语音片段提取语音信号的发音准确性特征,并且针对其特点,在发音准确性特征中包括非误识别单词的后验概率、错读单词比例、正确朗读单词比例,这样,排除了误识别单词的干扰,从而使最终的评测得分能够准确反映朗读者的真实水平。

进一步地,根据所述语音信号的声学特征及预先构建的语音分类模型,确定所述语音信号中的增读语音和非增读语音,根据所述语音信号中的增读语音和非增读语音提取所述语音信号的流畅度特征,综合准确性特征和流畅度特征对所述语音信号进行综合评价,更全面地反映朗读者的口语水平。

更进一步,根据识别文本提取所述语音信号的语言表达能力特征,进而综合多种不同特征对朗读者进行口语评测,使评测结果更全面。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本发明实施例自由朗读题型的口语评测方法的一种流程图;

图2是本发明实施例中提取语音信号的发音准确性特征的一种流程图;

图3是本发明实施例中对自由朗读题型的口语进行流畅度评测的流程图;

图4是本发明实施例自由朗读题型的口语评测系统的一种结构示意图;

图5是本发明实施例中发音准确性特征提取模块的一种具体结构示意图;

图6是本发明实施例自由朗读题型的口语评测系统的另一种结构示意图;

图7是本发明实施例中流畅度特征提取模块的一种具体结构示意图;

图8是本发明实施例自由朗读题型的口语评测系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有技术的口语评测方法只能针对有标准答案的指定朗读文本的局限性,本发明实施例提供一种自由朗读题型的口语评测方法及系统,从待评测语音信号中提取评测特征,提取的评测特征不仅包括了具有普遍性的发音准确度特征和发音流畅度特征,还包括了针对自由朗读题型特点的语言表达能力特征,从而使所述评测特征能够较全面地体现自由朗读题型的口语的朗读质量,使评价更全面、准确。

如图1所示,是本发明实施例自由朗读题型的口语评测方法的一种流程图,包括以下步骤:

步骤101,接收待评测语音信号。

所述语音信号是用户针对随意选择的文本进行朗读得到的语音信号,比如可以通过录音方式得到所述语音信号。

步骤102,对所述语音信号进行语音识别,并基于所述识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段。

所述基本语音单元可以是音节、音素等。

所述语音识别可以采用现有技术,不同的语音识别系统将基于不同的声学特征如基于MFCC(Mel-Frequency Cepstrum Coefficients,美尔倒谱系数)特征的声学模型、基于PLP(Perceptual Linear Predictive,感知线性预测)特征的声学模型等,或采用不同的声学模型如HMM-GMM(HiddenMarkov Model-Gaussian Mixture Model,隐马尔可夫模型-高斯混合模型)、基于DBN(Dynamic Beyesian Network,动态贝叶斯网络)的神经网络声学模型等,甚或采用不同的解码方式如Viterbi搜索,A*搜索等,对语音信号解码。这样,可以得到所述语音信号的基本语音单元及对应的语音片段序列。

步骤103,根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征,并将所述发音准确性特征作为所述语音信号的评测特征;所述发音准确性特征包括以下任意一种或多种:非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

所述发音准确性特征用于描述各语音片段的发音标准度,在现有技术中,针对指定朗读内容的发音准确性评测,通过各语音片段相应于其所对应的基本语音单元的发音声学模型的相似度、漏读单词比例等信息,即可反映朗读者的发音准确性。但对于自由朗读题型,由于没有标准答案、并且识别文本中可能会存在识别错误,因此,在本发明实施例中,通过排除误识别单词的干扰,由非误识别单词的后验概率、或者错读单词比例和正确朗读单词比例、或者上述三种参数来表征发音准确性特征。其中,错读单词比例和正确朗读单词比例是除去误识别单词后剩余的单词中错读单词比例和正确朗读单词比例。

具体地,可以利用分类模型及相应的分类特征,确定各单词的类别,具体确定方式可以有多种,比如将单词的类别分为三类:误识别、错读、正确朗读,利用相应的分类模型,依次将每个单词的分类特征输入该模型,得到该单词的类别;当然,也可以采用二分类模型先确定所述识别文本中误识别和非误识别的单词,然后再确定非误识别单词是错读还是正确朗读,对此本发明实施例不做限定。

下面以第一种方式为例说明发音准确性特征的提取过程。如图2所示,是本发明实施例中提取语音信号的发音准确性特征的一种具体流程,包括以下步骤:

步骤201,根据识别文本及各语音片段获取所述识别文本中各单词的分类特征,所述分类特征包括以下任意一种或多种:声学特征、语言模型特征、语法特征。

所述单词的声学特征是指在语音识别及语音片段边界划分过程中,得到单词中包含的所有基本语音单元的后验概率的均值。具体地,可以首先根据各语音片段获取所述识别文本中各单词包含的所有基本语音单元的后验概率;然后对于每个单词,计算所述单词包含的所有基本语音单元的后验概率的均值,并将该均值作为所述单词的声学特征。

同理,所述单词的语言模型特征是指单词包含的所有基本语音单元的语言模型得分的均值。具体地,可以首先根据各语音片段获取所述识别文本中各单词包含的所有基本语音单元的语言模型得分;对于每个单词,计算所述单词包含的所有基本语音单元的语言模型得分的均值,并将该均值作为所述单词的语言模型特征。

所述单词的语法特征是指根据语法规则对识别文本进行语法检错,常见的语法错误比如有“主谓不一致”、“动词时态、语态错误”、“名称单复数”、“形容词、副词错用”等等。具体地,可以根据语法规则对所述识别文本进行语法检错,得到检错结果;然后根据所述检错结果确定所述识别文本中各单词的语法特征。比如,可以将不同的语法错误进行错误编号,如将主谓不一致作为编号为1的语法错误,如果朗读句中出现该错误,则该句中的主语和谓语单词被标记为1,也就是说,该主语和谓语单元的语法特征为1,当然,一个单词的语法特征可以是多维的。

步骤202,基于所述分类特征及预先训练的单词分类模型,确定各单词的类别,所述类别包括:误识别、错读、正确朗读。

具体地,依次将每个单词的声学特征、语言模型特征以及语法特征输入所述分类模型(如SVM),输出为相应单词与误识别、错读、正确朗读三种类型的似然得分,或者直接输出相应单词是否为误识别、错读、正确朗读。

所述分类模型可以通过收集大量语音信号训练得到,具体训练方式与现有技术相同,在此不再赘述。

步骤203,获取所述识别文本中以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

在确定了识别文本中各单词的类别后,即可通过计算得到识别文本中非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

需要说明的是,发音准确性特征的提取可以以句子为单位,也可以以段落、篇章等为单位,相应地,在后续对所述语音信号进行评测得分计算时,也可以是以句子、段落、或篇章为单位,对此本发明实施例不做限定。

比如,以句子为单位,特征中“非误识别单词后验概率”可以取句子中所有非误识别单词后验概率的均值、后验概率小于一定阈值的单词比例、后验概率大于一定阈值的单词比例等。各非误识别单词的后验概率为该单词包含的所有基本语音单元的后验概率的总和。

以取上述三种描述为例,发音准确性特征为一个5维的特征向量。

步骤104,根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分。

前面提到,在计算评测得分时,可以是以句子、段落、或篇章为单位,如果以句子或段落为单位,则可以将待评测篇章中所有句子或段落的评测得分取均值,作为待评测篇章的评测得分。

需要说明的是,在单独对自由朗读题型的语音信号进行发音准确性评测时,所述评测模型是针对发音准确性评测维度的发音准确性评测模型。在对所述语音信号进行多维度的综合评价时,应采用针对相应的多维度的评测模型,得到一个综合得分。

本发明实施例提供的自由朗读题型的口语评测方法,针对自由朗读题型没有标准答案的特点,对待评测语音信号先进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段,然后根据识别文本及各语音片段提取语音信号的发音准确性特征,并且针对其特点,在发音准确性特征中包括以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例,这样,排除了误识别单词的干扰,从而使最终的评测得分能够准确反映朗读者的真实水平。

在对口语进行评测时,还有一个重要指标,即口语的流畅度。所述流畅度是指朗读语句表述的通顺性,对于自由朗读题型的语音信号,本发明也相应提供一种对其进行流畅度的评测方法。

如图3所示,是本发明实施例中对自由朗读题型的口语进行流畅度评测的流程图,包括以下步骤:

步骤301,提取语音分类基本语音单元的声学特征。

所述语音分类基本单元可以是音节、单词、短语等,与语音识别时的基本语音单元相同或由其组成。所述声学特征可以是MFCC特征、PLP特征、LPC特征等其中的一种或多种,具体提取方法可采用现有技术。

步骤302,利用所述声学特征及预先构建的语音分类模型,确定所述语音信号中的增读语音和非增读语音。

所述增读语音指的是用户习惯使用的语气词(如“en”、“e”、“a”)、多余连词(如and、so)、噪声(如咳嗽声、开门声、敲桌子声等)等。

所述语音分类模型的构建过程如下:收集大量不同类型的增读语音数据,以及正常(即非增读)语音数据作为训练数据;提取所述训练数据的声学特征;模型的输入为收集的训练数据的声学特征,输出为输入语音与增读和非增读两类语音的似然得分、或者输出为输入语音是增读语音还是非增读语音。所述语音分类模型可以采用现有的训练方法(如MCE)进行训练。

步骤303,根据所述语音信号中的增读语音和非增读语音,提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速。其中,增读语音时长比例可以是增读语音时长与全部语音时长的比例,或者是增读语音时长与非增读语音时长的比例。所述平均语速可以根据所述语音信号的时长及对应的识别文本中的有效字数计算得到。所述有效字数是指识别文本中字符的个数。

步骤304,根据提取的流畅度特征及预先构建的流畅度评测模型计算所述语音信号的流畅度得分。

需要说明的是,在实际应用中,对于自由朗读题型的口语评测,可以对待评测语音信号分别基于相应的评测模型,进行发音准确性评测和流畅度评测,得到发音准确性得分和流畅度得分;如果需要,还可以根据所述发音准确性得分和流畅度得分计算(比如加权计算)所述语音信号的综合得分;也可以将所述语音信号的发音准确性特征和流畅度特征作为综合评测特征,利用相应的综合评测模型,计算所述语音信号的评测得分。综合准确性特征和流畅度特征对所述语音信号进行综合评价,可以更全面地反映朗读者的口语水平。

另外,本发明实施例的口语评测方法,还可进一步针对自由朗读题型的特点,根据识别文本提取所述语音信号的语言表达能力特征,从语言表达能力方面对朗读者进行口语评测,或者综合多种不同特征对朗读者进行口语评测,使评测结果更全面。

所述语言表达能力特征包括以下任意一种或多种特征:

(1)语义连续特征,指识别文本中每句或者每段语义是否连续。

具体的,收集大量语义连续性较好(比如可以找一些教科书、质量较高的辅助教材上出现的文章)和不好的(比如可以通过多篇文本打乱任意组合得到)文本作为训练语料,训练语义是否连续的分类模型,模型的输入为前一句和当前句的词向量或者前一段和当前段的词向量,输出为语义连续和语义不连续两类。

(2)词汇特征,包括以下任意一种或多种:所述识别文本中不重复词汇的数量、成语数量、高级词汇数量。

具体可以通过预先设定成语库、高级词汇库,再通过统计的方法得到词汇特征。

(3)文采特征,指所述识别文本中每句或者每段的文字表达是否优美。

具体可以采用深度学习的方式,将句子分为优美和不优美两类。分类模型的输入为句子向量,输出为上述分类。所述分类模型可以采用RNN(Recurrent neural Network、循环神经网络),具体训练方法与现有技术相同,在此不再赘述。

需要说明的是,在实际应用中,可以直接从所述识别文本中提取所述语音信号的语言表达能力特征;也可以先对识别文本中的误识别单词进行处理,然后再提取相应特征,即包括以下各步骤:

确定所述识别文本中的误识别单词;

对所述识别文本进行修正处理,所述修正处理包括:从所述识别文本中去除所述误识别单词、或更正所述识别文本中的误识别单词;

根据修正后的识别文本提取所述语音信号的语言表达能力特征。

在进行语言表达能力评测时,可以根据提取的语言表达能力特征及预先构建的语言表达能力评测模型计算所述语音信号的语言表达能力得分。

同样,在实际应用中,对于自由朗读题型的口语评测,可以对待评测语音信号分别基于相应的评测模型,进行发音准确性评测、流畅度评测、语言表达能力评测,得到发音准确性得分、流畅度得分;如果需要,还可以根据所述发音准确性得分、流畅度得分、以及语言表达能力得分,计算(比如加权计算)所述语音信号的综合得分;也可以将所述语音信号的发音准确性特征、流畅度特征、语言表达能力特征,作为综合评测特征,利用相应的综合评测模型,计算所述语音信号的评测得分。综合准确性特征、流畅度特征、语言表达能力特征对所述语音信号进行综合评价,可以更全面地反映朗读者的口语水平。

相应地,本发明实施例还提供一种自由朗读题型的口语评测系统,如图4所示,是该系统的一种结构示意图。

在该实施例中,所述系统包括:

接收模块401,用于接收待评测语音信号;

语音识别模块402,用于对所述语音信号进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段;

发音准确性特征提取模块403,用于根据所述识别文本及各语音片段提取所述语音信号的发音准确性特征,并将所述发音准确性特征作为所述语音信号的评测特征;所述发音准确性特征包括以下任意一种或多种:非误识别单词的后验概率、错读单词比例、正确朗读单词比例;

评测模块404,用于根据所述语音信号的评测特征及预先构建的评测模型计算所述语音信号的评测得分。

其中,所述语音识别模块402可以采用现有技术对所述语音信号进行解码,得到识别文本、语音信号中各基本语音单元及对应的语音片段序列。

在本发明实施例中,针对自由朗读题型没有标准答案、并且识别文本中可能会存在识别错误的特点,发音准确性特征提取模块403可以利用分类模型确定各单词的类别,从而排除误识别单词的干扰,由非误识别单词的后验概率、错读单词比例、正确朗读单词比例这三者中的一个或多个来表征发音准确性特征。

如图5所示,是本发明实施例中发音准确性特征提取模块的一种具体结构示意图。

在该实施例中,所述发音准确性特征提取模块包括:

分类特征获取单元51,用于根据所述识别文本及各语音片段获取所述识别文本中各单词的分类特征,所述分类特征包括以下任意一种或多种:声学特征、语言模型特征和语法特征;

单词类别确定单元52,用于基于所述分类特征及预先训练的单词分类模型,确定各单词的类别,所述类别包括:误识别、错读、正确朗读;

第一计算单元53,用于获取所述识别文本中以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例。

其中,各分类特征的含义在前面已有详细描述,其获取过程由分类特征获取单元中相应的子单元来完成,具体如下:

声学特征获取子单元,用于根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的后验概率;然后对于每个单词,计算所述单词包含的所有基本语音单元的后验概率的均值,并将该均值作为所述单词的声学特征;

语言模型特征获取子单元,用于根据所述语音片段获取所述识别文本中各单词包含的所有基本语音单元的语言模型得分;然后对于每个单词,计算所述单词包含的所有基本语音单元的语言模型得分的均值,并将该均值作为所述单词的语言模型特征;

语法特征获取子单元,用于根据语法规则对所述识别文本进行语法检错,得到检错结果;然后根据所述检错结果确定所述识别文本中各单词的语法特征。

发音准确性特征提取模块403并不仅限于上述结构,还可以有其它具体结构,比如,在另一种实施例中,可以提供利用相应的分类模型确定识别文本中误识别和非误识别的单词的功能单元、以及确定非误识别单词是错读还是正确朗读的功能单元。

需要说明的是,发音准确性特征的提取可以以句子为单位,也可以以段落、篇章等为单位,相应地,在后续对所述语音信号进行评测得分计算时,也可以是以句子、段落、或篇章为单位,对此本发明实施例不做限定。

另外,需要说明的是,在单独对自由朗读题型的语音信号进行发音准确性评测时,所述评测模型可以是针对发音准确性评测维度的发音准确性评测模型。在对所述语音信号进行多维度的综合评价时,则应采用针对相应的多维度的评测模型,得到一个综合得分。

本发明实施例提供的自由朗读题型的口语评测系统,针对自由朗读题型没有标准答案的特点,对待评测语音信号先进行语音识别,并基于识别文本的限定边界切分得到所述语音信号中各基本语音单元对应的语音片段,然后根据识别文本及各语音片段提取语音信号的发音准确性特征,并且针对其特点,在发音准确性特征中包括以下任意一种或多种特征:非误识别单词的后验概率、错读单词比例、正确朗读单词比例,这样,排除了误识别单词的干扰,从而使最终的评测得分能够准确反映朗读者的真实水平。

如图6所示,是本发明实施例自由朗读题型的口语评测系统的另一种结构示意图。

与图4所示实施例不同的是,在该实施例中,所述系统还包括:

流畅度特征提取模块405,用于提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速。

图7示出了流畅度特征提取模块的一种具体结构,包括:

声学特征提取单元71,用于提取所述语音信号中语音分类基本语音单元的声学特征,所述语音分类基本单元为音节、或单词、或短语;

语音类别确定单元72,用于利用所述声学特征及预先构建的语音分类模型,确定所述语音信号中的增读语音和非增读语音;

第二计算单元73,用于根据所述语音信号中的增读语音和非增读语音,提取所述语音信号的流畅度特征,所述流畅度特征包括以下任意一种或多种:增读语音时长比例、增读语音出现次数、平均语速。

在图4所示的实施例中,评测模块404可以将所述语音信号的发音准确性特征和流畅度特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分;也可以分别利用相应评测模型计算发音准确性得分和流畅度得分,然后再根据所述发音准确性得分和流畅度得分计算所述语音信号的评测得分,相应的具体结构包括以下各单元:

发音准确性评测单元,用于根据所述语音信号的发音准确性特征及发音准确性评测模型计算所述语音信号的发音准确性得分;

流畅度评测单元,用于根据所述语音信号的流畅度特征及流畅度评测模型计算所述语音信号的流畅度得分;

第一评测得分计算单元,用于根据所述发音准确性得分和流畅度得分计算所述语音信号的评测得分。

需要说明的是,语音分类模型可以由相应的语音分类模型构建单元构建,该单元可以独立于流畅度特征提取模块,甚至独立于本发明实施例的系统,也可以集成于流畅度特征提取模块,对此本发明实施例不做限定。

所述语音分类模型构建单元的一种具体结构可以包括以下各子单元:

训练数据收集子单元,用于收集不同类型的增读语音数据和非增读语音数据,并将收集的语音数据作为训练数据;

声学特征提取子单元,用于提取所述训练数据的声学特征;

训练子单元,用于利用所述声学特征训练得到所述语音分类模型。

如图8所示,是本发明实施例自由朗读题型的口语评测系统的另一种结构示意图。

与图6所示实施例不同的是,在该实施例中,所述系统还包括:

语言表达能力特征提取模块406,用于根据所述识别文本提取所述语音信号的语言表达能力特征,所述语言表达能力特征包括以下任意一种或多种特征:

语义连续特征,指所述识别文本中每句或者每段语义是否连续;

词汇特征,包括以下任意一种或多种:所述识别文本中不重复词汇的数量、成语数量、高级词汇数量;

文采特征,指所述识别文本中每句或者每段的文字表达是否优美。

所述评测模块,具体用于将所述语音信号的发音准确性特征、流畅度特征、以及语言表达能力特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分;或者

相应地,在图8所示的实施例中,评测模块404可以将所述语音信号的发音准确性特征、流畅度特征、以及语言表达能力特征作为综合评测特征,利用与所述综合评测特征对应的评测模型,计算所述语音信号的评测得分;也可以分别利用相应评测模型计算发音准确性得分、流畅度得分、以及语言表达能力得分,然后再根据所述发音准确性得分、流畅度得分和语言表达能力得分,计算所述语音信号的评测得分,相应的具体结构包括以下各单元:

发音准确性评测单元,用于根据所述语音信号的发音准确性特征及发音准确性评测模型计算所述语音信号的发音准确性得分;

流畅度评测单元,用于根据所述语音信号的流畅度特征及流畅度评测模型计算所述语音信号的流畅度得分;

语言表达能力评测单元,用于根据所述语音信号的语言表达能力特征及语言表达能力评测模型计算所述语音信号的语言表达能力得分;

第二评测得分计算单元,用于根据所述发音准确性得分、流畅度得分、以及语言表达能力得分,计算所述语音信号的评测得分。

需要说明的是,在实际应用中,所述语言表达能力特征提取模块406可以直接从所述识别文本中提取所述语音信号的语言表达能力特征;也可以先对识别文本中的误识别单词进行处理,然后再提取相应特征,相应地,该模块的一种实施例包括以下各单元:

识别错误确定单元,用于确定所述识别文本中的误识别单词;

修正单元,用于对所述识别文本进行修正处理,所述修正处理包括:从所述识别文本中去除所述误识别单词、或更正所述识别文本中的误识别单词;比如通过人工进行误识别纠正;

提取单元,用于根据修正后的识别文本提取所述语音信号的语言表达能力特征。

需要说明的是,上述实施例中提到的各种分类模型及评测模型,可以通过离线构建,相应的模型构建模块或单元可以是独立的物理实体,也可以是集成于本发明系统的模块或单元,对此本发明实施例不做限定。另外,在实际应用中,可以根据评测需要选择相应的模块和单元,实现发音准确性、流畅度、语言表达能力的单独评测或综合评测。由于充分考虑了自由朗读题型的特点,因此,能够得到准确的评测得分。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号