首页> 中国专利> 一种闭合式言语测听词表的设计方法与应用

一种闭合式言语测听词表的设计方法与应用

摘要

本发明公开了一种对医疗设备进行可靠性试验的系统,所述闭合式言语测听词表的设计方法包括以下步骤:(1)设定闭合式言语测听词表中包含有K张词表,每张词表内含H个测试组,测试组包括测试项和混淆项,词表的长度为H,且H为任意正整数;(2)依据简短、音位平衡、常用、覆盖何等价性的原则,编制步骤(1)中的K张词表;(3)计算闭合式言语测听词表;(4)受试者在相对安静环境下进行言语测听;(5)测试结束;(6)言语测听系统按以下步骤进行测听结果计算。

著录项

  • 公开/公告号CN106859660A

    专利类型发明专利

  • 公开/公告日2017-06-20

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201710073909.3

  • 发明设计人 吴育昊;贾珈;蔡莲红;

    申请日2017-02-10

  • 分类号A61B5/12;

  • 代理机构北京众合诚成知识产权代理有限公司;

  • 代理人张文宝

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-06-19 02:38:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-08

    授权

    授权

  • 2017-07-14

    实质审查的生效 IPC(主分类):A61B5/12 申请日:20170210

    实质审查的生效

  • 2017-06-20

    公开

    公开

说明书

技术领域

本发明涉及言语测听的技术领域,特别是涉及闭合式言语测听词表的设计方法与应用。

背景技术

汉语言语听力评估是基于受试者对声韵调、音节、词汇或语句的听辨能力,评估出受试者的听力水平。在日常生活中,音节是最基本的言语交流与理解单元,因此基于音节做言语听力评估是最常用的测听方式。

基于音节的言语听力评估,包括由音节构成的测听材料和与其对应的测听系统与测听方法,并且分为开放式与闭合式。目前汉语言语测听中多数采用开放式测听方法,较少使用闭合式。开放式言语测听中,受试者无法独立完成测听流程,需要测试人员的介入,影响言语测听的效率。闭合式言语测听由受试者与测听系统以交互形式进行,无需测试人员的辅助,受试者可以独立自主完成,这样可以提高汉语言语测听的效率,特别是测听系统在可触摸平台上运行时,测听效率将得到极大提高。

闭合式汉语言语测听方法所使用的测听词表中,混淆项的设计方法是关键技术。目前的混淆项设计,遵循音位平衡和表间等价性的原则。这种设计方法是从音素层面编制混淆项,却没有考虑各语音单元在音节层面的感知特性。且汉语言语测听中使用的测听词表,目前多通过人工编制,优质的测听词表制作周期长,很难做到全局最优。

因此希望有一种闭合式言语测听词表的设计方法与应用可以解决现有技术的上述缺陷。

发明内容

本发明的目的在于提供一种闭合式言语测听词表的设计方法与应用来解决现有技术中存在的上述问题。

为实现上述目的,本发明提供一种闭合式言语测听词表的设计方法与应用,所述闭合式言语测听词表的设计方法包括以下步骤:

(1)设定闭合式言语测听词表中包含有K张词表,每张词表内含H个测试组,测试组包括测试项和混淆项,词表的长度为H,且H为任意正整数;

(2)依据简短、音位平衡、常用、覆盖何等价性的原则,编制步骤(1)中的K张词表;

(3)计算闭合式言语测听词表;

(4)受试者在相对安静环境下进行言语测听;

(5)测试结束;

(6)言语测听系统进行测听结果计算。

优选地,所述步骤(3)计算闭合式言语测听词表包括以下具体步骤:

步骤(3.1)提取音节声学特征,获取人耳主观感知特性,调整特征向量权重系数,获得以加权声学特征描述的听觉感知距离,计算音节间的感知距离;

步骤(3.2)与测试项对应,设置混淆受试者听辨的候选项音节为混淆项,从测试项的声韵调所属的感知分类中分别提取声母、韵母和声调并组合成单音节作为候选项,并选取混淆项;

步骤(3.3)生成全局最优的测听词表。

优选地,所述步骤(3.1)计算音节间感知距离的具体步骤包括:

步骤(3.1.1),提取声母的声学特征参数包括:5维声母过零率参数ZCR、12维声母MFCC参数Mu、和21维声母Bark频带能量比率参数Bi,由此得到一个38维特征向量,作为声母的特征向量;提取韵母声学特征参数包括:9维LPC谱曲线积分作为韵母的特征向量;提取声调的声学特征参数包括:基频包络f0中均值、最小值、前置最大值、后置最大值、前置斜率和后置斜率6维向量,作为声调的感知特征向量;

步骤(3.1.2),对步骤(3.1.1)中得到的声母的声学特征参数、韵母声学特征参数和声调的声学特征参数按下式进行归一化处理:

其中,xnew是归一化处理后的包括ZCR、Mu、Bi、LPC、f0在内的各声学特征参数,xsource是归一化处理之前的声学特征参数,Xsource为同一维度i的未处理时的声学特征参数集合;

步骤(3.1.3),由声母感知特征向量C、韵母感知特征向量V、声调感知特征向量T和权重,计算单音节的声学特征感知向量:

S=αC+βV+γT(2)

其中,α,β,γ分别为声韵调的特征权重,C为包括ZCR、Mu、Bi的38维特征向量,V为9维LPC谱曲线积分系数,T为6维基频包络组成的特征向量;

步骤(3.1.4),计算任意两个单音节的声学特征感知向量的欧氏距离,作为任意两个单音节之间的感知距离:

步骤(3.1.5),计算单音节特征向量的权重系数。

优选地,所述步骤(3.2)选取混淆项的具体步骤包括:

步骤(3.2.1)对于每一个语音听感分类C(Class),类中项总数为|C|,类中各项I(Items)按照汉语拼音顺序循环排序:I1,I2,...,I|C|,I|C+1|,I|C+2|,...(I|C+1|=I1);

步骤(3.2.2),生成随机种子矩阵:

其中rsi,1、rsi,2、rsi,3分别表示第i个混淆项的声母、韵母和声调的起始选择位置(i=1,2,3)。rsi,j为[1,100]区间内的随机整数(i,j=1,2,3)。

步骤(3.2.3),计算候选项与测试项间的感知距离:

其中,Si=αCi+βVi+γTi为各混淆项的单音节特征向量,S0=αC0+βV0+γT0为该测试组内测试项的单音节特征向量;

若满足约束条件,即该测试项的混淆项计算完毕,约束条件为:

其中,pi为每个混淆项与其对应的测试项的感知距离;为pi的平均值;consMTRX为感知距离约束矩阵;ε,δ分别为两个约束标定参数。约束矩阵consMTRX从音节的感知距离角度出发,约束声母、韵母、声调组合在主观听觉特性间的差异性;ε与δ约束混淆项之间的方差;

若不满足约束条件,按以下步骤进行:

步骤(3.2.4),保持声母和声调不变,将rsj,1+1,返回步骤(3.2.2)重新确定韵母,再进行步骤(3.2.3);

步骤(3.2.5),若韵母类中遍历一遍仍选不出符合条件(存在且不重复)的备选项,则保持声调不变,将rsj,2+1,返回步骤(3.2.2)重新确定声母后继续循环执行步骤(3.2.3)至步骤(3.2.4);

步骤(3.2.6),若声韵母类中各种组合遍历一遍仍选不出符合条件的备选项,则保持声调不变,选择相邻类中的声母继续循环执行步骤(3.2.3)至步骤(3.2.5)。

优选地,所述步骤(3.1.5)计算单音节特征向量的权重系数的具体步骤包括:

步骤(3.1.5.1),单音节中声母、韵母和声调均有重要意义,α,β,γ初始赋值为一个同样的系数φ;

步骤(3.1.5.2),招募一定数量的听力水平正常的志愿者,选用已经被临床验证过的言语测听词表,设定合适的测听声强,在合适的环境下做测听实验,获取人耳主观听觉感知特性;

步骤(3.1.5.3),使用公式(2)和步骤(3.1.5.1)中的赋值,计算步骤(3.1.5.2)中测听词表内各测试项与其混淆项间的感知距离;

步骤(3.1.5.4),分析步骤(3.1.5.2)中所得实验结果,统计受试者误听的测试项与其混淆项具体内容;

步骤(3.1.5.5),感知距离描述音节间区分程度,距离越远越易区分,因此距离越远混淆概率越低,对比步骤(3.1.5.3)中所得感知距离与步骤(3.1.5.4)中所得误听情况,计算其中误听项与其测试项的感知距离,以及该项误听项被误听的概率,统计两者不成反比的项目总数,记为E;

步骤(3.1.5.6),计算步骤(3.1.5.5)中所得项目总数E中,声母混淆占有项数A,及其比例a=A/E,韵母混淆占有项数B,及其比例b=B/E,声调混淆占有项C,及其比例c=C/E;

步骤(3.1.5.7),调整α,β,γ,使得满足:

即:

由此,得到代表单音节特征向量的加权矢量,继而得到音节间感知距离。

优选地,所述约束矩阵A依次按照以下步骤获取:

步骤(3.2.6.1),对步骤(3.2.1)中每一个听感分类,计算其类内各声母、韵母、声调间的感知距离,并计算其平均值;

步骤(3.2.6.2),计算步骤(3.2.1)中每两个听感分类间各声母、韵母、声调的感知距离,并取其平均值作为对应两个听感分类间的感知距离;

步骤(3.2.6.3),对每一个声母、韵母听感分类,该类的约束值初始赋值为步骤(3.2.6.1)中所得类内平均距离与步骤(3.2.6.2)中所得类间平均距离的线性关系拟合结果;对每一个声调的约束值初始赋值为

步骤(3.2.6.4),将声母、韵母、声调的听感分类约束值的初始赋值代入步骤(3.1.3)中单音节感知加权矢量公式中,计算出不同听感分类(声韵调)搭配所对应的约束值,组成初始约束矩阵A;

步骤(3.2.6.5),使用初始约束矩阵A,计算混淆项,构成校正测听词表;

步骤(3.2.6.6),对比步骤(3.2.6.5)中所得词表与已被临床验证的测听词表,分析两者在混淆项中声母、韵母、声调混淆所占比例;

步骤(3.2.6.7),调整步骤(3.2.6.3)中的线性关系与重复步骤(3.2.6.4)至步骤(3.2.6.6),使得步骤(3.2.6.6)中两者比例一致,各测试项的混淆项计算完毕。

优选地,所述步骤(3.3)生成全局最优的测听词表具体包括以下步骤:

步骤(3.3.1),计算步骤(3.2)中所得每个测试组的感知距离平均值记为Pj,计算方法如步骤(3.2.3)所述:

其中,pi为各混淆项与测试项间的感知距离,i为每个测试组中混淆项个数;

步骤(3.3.2),计算步骤(3.3.1)中所得Pj的平均值:

其中,H为词表长度,即此表内测试组的个数;

步骤(3.3.3),设定步骤(3.2)中所得单张词表内各测试组感知距离之间差值阈值ΔPj≤ε',其中,ε'为约束参数;

步骤(3.3.4),比较步骤(3.3.1)中所得各组Pj,与步骤(3.3.2)中所得若ΔPj≤ε',则不必对该测试组进行调整,否则:

则删掉该测试组中Pj较小的混淆项,用步骤(3.2)计算替换项;

则删掉该测试组中Pj较大的混淆项,用步骤(3.2)计算替换项;

步骤(3.3.5),设定各词表的平均感知距离PDk为各测试组平均距离的平均值:

步骤(3.3.6),计算词表集的感知距离平均值:

其中,K为词表集内词表的张数;

步骤(3.3.7),设定步骤(3.2)中所得词表每两张词表间感知距离差值阈值为其中,ε"为约束参数;

步骤(3.3.8),比较步骤(3.3.5)中所得各组PDk,与步骤(3.3.6)中所得则不必对该词表进行调整,否则:

则删掉该词表中PDk较小的测试组混淆项,用步骤(3.2)计算替换项;

则删掉该词表中PDk较大的测试组混淆项,用步骤(3.2)计算替换项;

步骤(3.3.9),重复执行步骤(3.3.8),直至步骤(3.3.8)中各词表感知距离平均值与词表集感知距离平均值之差小于预先设定的阈值ε",从而计算出一个全局最优的闭合式测听词表;

至此,全局最优的闭合式汉语言语测听词表已经构建完毕。

优选地,所述步骤(4)的受试者在相对安静环境下进行言语测听具体包括以下步骤:

步骤(4.1),选定言语测听运行的系统平台,选定闭合式言语测听系统,并将步骤(1)至步骤(3)的闭合式言语测听词表自动生成算法嵌入至该系统;

步骤(4.2),系统根据步骤(4.1)中所得,生成一套闭合式言语测听词表,以及与其对应的测试项语音文件;

步骤(4.3),由受试者选择信号声强,系统随机选择一张词表;

步骤(4.4),若该词表内所有测试组都已经被测试过,则转步骤(4.3),否则随机选择词表内一个未测组进行测试,并标记该组为已测;

步骤(4.5),言语测听系统向受试者播放一个测试项,同时在可视化界面上向受试者展示该测试项所在的测试组(测试项+混淆项);

步骤(4.6),受试者根据每一个信号音,从由测试项和混淆项组成的一个测试组中选出自己判断的单音节,作为测听反馈;

步骤(4.7),系统自动记录受试者的反馈,记录信息包括听辨正误,测试项声母、韵母、声调,以及受试者选择项目的声母、韵母、声调;

步骤(4.8),循环重复步骤(4.5)至步骤(4.7),直至测试集中测试项均测试完毕。

优选地,所述步骤(6)言语测听系统进行测听结果计算具体包括以下步骤:

步骤(6.1),将步骤(4)中得到的测听反馈信息,即受试者选择的单音节,与词表中的测试项做对比;

步骤(6.2),计算步骤(6.1)中声母测听正确项数,记为RC,韵母测听正确项数,记为RV,声调测听正确项数,记为RT

步骤(6.3),计算测听积分R:

其中,α,β,γ为步骤(3.1)中单音节感知向量的权重系数,由此可得此次听力测试的评估结果。

本发明提出了一种闭合式言语测听词表的设计方法与应用,所述闭合式言语测听词表的设计方法与应用具有以下技术效果:

1)构建言语信号的声学特征与人耳主观感知特性之间的可计算模型,提出音节层面的感知距离计算方法;

2)基于感知距离计算闭合式测听中混淆项,从音节层面度量各候选项间的听感关系,使测听词表具有更高的等价性;

3)闭合式言语测听词表自动生成算法,自动实现测听词表的全局最优,具有更高的效率、测试信度与等价性;

4)汉语言语测听系统的测试方法可自动生成闭合式测听词表,并设计了一套基于多维特征的计分规则,能提高测试结果的信度。

所述闭合式言语测听词表的设计方法与应用克服了已有言语测听中测试周期与词表长度之间难以平衡的矛盾以及测试信度偏低的缺陷,同时通过评估词表清晰度及测听过程中受试者对混淆项的判断,提高测试结果的信度。

附图说明

图1是本发明实施例的计算机系统结构示意图。

图2是本发明实施例的闭合式测听词表的计算流程图。

图3是本发明实施例的音节间感知距离计算流程图。

图4是本发明实施例的混淆项选取流程图。

图5是本发明实施例的闭合式言语测听流程。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。

如图1所示,计算机系统包括中央处理器(CPU)、视频图像显示设备、声音输出设备,也包括点击/触摸采集设备。实施本发明的软件存储在内存中,CPU可以对内存进行存取,并进行相应的指令,以获得本发明的实施结果。

如图2所示,一种闭合式测听词表计算流程,输入为单音节,输出即为全局最优的闭合式测听词表,步骤包括:

步骤(1),设定一套词表中含有20张词表,每张词表内含20个测试组(1个测试项+3个混淆项),亦即,词表长度为20;

步骤(2),按照已有技术[1],依据简短、音位平衡、常用、覆盖、等价性等原则,编制20张词表中的20个测试项;

步骤(3),依次按以下步骤计算闭合式测听词表:

步骤(3.1),依次按以下步骤计算音节间的感知距离:

步骤(3.1.1),提取声母声学特征参数:声母过零率参数ZCR(5维)、声母MFCC参数M(12维)、以及声母Bark频带能量比率参数B(21维)。由此得到一个38维特征向量,作为声母的特征向量;提取韵母声学特征参数:LPC谱曲线积分(9维),作为韵母的特征向量;提取声调的声学特征参数:基频包络f0中均值、最小值、前置最大值、后置最大值、前置斜率、后置斜率6维向量,作为声调的感知特征向量;

步骤(3.1.2),对步骤(3.1.1)中得到的声学特征参数按下式进行归一化处理:

其中,xnew是归一化处理后的包括ZCR、Mu、Bi、LPC、f0在内的各声学特征参数,xsource是归一化处理之前的声学特征参数,Xsource为同一维度i的未处理时的声学特征参数集合;

步骤(3.1.3),由声母感知特征向量C,韵母感知特征向量V,声调感知特征向量T,以及权重,计算单音节的声学特征感知向量:

S=αC+βV+γT

其中,α,β,γ分别为声韵调的特征权重。α=0.1,β=0.65,γ=0.25。C为包括ZCR、Mu、Bi在内的38维特征向量;V为9维LPC谱曲线积分系数;T为6维基频包络组成的特征向量。

步骤(3.1.4),计算任意两个单音节的声学特征感知向量的欧氏距离,作为任意两个单音节之间的感知距离:

步骤(3.2),从测试项的声韵调所属的感知分类中,分别提取声母、韵母、声调并组合成单音节,作为候选项,计算出混淆项,流程如图3所示:

步骤(3.2.1),对于每一个语音听感分类C(Class),类中项总数为|C|,类中各项I(Items)按照汉语拼音顺序循环排序:I1,I2,...,I|C|,I|C+1|,I|C+2|,...(I|C+1|=I1);

步骤(3.2.2),生成随机种子矩阵:

其中rsi,1、rsi,2、rsi,3分别表示第i个混淆项的声母、韵母、声调的起始选位置(i=1,2,3)。rsi,j为[1,100]区间内的随机整数(i,j=1,2,3)。

步骤(3.2.3),计算候选项与测试项间的感知距离:

其中,Si=αCi+βVi+γTi为各混淆项的单音节特征向量,S0=αC0+βV0+γT0为该测试组内测试项的单音节特征向量;

若满足约束条件,即该测试项的混淆项计算完毕,约束条件为:

其中,pi为每个混淆项与其对应的测试项的感知距离;为pi的平均值;consMTRX为感知距离约束矩阵;ε=0.1,δ=0.1。约束矩阵consMTRX详见下表。

若不满足约束条件,按以下步骤进行:

步骤(3.2.4),保持声母和声调不变,将rsj,1+1,返回步骤(3.2.2)重新确定韵母,再进行步骤(3.2.3);

步骤(3.2.5),若韵母类中遍历一遍仍选不出符合条件(存在且不重复)的备选项,则保持声调不变,将rsi,2+1,返回步骤(3.2.2)重新确定声母后继续循环执行步骤(3.2.3)至步骤(3.2.4);

步骤(3.2.6),若声韵母类中各种组合遍历一遍仍选不出符合条件的备选项,则保持声调不变,选择相邻类中的声母继续循环执行步骤(3.2.3)至步骤(3.2.5)。

至此,各测试项的混淆项计算完毕;

步骤(3.3),依次按照以下步骤生成全局最优的测听词表:

步骤(3.3.1),计算步骤(3.2)中所得每个测试组的感知距离平均值记为Pj,计算方法如步骤(3.2.3)所述:

其中,pi为各混淆项与测试项间的感知距离,i=3为每个测试组中混淆项个数;

步骤(3.3.2),计算步骤(3.3.1)中所得Pj的平均值:

其中,H=20为词表长度,即此表内测试组的个数;

步骤(3.3.3),设定步骤(3.2)中所得单张词表内各测试组感知距离之间差值阈值ΔPj≤ε',其中,ε'=0.1为约束参数;

步骤(3.3.4),比较步骤(3.3.1)中所得各组Pj,与步骤(3.3.2)中所得若ΔPj≤ε',则不必对该测试组进行调整,否则:

则删掉该测试组中Pj较小的混淆项,用步骤(3.2)计算替换项;

则删掉该测试组中Pj较大的混淆项,用步骤(3.2)计算替换项;

步骤(3.3.5),设定各词表的平均感知距离PDk为各测试组平均距离的平均值:

其中,H=20为词表长度;

步骤(3.3.6),计算词表集的感知距离平均值:

其中,K=20为词表集内词表的张数;

步骤(3.3.7),设定步骤(3.2)中所得词表每两张词表间感知距离差值阈值为其中,ε"=0.1为约束参数;

步骤(3.3.8),比较步骤(3.3.5)中所得各组PDk,与步骤(3.3.6)中所得则不必对该词表进行调整,否则:

则删掉该词表中PDk较小的测试组混淆项,用步骤(3.2)计算替换项;

则删掉该词表中PDk较大的测试组混淆项,用步骤(3.2)计算替换项;

步骤(3.3.9),重复执行步骤(3.3.8),直至步骤(3.3.8)中各词表感知距离平均值与词表集感知距离平均值之差小于预先设定的阈值ε",从而计算出一个全局最优的闭合式测听词表;

至此,全局最优的闭合式汉语言语测听词表已经构建完毕;

步骤(4),受试者在相对安静环境下按以下步骤进行言语测听,流程如图5所示:

步骤(4.1),选定言语测听运行的系统平台为iPad2,选定闭合式言语测听系统为“汉语言语测听系统”,并将步骤(1)至步骤(3)的闭合式言语测听词表自动生成算法潜入至该系统;

步骤(4.2),系统根据步骤(4.1)中所得,生成一套闭合式言语测听词表,以及与其对应的测试项语音文件;

步骤(4.3),由受试者选择信号声强,系统随机选择一张词表;

步骤(4.4),若该词表内所有测试组都已经被测试过,则转步骤(4.3),否则随机选择词表内一个未测组进行测试,并标记该组为已测;

步骤(4.5),言语测听系统向受试者播放一个测试项,同时在可视化界面上向受试者展示该测试项所在的测试组(测试项+混淆项);

步骤(4.6),受试者根据每一个信号音,从由测试项和混淆项组成的一个测试组中选出自己判断的单音节,作为测听反馈;

步骤(4.7),系统自动记录受试者的反馈,记录信息包括听辨正误,测试项声母、韵母、声调,以及受试者选择项目的声母、韵母、声调;

步骤(4.8),循环重复步骤(4.5)至步骤(4.7),直至测试集中测试项均测试完毕;

步骤(5),测试结束;

步骤(6),言语测听系统按以下步骤进行测听结果计算:

步骤(6.1),将步骤(4)中得到的测听反馈信息,即受试者选择的单音节,与词表中的测试项做对比;

步骤(6.2),计算步骤(6.1)中声母测听正确项数,记为RC,韵母测听正确项数,记为RV,声调测听正确项数,记为RT

步骤(6.3),计算测听积分R:

其中,α,β,γ为步骤(3.1)中单音节感知向量的权重系数,即α=0.1,β=0.65,γ=0.25,由此可得此次听力测试的评估结果;

至此,本发明中闭合式汉语言语测听词表的应用已经构建完毕。

最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号