首页> 中国专利> 说话人验证方法、说话人验证的准备方法及电子装置

说话人验证方法、说话人验证的准备方法及电子装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种说话人验证方法、说话人验证的准备方法及电子装置，所述电子装置包含：边信息撷取器、说话人验证器以及消息产生器。边信息撷取器用于撷取边信息；说话人验证器用于执行使用语音数据与训练过的说话人模型的说话人验证，其中所述语音数据代表使用者做出的讲话；以及消息产生器耦接于边信息撷取器及说话人验证器，用于基于边信息与说话人验证器提供的验证结果为使用者产生反馈消息。以上所述的说话人验证方法、说话人验证的准备方法及电子装置能够提供更有意义的反馈消息，从而提升了使用者体验。

著录项

公开/公告号CN103390406A

专利类型发明专利
公开/公告日2013-11-13

原文格式PDF
申请/专利权人联发科技股份有限公司;
展开▼

申请/专利号CN201210537148.X
发明设计人孙良哲;郑尧文;
展开▼

申请日2012-12-12
分类号G10L17/00;
代理机构北京万慧达知识产权代理有限公司;
代理人于淼
地址中国台湾新竹科学工业园区新竹市笃行一路一号
入库时间 2024-02-19 20:56:53

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-24

授权

授权
2013-12-04

实质审查的生效 IPC(主分类):G10L17/00 申请日:20121212

实质审查的生效
2013-11-13

公开

公开

说明书

技术领域

本发明有关于说话人验证（speaker authentication），且特别有关于一种基于额外撷取的边信息（side information）产生反馈消息的说话人验证方法、说话人验证的准备方法及电子装置。

背景技术

在决定授予使用权之前，电子装置可以应用生物特征验证（biometric authentication）技术来核实使用者的身份。一般来说，在核实完使用者的身份之后，传统的电子装置有两种选择：一是授予使用权并以固定的问候消息（greeting message）回应；二是拒绝授予使用权并以固定的失败消息回应（fail message）。这些固定的问候消息/失败消息对于使用者来说并非十分有帮助。

举例来说，若使用者是电子装置的真正拥有者，但其被电子装置拒绝了几次，则所述使用者可能认为电子装置所具有的生物特征验证功能并不好用。在没有了解所述错误拒绝背后的潜在原因的状况下，所述使用者可能会禁用电子装置的生物特征验证功能，从而放弃这一功能潜在的好处。

发明内容

有鉴于此，特提供以下技术方案：

本发明的实施方式提供一种说话人验证的准备方法，包含：接收语音数据，所述语音数据代表使用者做出的讲话；撷取边信息；检查该边信息，以决定是否允许使用语音数据的说话人模型训练；以及若使用语音数据的说话人模型训练不被允许，则基于边信息为使用者产生反馈消息。

本发明的实施方式另提供一种说话人验证方法，包含：接收语音数据，所述语音数据代表使用者做出的讲话；撷取边信息；执行使用语音数据与训练过的说话人模型的说话人验证；以及基于边信息及说话人验证的结果为使用者产生反馈消息。

本发明的实施方式另提供一种电子装置，包含：边信息撷取器、说话人模型产生器以及消息产生器。边信息撷取器用于撷取边信息并检查边信息以决定是否允许使用语音数据的说话人模型训练，其中所述语音数据代表使用者做出的讲话；说话人模型产生器耦接于边信息撷取器，用于在边信息撷取器允许使用语音数据的说话人模型训练时对使用语音数据的说话人模型进行训练；以及消息产生器耦接于边信息撷取器，用于在边信息撷取器不允许使用语音数据的说话人模型训练时基于边信息为使用者产生反馈消息。

本发明的实施方式另提供一种电子装置，包含：边信息撷取器、说话人验证器以及消息产生器。边信息撷取器用于撷取边信息；说话人验证器用于执行使用语音数据与训练过的说话人模型的说话人验证，其中所述语音数据代表使用者做出的讲话；以及消息产生器耦接于边信息撷取器及说话人验证器，用于基于边信息与说话人验证器提供的验证结果为使用者产生反馈消息。

以上所述的说话人验证方法、说话人验证的准备方法及电子装置，能够提供更有意义的反馈消息，从而提升了使用者体验。

附图说明

图1是根据本发明实施例的电子装置的简化示意图。

图2是根据本发明实施例的另一电子装置的简化示意图。

图3是根据本发明实施例的图1或图2中边信息撷取器的简化示意图。

图4是根据本发明实施例的说话人验证的准备方法的简化流程图。

图5是根据本发明实施例的说话人验证方法的简化流程图。

具体实施方式

在说明书及权利要求书当中使用了某些词汇来指称特定的元件。所属技术领域的技术人员应可理解，硬件制造商可能会用不同的名词来称呼同一个元件。本说明书及权利要求书并不以名称的差异作为区分元件的方式，而是以元件在功能上的差异作为区分的准则。在通篇说明书及权利要求项中所提及的「包含」为一开放式的用语，故应解释成「包含但不限定于」。此外，「耦接」一词在此包含任何直接及间接的电气连接手段。因此，若文中描述第一装置耦接于第二装置，则代表第一装置可直接电气连接于第二装置，或透过其它装置或连接手段间接地电气连接至第二装置。

电子装置可利用说话人验证功能来确认其使用者是授权使用者（authorized person）或者非法使用者（impostor）。一般来说，这一功能需要授权使用者先在准备阶段（preparation phase）训练一种说话人模型（speaker model）。接着，在测试阶段（testing phase），电子装置可利用授权使用者特定的训练过的说话人模型来验证试图使用电子装置的人是否是授权使用者。通常来说，在所述准备/测试阶段，传统的电子装置并不会尝试收集与当前环境（current environment）、说话人情绪（emotion）/健康状况（health condition）或最近的事件（recent events）相关的边信息，更不用说利用所述的边信息在所述准备/测试阶段提升使用者体验（user experience）。

图1是根据本发明实施例的电子装置100的简化示意图。举例来说，电子装置100可以是使用者设备（user equipment）的一部分，且可能具有将使用者做出的讲话（utterance）转换成语音数据（speech data）的功能，而所述使用者设备可以是智能手机（smart phone）、平板电脑（tablet computer）、或者智能电视（smart television），但不仅限于此。于另一实施例中，电子装置100可以是提供云计算服务（cloud computing service）的云（cloud）中的一部分，且能够接收代表使用者对使用者设备的一部分所作出的讲话的语音数据。

如图1所示，电子装置100包含边信息撷取器（side information extractor） 120、说话人模型产生器（speaker model generator）130、说话人验证器（speaker authenticator）140、以及消息产生器（message generator）150，但其并非限定于此，电子装置110亦可包含其他组件，为简单起见，图中并未画出。边信息撷取器120负责撷取边信息，所述边信息可揭示下述信息中的一个或者其任意组合：产生语音数据的环境、做出讲话（由所述语音数据代表）的人的健康状况、做出讲话的人的情绪、以及做出讲话的人最近的事件。边信息撷取器120更进一步负责在准备阶段使能/禁能说话人模型产生器130。

图2是根据本发明实施例的另一电子装置200的简化示意图。图2中的电子装置200与图1中的电子装置100非常近似，其区别之一在于图2中的边信息撷取器120是从与语音数据无关的边数据（side data）中撷取边信息，而图1 中的边信息撷取器120则是从语音数据中撷取边信息。举例来说，所述边数据可与下述的一个或其任意组合相关，或者由下述的一个或其任意组合提供：日程表（calendar）、时间表（schedule）、闹钟（alarm clock）、定位模块（positioning module）以及天气应用（weather application）。

图3是根据本发明实施例的图1或图2中边信息撷取器120的简化示意图。如图3所示，边信息撷取器120包含特征撷取器（feature extractor）122、分类器（classifier）124、以及决定模块（decision module）126。简单来说，特征撷取器122负责从语音数据/边数据中撷取特征，分类器124负责将撷取的特征分类，而决定模块126则负责基于分类结果产生边信息，并基于所述边信息使能/ 禁能说话人模型产生器130。与另外一些实施例中，决定模块126的部分或者全部功能可由消息产生器150来执行。举例来说，决定模块126可基于分类结果产生边信息，并让消息产生器150来决定是否使能/禁能说话人模型产生器130。

电子装置100/200至少具有一个准备阶段及一个测试阶段。图4是根据本发明实施例的说话人验证的准备方法的简化流程图，所述方法由电子装置100/200 于准备阶段中执行。首先，于步骤410中，说话人模型产生器130接收代表使用者做出的讲话的语音数据，所述使用者可能是授权使用者。

接着，于步骤420中，边信息撷取器120撷取边信息。所述边信息可从语音数据或者边数据中撷取，且可揭示做出所述讲话的环境信息。例如，边信息可与所述讲话的语言内容（verbal content）无关。

步骤420可被分为三个子步骤。于步骤420的第一子步骤中，特征撷取器 122从语音数据/边数据中撷取特征。举例来说，若特征撷取器122接收语音数据作为其输入，则所述特征可能包含频谱特征（spectral features）、韵律特征（prosodic features）、时空特征（spectro-temporal feature）、以及其他特征。其中，所述频谱特征可例如：美尔频率倒谱系数（Mel-Frequency Cepstral Coefficients， MFCC）、感知线性预测（Perceptual Linear Prediction，PLP）、线谱对子（Line Spectral Pairs，LSP）、以及线性预测倒谱系数（Linear Prediction Cepstral Coefficients，LPCC）；所述韵律特征可例如：音高（pitch）、音高差（delta-pitch）、共振峰（formant）、以及声道（vocal tract）相关特征；所述时空特征可例如：伽柏特征（Gabor features）、相对谱（RelAtive SpecTrA，RASTA）、时域样式（temporal pattern）、以及说话语速（speaking rate）；而所述其他特征可例如信噪比（Signal-to-Noise Ratio，SNR）。若特征撷取器122接收边数据作为其输入，则所述特征可与边数据中包含的某些最近的事件/计划/任务或者某些最近的位置信息相关。

接着，于步骤420的第二个子步骤中，分类器124对特征撷取器122提供的特征进行分类。在所述过程中，分类器124可使用下述的一个或者其任意组合：高斯混合模型（Gaussian Mixture Model，GMM）、隐马尔可夫模型（Hidden Markov Model，HMM）、神经网络（Neural net）/多层感知（Multi-Layer Perceptron， MLP）、支持向量机（Support Vector Machine，SVM）、随机森林（Random Forest）、决策树（Decision Tree）、条件随机场（Conditional Random Field，CRF）、自适应增强（Adaboost）以及其他。于另一实施例，分类器124可使用预训练模型（pre-trained model）来执行分类。

接着，于步骤420的第三个子步骤中，决定模块126基于所述分类的结果产生边信息。于一实施中，特征撷取器122、分类器124以及决定模块126作为一个整体来运作，以实现环境侦测器的功能，且所述边信息可揭示使用者做出所述讲话的环境的细节。例如，边信息可能表示环境是否嘈杂/安静、刮风/下雨、或者是室外/室内等等，也可能更具体地表示所述环境是否像是或位于饭店、体育场、或者火车站等等。

于另一实施例中，边信息撷取器120可作为健康侦测器来侦测做出所述讲话的使用者的健康状况。举例来说，边信息可表示使用者是否咳嗽、鼻塞（snuffling）或者流鼻涕，或者表示使用者是否生病了（因为日程表上有最近的医生预约）。于另一实施例中，边信息撷取器120可作为情绪侦测器来侦测做出所述讲话的使用者的情绪。举例来说，边信息可表示使用者是否高兴、愤怒、或者悲伤。于另一实施例中，边信息撷取器120可作为事件侦测器来侦测使用者最近的事件。

接着，于步骤430中，决定模块126检查所述边信息以决定所述语音数据是否适合说话人模型训练。若适合，则电子装置100/200进入步骤440，若不适合，则电子装置100/200转至步骤450。

理想状态下，若做出所述讲话时使用者是冷静、健康状况良好的，且环境是安静的，则所述语音数据将适合说话人模型训练。若电子装置100/200利用不适合的语音数据来进行说话人模型训练，则会导致训练后的说话人模型成为劣质的，且无法在后续的测试阶段正常使用。举例来说，基于不适当语音数据产生的训练后的说话人模型将在测试阶段导致更多的错误拒绝/通过。因此，步骤 430像是守门人（gate keeper），用来保证电子装置100/200以适合的语音数据来执行说话人模型训练。

举例来说，若边信息提示下述事实中的一个或其任意组合，电子装置100/200 可通过从步骤430直接进入步骤450来决定不训练所述说话人模型，所述事实包含：讲话是在室外/嘈杂的/刮风的/下雨的环境作出的，具有太多噪音；讲话（可能包含私人/敏感信息）是在可被他人无意中听到的环境（例如饭店）作出的；以及使用者不健康/冷静，从而讲话是以使用者非正常的声音作出的。

于步骤440中，决定模块126允许/使能说话人模型产生器130训练使用所述语音数据的说话人模型。若说话人模型产生器130成功地完成了训练过程，则说话人模型产生器130可将训练后的说话人模型传送至说话人验证器140。

于步骤450中，决定模块126不允许进行说话人模型训练（例如，禁能说话人模型产生器130），且消息产生器150基于所述边信息为使用者产生反馈消息。举例来说，电子装置100/200可以可视化地显示产生的反馈消息，或将反馈消息作为声音来播放，以让使用者可以看到/听到反馈消息的内容。所产生的反馈消息有助于使用者理解为何所述语音数据不适合说话人模型训练，从而防止使用者误解电子装置100/200所具有的说话人验证功能的可靠性及品质。

举例来说，基于所述边信息，消息产生器150可从一组为各种状况准备的候选消息中选出一条消息以作为反馈消息。这组全面的候选消息可包含以下范例候选消息：

“环境嘈杂，建议在安静的环境执行说话人模型训练。（It’s noisy here.It’s advised that you perform speaker model training at a quiet place.）”

“此处人多，若于此处执行说话人模型训练，其他人可能无意间得知您的私人/敏感信息。（This place seems crowded with people.If you perform speaker model training here,other people may overhear your private/sensitive information.）”

“您今天似乎生病了，建议您康复后再执行说话人模型训练，届时您的声音将更稳定。（You sound ill today.It’s advised that you perform speaker model training after restoring from illness.Your voice should be more stable then.）”

“您处于愤怒状态。请于冷静且具有稳定声音状态时执行说话人模型训练。（You sound angry.Maybe you should perform speaker model training when you're calm and have stable voice.）”

“日程表显示您不久将有一次预约，请下次再执行说话人模型训练。（The calendar indicates that you’re going to have an appointment soon.Maybe you should perform speaker model training next time.）”

以上候选消息中的每一条都向使用者解释了为何在当前环境下不适合进行说话人模型训练的潜在原因，从而比传统的电子装置不依赖于边信息而回应的固定的预设消息更有意义。消息产生器150使用的这组全面的候选消息可提升使用者体验，并防止使用者不当地指责说话人验证功能。

在电子装置100/200于步骤440中为使用者产生训练后的说话人模型后，可再允许电子装置100/200自身或使用者对验证阈值（authentication threshold）进行调整。举例来说，电子装置100/200可以先依据使用者的指令调整验证阈值。接着，电子装置100/200可利用调整后的验证阈值来执行说话人验证测试，以决定是否保留所述调整后的验证阈值。若说话人验证测试表明调整后的验证阈值具有过高的错误拒绝的风险，则电子装置100/200可决定不保留所述调整过的验证阈值，并建议使用者不要把验证阈值设置的这么高。若说话人验证测试表明调整后的验证阈值具有过高的错误通过的风险，则电子装置100/200可决定不保留所述的调整后的验证阈值，并建议使用者不要把验证阈值设置的这么低。

如上所述，电子装置100/200还具有一个测试阶段。图5是根据本发明实施例的说话人验证方法的简化流程图，所述方法由电子装置100/200于测试阶段执行。首先，于步骤510中，说话人验证器140接收代表使用者做出的讲话的语音数据。虽然步骤510类似与步骤410，但于步骤510中，电子装置100/200并不确定此时的使用是否是训练后的说话人模型所对应的授权使用者。此外，步骤510发生在使用者想要打开电子装置100/200或解除电子装置100/200锁定，或者想要通过使用电子装置100/200来获取某些私人/敏感信息的时候。

于步骤520中，边信息撷取器120为使用者撷取边信息。由于步骤520与上面详述过的步骤420非常相似，为简单起见，其详细描述于此处省略。

于步骤530中，说话人验证器140使用所述语音数据与所述训练过的说话人模型来执行说话人验证。若使用者通过了验证，则电子装置100/200执行步骤 540；若使用者未通过验证（验证失败），则电子装置100/200执行步骤550。

举例来说，于步骤530中，说话人验证器140可产生一个分数（score），以表示所述语音数据与所述训练后的说话人模型的相似程度。分数越高，则表明做出所述讲话的使用者与所述训练后的说话人模型对应的授权使用者的相似程度越高。若分数位于第一范围，例如，所述第一范围包含的分数超过授权阈值，则电子装置100/200执行步骤540以将使用权授予使用者。若分数位于第二范围，例如，所述第二范围包含的分数等于或低于授权阈值，则电子装置100/200执行步骤550以拒绝将使用权授予使用者。

于步骤530中，电子装置100/200做出决定时不仅可依据语音数据及训练后的说话人模型，还可以依据边信息。举例来说，若边信息表明使用者处于嘈杂的环境中，则电子装置100/200可于步骤530中做出以下动作中的一种或者其任意组合以避免错误拒绝，所述动作包含：设置更低的验证阈值，更有力地抑制噪音，以及使分类器124作为噪音分类器（noisy classifier）。于另一实施例中，若边信息表明使用者处于愤怒中，则电子装置100/200可于步骤530中做出以下动作中的一种或者其任意组合以避免错误拒绝，所述动作包含：给予音高相关的特征更高的信任分数；以及使语音数据中与音高相关的特征正规化（normalization）。

于步骤530之后，电子装置100/200可基于边信息与验证结果为使用者产生反馈消息。具体来说，若验证结果显示使用者通过了验证，则电子装置100/200 于步骤540中将使用权授予使用者，并基于边信息为使用者产生问候消息（反馈消息）。举例来说，电子装置100/200可以可视化地显示产生的反馈消息，或将反馈消息作为声音来播放，以让使用者可以看到/听到反馈消息的内容。

为了使反馈给使用者的响应包含更有用的信息，于步骤540中消息产生器 150可基于边信息从包含多个候选问候消息的消息组中选择反馈消息。以下是包含多个候选问候消息的全面的消息组中包含的用于各种状况的范例候选问候消息：

“欢迎您！今天天气不好，请小心不要感冒。（Welcome.The weather doesn’t sound good.Be careful not to catch a cold.）”

“早上好/日安/晚上好（Good morning/day/evening.）”

“今天是个好天气，祝您好运。（Today is a sunny day.Good luck.）”

“很高兴再见到您，不要忘记1点钟的预约。（Good to see you again.Don’t forget your appointment at one o’clock.）”

“今天的午餐怎么样？（How about the lunch today?）”

“请您在电影院保持安静。（Please be quite when you are in a movie theater.）”

“祝您在运动场玩的开心。（Have fun at this playground.）”

“您似乎病了，需要帮您预约一位医生吗？（You sound ill.Should I make a doctor’s appointment for you?）”

“别伤心，所有事情都会好起来的。（Don’t be sad.Everything will be fine.）”

“别生气，请保持冷静。（Don’t be angry.Please calm down.）”

对于使用者来说，相比于传统装置会响应的、不依赖于边信息且千篇一律的预定消息，这些候选的问候消息更有意义。这些候选的问候消息能够提升使用者体验。

于步骤550中，电子装置100/200拒绝将使用权授予使用者，并基于边信息为使用者产生反馈消息。举例来说，电子装置100/200可以可视化地显示产生的反馈消息，或将反馈消息作为声音来播放，以让使用者可以看到/听到反馈消息的内容。

为了使给使用者的响应包含更有用的信息，于步骤550中消息产生器150 可基于边信息从包含多个候选失败消息的消息组中选择反馈消息。以下是包含多个候选失败消息的全面的消息组中包含的用于各种状况的范例候选失败消息：

“您的声音太小了，请大声点讲话。（Your voice is too low.Please speak louder.）”

“您似乎生病了，这可能是您的声音未通过验证测试的原因。（You sound ill. Maybe that’s why your voice didn’t pass the authentication test.）”

“此处嘈杂，请靠近麦克风说话，或使用触摸屏来解锁。（It’s noisy here.Please consider speaking closer to the microphone or using the touchscreen to unlock.）”

“您似乎过于激动，请在冷静时再次尝试。（You soundtoo agitated.Please try again when you are calm.）”

“此处人多，请小心，别让其他人听到您的密码。（This place seems to be crowded with people.Be careful not to let others overhear your password.）”

即使使用者没有通过验证，若所得分数在第三范围，例如，所述第三范围包含的分数在验证阈值与验证阈值减去一个小幅度数值（small margin）之间，则电子装置100/200可应用“贯序检测（sequential test）”的概念，并给予使用者另一次测试的机会。举例来说，电子装置100/200可先于步骤550中产生失败消息以鼓励使用者再次尝试。于第二次测试之后，电子装置100/200可基于使用者两次测试分数的平均值来决定是否将使用权授予使用者。

对于使用者来说，相比于传统装置会响应的、不依赖于边信息且千篇一律的预定消息（例如，“拒绝授权（access denied）”），这些候选的消息更有意义。在此状况下，即使使用者被电子装置100/200错误地拒绝，他/她也会了解失败的潜在原因，而不会偏颇地指责使用者验证功能。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 说话人验证方法、说话人验证的准备方法及电子装置 [P] . 中国专利： CN103390406B . 2016.08.24
2. 说话人认证的验证方法和装置以及说话人认证系统 [P] . 中国专利： CN101465123B . 2011.07.06
3. SPEAKER VERIFICATION METHOD USING BACKGROUND SPEAKER DATA AND SPEAKER VERIFICATION SYSTEM [P] . 韩国专利： KR101805437B1 . 2017-12-07

机译：利用背景说话人数据和说话人验证系统的说话人验证方法
4. Speaker Recognition Remote Client Account Verification System and Speaker Verification Method [P] . 韩国专利： KR19990009682A . 1999-02-05

机译：说话人识别远程客户账户验证系统及说话人验证方法
5. Speaker verification method, apparatus, and system [P] . 日本专利： JP6677796B2 . 2020-04-08

机译：说话人验证方法，装置和系统