首页> 中国专利> 说话人验证方法、说话人验证的准备方法及电子装置

说话人验证方法、说话人验证的准备方法及电子装置

摘要

一种说话人验证方法、说话人验证的准备方法及电子装置,所述电子装置包含:边信息撷取器、说话人验证器以及消息产生器。边信息撷取器用于撷取边信息;说话人验证器用于执行使用语音数据与训练过的说话人模型的说话人验证,其中所述语音数据代表使用者做出的讲话;以及消息产生器耦接于边信息撷取器及说话人验证器,用于基于边信息与说话人验证器提供的验证结果为使用者产生反馈消息。以上所述的说话人验证方法、说话人验证的准备方法及电子装置能够提供更有意义的反馈消息,从而提升了使用者体验。

著录项

  • 公开/公告号CN103390406A

    专利类型发明专利

  • 公开/公告日2013-11-13

    原文格式PDF

  • 申请/专利权人 联发科技股份有限公司;

    申请/专利号CN201210537148.X

  • 发明设计人 孙良哲;郑尧文;

    申请日2012-12-12

  • 分类号G10L17/00;

  • 代理机构北京万慧达知识产权代理有限公司;

  • 代理人于淼

  • 地址 中国台湾新竹科学工业园区新竹市笃行一路一号

  • 入库时间 2024-02-19 20:56:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-24

    授权

    授权

  • 2013-12-04

    实质审查的生效 IPC(主分类):G10L17/00 申请日:20121212

    实质审查的生效

  • 2013-11-13

    公开

    公开

说明书

技术领域

本发明有关于说话人验证(speaker authentication),且特别有关于一种基于 额外撷取的边信息(side information)产生反馈消息的说话人验证方法、说话人 验证的准备方法及电子装置。

背景技术

在决定授予使用权之前,电子装置可以应用生物特征验证(biometric  authentication)技术来核实使用者的身份。一般来说,在核实完使用者的身份之 后,传统的电子装置有两种选择:一是授予使用权并以固定的问候消息(greeting  message)回应;二是拒绝授予使用权并以固定的失败消息回应(fail message)。 这些固定的问候消息/失败消息对于使用者来说并非十分有帮助。

举例来说,若使用者是电子装置的真正拥有者,但其被电子装置拒绝了几 次,则所述使用者可能认为电子装置所具有的生物特征验证功能并不好用。在 没有了解所述错误拒绝背后的潜在原因的状况下,所述使用者可能会禁用电子 装置的生物特征验证功能,从而放弃这一功能潜在的好处。

发明内容

有鉴于此,特提供以下技术方案:

本发明的实施方式提供一种说话人验证的准备方法,包含:接收语音数据, 所述语音数据代表使用者做出的讲话;撷取边信息;检查该边信息,以决定是 否允许使用语音数据的说话人模型训练;以及若使用语音数据的说话人模型训 练不被允许,则基于边信息为使用者产生反馈消息。

本发明的实施方式另提供一种说话人验证方法,包含:接收语音数据,所 述语音数据代表使用者做出的讲话;撷取边信息;执行使用语音数据与训练过 的说话人模型的说话人验证;以及基于边信息及说话人验证的结果为使用者产 生反馈消息。

本发明的实施方式另提供一种电子装置,包含:边信息撷取器、说话人模 型产生器以及消息产生器。边信息撷取器用于撷取边信息并检查边信息以决定 是否允许使用语音数据的说话人模型训练,其中所述语音数据代表使用者做出 的讲话;说话人模型产生器耦接于边信息撷取器,用于在边信息撷取器允许使 用语音数据的说话人模型训练时对使用语音数据的说话人模型进行训练;以及 消息产生器耦接于边信息撷取器,用于在边信息撷取器不允许使用语音数据的 说话人模型训练时基于边信息为使用者产生反馈消息。

本发明的实施方式另提供一种电子装置,包含:边信息撷取器、说话人验 证器以及消息产生器。边信息撷取器用于撷取边信息;说话人验证器用于执行 使用语音数据与训练过的说话人模型的说话人验证,其中所述语音数据代表使 用者做出的讲话;以及消息产生器耦接于边信息撷取器及说话人验证器,用于 基于边信息与说话人验证器提供的验证结果为使用者产生反馈消息。

以上所述的说话人验证方法、说话人验证的准备方法及电子装置,能够提 供更有意义的反馈消息,从而提升了使用者体验。

附图说明

图1是根据本发明实施例的电子装置的简化示意图。

图2是根据本发明实施例的另一电子装置的简化示意图。

图3是根据本发明实施例的图1或图2中边信息撷取器的简化示意图。

图4是根据本发明实施例的说话人验证的准备方法的简化流程图。

图5是根据本发明实施例的说话人验证方法的简化流程图。

具体实施方式

在说明书及权利要求书当中使用了某些词汇来指称特定的元件。所属技术 领域的技术人员应可理解,硬件制造商可能会用不同的名词来称呼同一个元件。 本说明书及权利要求书并不以名称的差异作为区分元件的方式,而是以元件在 功能上的差异作为区分的准则。在通篇说明书及权利要求项中所提及的「包含」 为一开放式的用语,故应解释成「包含但不限定于」。此外,「耦接」一词在此 包含任何直接及间接的电气连接手段。因此,若文中描述第一装置耦接于第二 装置,则代表第一装置可直接电气连接于第二装置,或透过其它装置或连接手 段间接地电气连接至第二装置。

电子装置可利用说话人验证功能来确认其使用者是授权使用者(authorized  person)或者非法使用者(impostor)。一般来说,这一功能需要授权使用者先在 准备阶段(preparation phase)训练一种说话人模型(speaker model)。接着,在 测试阶段(testing phase),电子装置可利用授权使用者特定的训练过的说话人模 型来验证试图使用电子装置的人是否是授权使用者。通常来说,在所述准备/测 试阶段,传统的电子装置并不会尝试收集与当前环境(current environment)、说 话人情绪(emotion)/健康状况(health condition)或最近的事件(recent events) 相关的边信息,更不用说利用所述的边信息在所述准备/测试阶段提升使用者体 验(user experience)。

图1是根据本发明实施例的电子装置100的简化示意图。举例来说,电子 装置100可以是使用者设备(user equipment)的一部分,且可能具有将使用者 做出的讲话(utterance)转换成语音数据(speech data)的功能,而所述使用者 设备可以是智能手机(smart phone)、平板电脑(tablet computer)、或者智能电 视(smart television),但不仅限于此。于另一实施例中,电子装置100可以是提 供云计算服务(cloud computing service)的云(cloud)中的一部分,且能够接 收代表使用者对使用者设备的一部分所作出的讲话的语音数据。

如图1所示,电子装置100包含边信息撷取器(side information extractor) 120、说话人模型产生器(speaker model generator)130、说话人验证器(speaker  authenticator)140、以及消息产生器(message generator)150,但其并非限定于 此,电子装置110亦可包含其他组件,为简单起见,图中并未画出。边信息撷 取器120负责撷取边信息,所述边信息可揭示下述信息中的一个或者其任意组 合:产生语音数据的环境、做出讲话(由所述语音数据代表)的人的健康状况、 做出讲话的人的情绪、以及做出讲话的人最近的事件。边信息撷取器120更进 一步负责在准备阶段使能/禁能说话人模型产生器130。

图2是根据本发明实施例的另一电子装置200的简化示意图。图2中的电 子装置200与图1中的电子装置100非常近似,其区别之一在于图2中的边信 息撷取器120是从与语音数据无关的边数据(side data)中撷取边信息,而图1 中的边信息撷取器120则是从语音数据中撷取边信息。举例来说,所述边数据 可与下述的一个或其任意组合相关,或者由下述的一个或其任意组合提供:日 程表(calendar)、时间表(schedule)、闹钟(alarm clock)、定位模块(positioning  module)以及天气应用(weather application)。

图3是根据本发明实施例的图1或图2中边信息撷取器120的简化示意图。 如图3所示,边信息撷取器120包含特征撷取器(feature extractor)122、分类 器(classifier)124、以及决定模块(decision module)126。简单来说,特征撷 取器122负责从语音数据/边数据中撷取特征,分类器124负责将撷取的特征分 类,而决定模块126则负责基于分类结果产生边信息,并基于所述边信息使能/ 禁能说话人模型产生器130。与另外一些实施例中,决定模块126的部分或者全 部功能可由消息产生器150来执行。举例来说,决定模块126可基于分类结果 产生边信息,并让消息产生器150来决定是否使能/禁能说话人模型产生器130。

电子装置100/200至少具有一个准备阶段及一个测试阶段。图4是根据本发 明实施例的说话人验证的准备方法的简化流程图,所述方法由电子装置100/200 于准备阶段中执行。首先,于步骤410中,说话人模型产生器130接收代表使 用者做出的讲话的语音数据,所述使用者可能是授权使用者。

接着,于步骤420中,边信息撷取器120撷取边信息。所述边信息可从语 音数据或者边数据中撷取,且可揭示做出所述讲话的环境信息。例如,边信息 可与所述讲话的语言内容(verbal content)无关。

步骤420可被分为三个子步骤。于步骤420的第一子步骤中,特征撷取器 122从语音数据/边数据中撷取特征。举例来说,若特征撷取器122接收语音数 据作为其输入,则所述特征可能包含频谱特征(spectral features)、韵律特征 (prosodic features)、时空特征(spectro-temporal feature)、以及其他特征。其中, 所述频谱特征可例如:美尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)、感知线性预测(Perceptual Linear Prediction,PLP)、线谱对子(Line  Spectral Pairs,LSP)、以及线性预测倒谱系数(Linear Prediction Cepstral  Coefficients,LPCC);所述韵律特征可例如:音高(pitch)、音高差(delta-pitch)、 共振峰(formant)、以及声道(vocal tract)相关特征;所述时空特征可例如:伽 柏特征(Gabor features)、相对谱(RelAtive SpecTrA,RASTA)、时域样式(temporal  pattern)、以及说话语速(speaking rate);而所述其他特征可例如信噪比 (Signal-to-Noise Ratio,SNR)。若特征撷取器122接收边数据作为其输入,则 所述特征可与边数据中包含的某些最近的事件/计划/任务或者某些最近的位置 信息相关。

接着,于步骤420的第二个子步骤中,分类器124对特征撷取器122提供 的特征进行分类。在所述过程中,分类器124可使用下述的一个或者其任意组 合:高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden  Markov Model,HMM)、神经网络(Neural net)/多层感知(Multi-Layer Perceptron, MLP)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)、 决策树(Decision Tree)、条件随机场(Conditional Random Field,CRF)、自适 应增强(Adaboost)以及其他。于另一实施例,分类器124可使用预训练模型 (pre-trained model)来执行分类。

接着,于步骤420的第三个子步骤中,决定模块126基于所述分类的结果 产生边信息。于一实施中,特征撷取器122、分类器124以及决定模块126作为 一个整体来运作,以实现环境侦测器的功能,且所述边信息可揭示使用者做出 所述讲话的环境的细节。例如,边信息可能表示环境是否嘈杂/安静、刮风/下雨、 或者是室外/室内等等,也可能更具体地表示所述环境是否像是或位于饭店、体 育场、或者火车站等等。

于另一实施例中,边信息撷取器120可作为健康侦测器来侦测做出所述讲 话的使用者的健康状况。举例来说,边信息可表示使用者是否咳嗽、鼻塞 (snuffling)或者流鼻涕,或者表示使用者是否生病了(因为日程表上有最近的 医生预约)。于另一实施例中,边信息撷取器120可作为情绪侦测器来侦测做出 所述讲话的使用者的情绪。举例来说,边信息可表示使用者是否高兴、愤怒、 或者悲伤。于另一实施例中,边信息撷取器120可作为事件侦测器来侦测使用 者最近的事件。

接着,于步骤430中,决定模块126检查所述边信息以决定所述语音数据 是否适合说话人模型训练。若适合,则电子装置100/200进入步骤440,若不适 合,则电子装置100/200转至步骤450。

理想状态下,若做出所述讲话时使用者是冷静、健康状况良好的,且环境 是安静的,则所述语音数据将适合说话人模型训练。若电子装置100/200利用不 适合的语音数据来进行说话人模型训练,则会导致训练后的说话人模型成为劣 质的,且无法在后续的测试阶段正常使用。举例来说,基于不适当语音数据产 生的训练后的说话人模型将在测试阶段导致更多的错误拒绝/通过。因此,步骤 430像是守门人(gate keeper),用来保证电子装置100/200以适合的语音数据来 执行说话人模型训练。

举例来说,若边信息提示下述事实中的一个或其任意组合,电子装置100/200 可通过从步骤430直接进入步骤450来决定不训练所述说话人模型,所述事实 包含:讲话是在室外/嘈杂的/刮风的/下雨的环境作出的,具有太多噪音;讲话(可 能包含私人/敏感信息)是在可被他人无意中听到的环境(例如饭店)作出的; 以及使用者不健康/冷静,从而讲话是以使用者非正常的声音作出的。

于步骤440中,决定模块126允许/使能说话人模型产生器130训练使用所 述语音数据的说话人模型。若说话人模型产生器130成功地完成了训练过程, 则说话人模型产生器130可将训练后的说话人模型传送至说话人验证器140。

于步骤450中,决定模块126不允许进行说话人模型训练(例如,禁能说 话人模型产生器130),且消息产生器150基于所述边信息为使用者产生反馈消 息。举例来说,电子装置100/200可以可视化地显示产生的反馈消息,或将反馈 消息作为声音来播放,以让使用者可以看到/听到反馈消息的内容。所产生的反 馈消息有助于使用者理解为何所述语音数据不适合说话人模型训练,从而防止 使用者误解电子装置100/200所具有的说话人验证功能的可靠性及品质。

举例来说,基于所述边信息,消息产生器150可从一组为各种状况准备的 候选消息中选出一条消息以作为反馈消息。这组全面的候选消息可包含以下范 例候选消息:

“环境嘈杂,建议在安静的环境执行说话人模型训练。(It’s noisy here.It’s advised that you perform speaker model training at a quiet place.)”

“此处人多,若于此处执行说话人模型训练,其他人可能无意间得知您的私 人/敏感信息。(This place seems crowded with people.If you perform speaker model  training here,other people may overhear your private/sensitive information.)”

“您今天似乎生病了,建议您康复后再执行说话人模型训练,届时您的声音 将更稳定。(You sound ill today.It’s advised that you perform speaker model training  after restoring from illness.Your voice should be more stable then.)”

“您处于愤怒状态。请于冷静且具有稳定声音状态时执行说话人模型训练。 (You sound angry.Maybe you should perform speaker model training when you're  calm and have stable voice.)”

“日程表显示您不久将有一次预约,请下次再执行说话人模型训练。(The  calendar indicates that you’re going to have an appointment soon.Maybe you should  perform speaker model training next time.)”

以上候选消息中的每一条都向使用者解释了为何在当前环境下不适合进行 说话人模型训练的潜在原因,从而比传统的电子装置不依赖于边信息而回应的 固定的预设消息更有意义。消息产生器150使用的这组全面的候选消息可提升 使用者体验,并防止使用者不当地指责说话人验证功能。

在电子装置100/200于步骤440中为使用者产生训练后的说话人模型后,可 再允许电子装置100/200自身或使用者对验证阈值(authentication threshold)进 行调整。举例来说,电子装置100/200可以先依据使用者的指令调整验证阈值。 接着,电子装置100/200可利用调整后的验证阈值来执行说话人验证测试,以决 定是否保留所述调整后的验证阈值。若说话人验证测试表明调整后的验证阈值 具有过高的错误拒绝的风险,则电子装置100/200可决定不保留所述调整过的验 证阈值,并建议使用者不要把验证阈值设置的这么高。若说话人验证测试表明 调整后的验证阈值具有过高的错误通过的风险,则电子装置100/200可决定不保 留所述的调整后的验证阈值,并建议使用者不要把验证阈值设置的这么低。

如上所述,电子装置100/200还具有一个测试阶段。图5是根据本发明实施 例的说话人验证方法的简化流程图,所述方法由电子装置100/200于测试阶段执 行。首先,于步骤510中,说话人验证器140接收代表使用者做出的讲话的语 音数据。虽然步骤510类似与步骤410,但于步骤510中,电子装置100/200并 不确定此时的使用是否是训练后的说话人模型所对应的授权使用者。此外,步 骤510发生在使用者想要打开电子装置100/200或解除电子装置100/200锁定, 或者想要通过使用电子装置100/200来获取某些私人/敏感信息的时候。

于步骤520中,边信息撷取器120为使用者撷取边信息。由于步骤520与 上面详述过的步骤420非常相似,为简单起见,其详细描述于此处省略。

于步骤530中,说话人验证器140使用所述语音数据与所述训练过的说话 人模型来执行说话人验证。若使用者通过了验证,则电子装置100/200执行步骤 540;若使用者未通过验证(验证失败),则电子装置100/200执行步骤550。

举例来说,于步骤530中,说话人验证器140可产生一个分数(score),以 表示所述语音数据与所述训练后的说话人模型的相似程度。分数越高,则表明 做出所述讲话的使用者与所述训练后的说话人模型对应的授权使用者的相似程 度越高。若分数位于第一范围,例如,所述第一范围包含的分数超过授权阈值, 则电子装置100/200执行步骤540以将使用权授予使用者。若分数位于第二范围, 例如,所述第二范围包含的分数等于或低于授权阈值,则电子装置100/200执行 步骤550以拒绝将使用权授予使用者。

于步骤530中,电子装置100/200做出决定时不仅可依据语音数据及训练后 的说话人模型,还可以依据边信息。举例来说,若边信息表明使用者处于嘈杂 的环境中,则电子装置100/200可于步骤530中做出以下动作中的一种或者其任 意组合以避免错误拒绝,所述动作包含:设置更低的验证阈值,更有力地抑制 噪音,以及使分类器124作为噪音分类器(noisy classifier)。于另一实施例中, 若边信息表明使用者处于愤怒中,则电子装置100/200可于步骤530中做出以下 动作中的一种或者其任意组合以避免错误拒绝,所述动作包含:给予音高相关 的特征更高的信任分数;以及使语音数据中与音高相关的特征正规化 (normalization)。

于步骤530之后,电子装置100/200可基于边信息与验证结果为使用者产生 反馈消息。具体来说,若验证结果显示使用者通过了验证,则电子装置100/200 于步骤540中将使用权授予使用者,并基于边信息为使用者产生问候消息(反 馈消息)。举例来说,电子装置100/200可以可视化地显示产生的反馈消息,或 将反馈消息作为声音来播放,以让使用者可以看到/听到反馈消息的内容。

为了使反馈给使用者的响应包含更有用的信息,于步骤540中消息产生器 150可基于边信息从包含多个候选问候消息的消息组中选择反馈消息。以下是包 含多个候选问候消息的全面的消息组中包含的用于各种状况的范例候选问候消 息:

“欢迎您!今天天气不好,请小心不要感冒。(Welcome.The weather doesn’t  sound good.Be careful not to catch a cold.)”

“早上好/日安/晚上好(Good morning/day/evening.)”

“今天是个好天气,祝您好运。(Today is a sunny day.Good luck.)”

“很高兴再见到您,不要忘记1点钟的预约。(Good to see you again.Don’t  forget your appointment at one o’clock.)”

“今天的午餐怎么样?(How about the lunch today?)”

“请您在电影院保持安静。(Please be quite when you are in a movie theater.)”

“祝您在运动场玩的开心。(Have fun at this playground.)”

“您似乎病了,需要帮您预约一位医生吗?(You sound ill.Should I make a  doctor’s appointment for you?)”

“别伤心,所有事情都会好起来的。(Don’t be sad.Everything will be fine.)”

“别生气,请保持冷静。(Don’t be angry.Please calm down.)”

对于使用者来说,相比于传统装置会响应的、不依赖于边信息且千篇一律 的预定消息,这些候选的问候消息更有意义。这些候选的问候消息能够提升使 用者体验。

于步骤550中,电子装置100/200拒绝将使用权授予使用者,并基于边信息 为使用者产生反馈消息。举例来说,电子装置100/200可以可视化地显示产生的 反馈消息,或将反馈消息作为声音来播放,以让使用者可以看到/听到反馈消息 的内容。

为了使给使用者的响应包含更有用的信息,于步骤550中消息产生器150 可基于边信息从包含多个候选失败消息的消息组中选择反馈消息。以下是包含 多个候选失败消息的全面的消息组中包含的用于各种状况的范例候选失败消 息:

“您的声音太小了,请大声点讲话。(Your voice is too low.Please speak  louder.)”

“您似乎生病了,这可能是您的声音未通过验证测试的原因。(You sound ill. Maybe that’s why your voice didn’t pass the authentication test.)”

“此处嘈杂,请靠近麦克风说话,或使用触摸屏来解锁。(It’s noisy here.Please consider speaking closer to the microphone or using the touchscreen to unlock.)”

“您似乎过于激动,请在冷静时再次尝试。(You soundtoo agitated.Please try  again when you are calm.)”

“此处人多,请小心,别让其他人听到您的密码。(This place seems to be  crowded with people.Be careful not to let others overhear your password.)”

即使使用者没有通过验证,若所得分数在第三范围,例如,所述第三范围 包含的分数在验证阈值与验证阈值减去一个小幅度数值(small margin)之间, 则电子装置100/200可应用“贯序检测(sequential test)”的概念,并给予使用 者另一次测试的机会。举例来说,电子装置100/200可先于步骤550中产生失败 消息以鼓励使用者再次尝试。于第二次测试之后,电子装置100/200可基于使用 者两次测试分数的平均值来决定是否将使用权授予使用者。

对于使用者来说,相比于传统装置会响应的、不依赖于边信息且千篇一律 的预定消息(例如,“拒绝授权(access denied)”),这些候选的消息更有意义。 在此状况下,即使使用者被电子装置100/200错误地拒绝,他/她也会了解失败 的潜在原因,而不会偏颇地指责使用者验证功能。

以上所述仅为本发明的较佳实施例,凡依本发明权利要求所做的均等变化 与修饰,皆应属本发明的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号