首页> 中国专利> 针对集成多语气多装置自然语言语音服务环境的系统和方法

针对集成多语气多装置自然语言语音服务环境的系统和方法

摘要

提供了一种针对集成多语气多装置自然语言语音服务环境的系统和方法。具体来说,该环境包括多个语音装置,每个语音装置具有用于处理多语气自然语言输入的意图确定能力,除此之外还具有环境中其他装置的意图确定能力的知识。另外,该环境可被布置为集中方式、分布对等方式、或者这些方式的各种组合。这样,各个装置可协作来确定多语气自然语言输入的意图,并且可将命令、询问或其他请求传递到最适于作出响应来进行动作的一个或多个装置中。

著录项

  • 公开/公告号CN102160043A

    专利类型发明专利

  • 公开/公告日2011-08-17

    原文格式PDF

  • 申请/专利权人 声钰科技;

    申请/专利号CN200880130303.8

  • 发明设计人 罗伯特·肯尼维克;克里斯·魏德;

    申请日2008-07-09

  • 分类号G06F13/12(20060101);

  • 代理机构11112 北京天昊联合知识产权代理有限公司;

  • 代理人陈源;张天舒

  • 地址 美国华盛顿

  • 入库时间 2023-12-18 03:04:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-01

    专利权的转移 IPC(主分类):G06F13/12 登记生效日:20181212 变更前: 变更后: 申请日:20080709

    专利申请权、专利权的转移

  • 2016-10-12

    专利权的转移 IPC(主分类):G06F13/12 登记生效日:20160921 变更前: 变更后: 申请日:20080709

    专利申请权、专利权的转移

  • 2015-04-22

    授权

    授权

  • 2011-09-28

    实质审查的生效 IPC(主分类):G06F13/12 申请日:20080709

    实质审查的生效

  • 2011-08-17

    公开

    公开

说明书

技术领域

本发明涉及一种集成语音服务环境,其中多个装置可通过协同处理自由形式多语气的自然语言输入来提供各种语音服务,从而便于用户与集成环境中的一个或多个装置之间的会话式交互。

背景技术

作为近年来发展的技术,消耗品电子装置已呈现出在许多人的日常生活中几乎无处不在。为了满足由移动电话、导航装置、嵌入装置及其它类似装置的功能性和移动性而产生的日益增加的需求,除了核心应用程序之外还常常在这些装置中提供大量特征和功能。然而更强的功能性还引出了这样的折衷,它们包括常常约束用户无法完全发觉其电子装置的全部性能的学习曲线。例如,许多现有的电子装置包括复杂的并不特别用户友好的人机界面,这约束了许多技术被投入大量的市场应用。而且,繁琐的界面常导致期望的特征不能被发现(例如,在一些冗长而不易导航的菜单中),这趋向于使许多用户不去使用甚至并不知晓其装置的潜在性能。

这样,由许多电子装置提供的增加的功能性常趋于被浪费,正如市场调查所表明的那样,许多用户只使用给定装置上的一小部分可用特征或应用程序。而且,在一个无线网络和宽带接入越来越普及的社会中,消费者自然倾向于希望他们的电子装置具有无缝移动能力。因此,随着消费者要求强化更简单的机制来与电子装置进行交互,阻止快速和准确交互的繁琐界面会变成一个重要的关注点。因此,对以直观方式使用技术的机制的持续增长的需求还在很大程度上未得到满足。

简化电子装置中的人机交互的一种方法包括使用语音识别软件,这种软件可使用户发觉不熟悉的、未知的或难使用的特征。例如,最近由Navteq公司进行的一项调查提供了在自动导航和基于页面应用程序之类的各种应用程序中使用的数据,该调查表明语音识别在电子装置用户最想要的特征当中名列前茅。即便如此,现有的语音用户界面在其实际工作时仍倾向于要求用户方面进行大量学习。

例如,许多现有的语音用户界面只支持根据特定命令和控制序列或语法而被公式化的请求。而且,很多现有的语音用户界面由于不准确的话语识别而使用户失望或不满意。类似地,通过强制用户提供预先建立的命令或关键字来以系统可理解的方式传达请求,现有的语音用户界面不能有效地使用户进行丰富和协作的对话来解决请求并使会话朝向互相满意的目标发展(尤其是例如当用户不确定特别需要、可用信息或装置性能时)。因此,现有的语音用户界面存在各种缺点,包括大大限制了用户以协作和会话的方式进行对话。

另外,许多现有的语音用户界面在利用分布在各种不同领域或装置中的信息来解决自然语言基于语音的输入方面都存在不足。因此,现有的语音用户界面被限于它们所设计针对的有限的应用程序组或被限于它们所属的装置。尽管技术性的进步使用户常具有多种装置来满足他们的不同需要,但现有的语音用户界面还不能使用户充分摆脱装置的约束。例如,用户可能会对与不同应用程序和装置有关的多种服务感兴趣,但现有的语音用户界面却趋于限制用户以合适的方法访问应用程序和装置。而且,用户通常仅能一次实际携带有限数量的装置,但在各种状况下也可能会需要与用户的其它正在使用的装置有关的内容或服务。因此,尽管用户有各种需要,在各种背景或环境下会需要与不同装置有关的内容或服务,但现有的语音技术在提供集成的环境来使用户能够请求与实质上的任意装置或网络相关的内容或服务方面存在不足。对信息有效性的限制和现有语音服务环境中的装置交互机制趋于妨碍用户以直观、自然和有效的方式来体验技术。现有系统受到这些和其它问题的影响。

发明内容

根据本发明的各个方面,针对集成多语气多装置的自然语言语音服务环境的系统和方法包括多个语音装置,每个语音装置除了具有对环境中其它装置的意图确定能力的知识以外,还具有处理多语气自然语言输入的意图确定能力。另外,该环境可以以集中方式、分布对等(peer-to-peer)方式或这两种方式的各种组合方式来布置。这样,各个装置能够协作来确定多语气自然语言输入的意图,并且可将命令、询问或其它请求发送到最适合响应这些命令、询问或请求来进行活动的一个或多个装置。

根据本发明的各个方面,以集中方式布置的集成的自然语言语音服务环境包括:接收多语气自然语言输入的输入装置、通信地耦接到输入装置的中央装置、以及通信地耦接到中央装置的一个或多个次级装置。输入装置、中央装置以及一个或多个次级装置的每一个都可具有用于处理多语气自然语言输入的意图确定能力。这样,可采用集中方式通过将多语气自然语言输入从输入装置传送到中央装置来确定一个给出的多语气自然语言输入的意图。此后,中央装置可集合输入装置的意图确定能力和一个或多个次级装置的意图确定能力并使用所集合的意图确定能力来确定多语气自然语言输入的意图。输入装置随后可从中央装置接收所确定的意图并基于所确定的意图来在输入装置、中央装置或次级装置的一个或多个处至少调用一个动作。

根据本发明的各个方面,以分布方式布置的集成的自然语言语音服务环境包括:接收多语气自然语言输入的输入装置、通信地耦接到输入装置的中央装置、以及通信地耦接到输入装置的一个或多个次级装置,其中如集中方式的实现中一样,输入装置以及一个或多个次级装置的每一个都可具有用于处理多语气自然语言输入的意图确定能力。然而,分布方式的实现与集中方式的实现的区别在于可使用本地意图确定能力来在输入装置处确定多语气自然语言输入的初步意图。随后多语气自然语言输入可被传送到次级装置的一个或多个(例如,当输入装置处的意图确定可信度下降到低于一个给定阈值时)。这种情况下,每一个次级装置使用本地意图确定能力来确定多语气自然语言输入的意图。输入装置比较初步意图确定和次级装置的意图确定,并可在所比较的意图确定当中作出裁断来确定多语气自然输入的活动意图。

根据本发明的各个方面,以在集中模型和分布模型之间动态选择的方式布置集成的自然语言语音服务环境。例如,该环境包括接收多语气自然语言输入的输入装置、以及通信地耦接到输入装置的一个或多个次级装置,其中输入装置和一个或多个次级装置的每一个都可具有用于处理多语气自然语言输入的意图确定能力。合成模型(constellation model)可访问输入装置和一个或多个次级装置的每一个,其中合成模型描述了输入装置和一个或多个次级装置的意图确定能力。可发送多语气自然语言输入来用于在输入装置或次级装置的一个或多个处进行处理,从而根据合成模型中所描述的意图确定能力来确定其意图。例如,当合成模型将输入装置和次级装置布置按集中方式布置时,次级装置之一可被指定为中央装置并按上述方式处理自然语言输入。然而,当无法将多语气自然语言传送到中央装置时,合成模型可按照分布方式动态地进行重新布置,从而输入装置与次级装置共享与各个本地意图确定能力有关的知识并如协作节点那样进行操作,以使用共享的与本地意图确定能力有关的知识来确定多语气自然语言输入的意图。

本发明的其它目的和优点将根据以下附图和详细描述来进行说明。

附图说明

图1示出了根据本发明各个方面的可被提供在集成多装置自然语言语音服务环境中的示例性多语气电子装置的框图。

图2示出了根据本发明各个方面的集成多语气多装置的自然语言语音服务环境的集中实现方式的示例的框图。

图3示出了根据本发明的各个方面,在集成多语气多装置的自然语言语音服务环境的集中实现方式中,在输入装置处对多语气自然语言输入进行处理的示例的流程图。

图4示出了根据本发明的各个方面,在集成多语气多装置的自然语言语音服务环境的集中实现方式中,在中央装置处对多语气自然语言输入进行处理的示例的流程图。

图5示出了根据本发明的各个方面,在集成多语气多装置的自然语言语音服务环境的集中实现方式中,在次级装置处对多语气自然语言输入进行处理的示例的流程图。

图6示出了根据本发明各个方面的集成多语气多装置的自然语言语音服务环境的分布实现方式的示例的框图。

图7示出了根据本发明的各个方面,在集成多语气多装置的自然语言语音服务环境的分布实现方式中,在输入装置处对多语气自然语言输入进行处理的示例的流程图。

具体实施方式

根据本发明的各个方面,图1示出了可被提供在包括一个或多个附加多语气装置(例如,如图2和图6所示)的自然语言语音服务环境中的示例性多语气电子装置100的框图。将会明了,图1所示的电子装置100可以是任何适当的语音电子装置(例如,电信息通信装置、个人导航装置、移动电话、VoIP节点、个人计算机、媒体装置、嵌入装置、服务器、或其它电子装置)。装置100可包括各种组件来共同提供用于处理会话式多语气自然语言输入的能力。这样,装置100的用户可与语音电子装置100进行多语气会话式的对话,从而以形式自由且协作的方式来解决请求。

例如,自然语言处理组件可支持形式自由的自然语言发言来使用户摆脱关于如何对命令、询问或者其它请求进行公式化的限制。而且,用户可使用任何感觉自然的说话方式来请求装置100所能提供的内容或服务(例如与电信息通信、通信、媒体、消息传递、导航、交易、信息检索等有关的内容或服务)。例如,在各种实现方式中,装置100可利用2003年6月3日提交的题为“Systems and Methods for Responding to Natural Language Speech Utterance”的共同未决美国专利申请10/452,147和2003年6月15日提交的题为“Mobile Systems and Methods for Responding to Natural Language Speech Utterance”的美国专利申请10/618,633中所描述的技术来处理自然语言发言,通过参考上述两个申请的全部内容来将其公开并入本文。

而且,因为装置100可被运用到集成的多装置环境中,所以用户可进一步请求环境中的其它装置所能够提供的内容或服务。具体来说,集成的语音服务环境可包括多个多语气装置,每个多语气装置都包括与图1所示的自然语言组件大体类似的组件。然而环境中的各个装置可用于不同的目的,使得在环境中的装置之间会有可用内容、服务、应用程序或其它能力的变化(例如,媒体装置的核心功能可由个人导航装置的核心功能变化而来)。因此,环境中的每个装置包括装置100在内都具有对内容、服务、应用程序、意图确定能力、以及其它能通过合成模型130b来从其它装置得到的特征的认识。因此,如下将要详细说明的那样,电子装置100可与集成环境中的其它装置协作,通过在其它事以外还分享前后内容、先前信息、领域知识、短期知识、长期知识和认知模型来解决请求。

根据本发明的各个方面,电子装置100可包括输入机构105,其能够接收多语气自然语言输入,该输入至少包括用户所讲的发言。如下所述,输入机构105可包括任何能够接收讲话输入的合适装置(例如,方向性麦克风、麦克风阵列、或其它能够产生编码语音的装置)或装置的组合。而且,在各种实现方式中,输入机构105可被构成为通过例如最大化用户方向的增益、消除回声、清除点噪声源、执行各种采样率的采样或者对环境噪声(例如背景对话)滤波来使编码语音的逼真度最大化。这样,输入机构105可通过能够容忍可能在其它方式中干扰发言的精确译释的噪声或其它因素的方式来生成编码语音。

而且,在各种实现方式中,输入机构105可包括各种其它输入形式(即,输入机构105可被布置在多语气环境中),其中非语音输入可与一个或多个在先的、同时的或在后的多语气自然语言输入相关联和/或被相联系地处理。例如,输入机构105可被耦接到触摸屏接口、触针和输入板接口、键区或键盘、或者任何其它合适的输入机构。结果,处理多语气输入时潜在可用的信息量可被最大化,因为用户能够澄清发言或者另外通过使用各种输入形式来在给定的多语气自然语言输入中提供附加信息。例如,在示例描述中,用户可用触针或其它点击装置来触摸装置100的触摸屏接口的一部分,同时还提供与所触摸的接口部分相关的发言(例如,“为我显示此处周围的餐馆”)。在该示例中,自然语言发言可与通过触摸屏接口接收的输入相关联,从而将“此处周围”译释成与接口的触摸部分有关(例如,不被译释成用户的当前位置或一些其它含义)。

根据本发明的各个方面,装置100可包括自动语音识别器110,其生成一个或多个对编码语音的初步译释,可从输入机构105接收这些译释。例如,自动语音识别器110可使用一个或多个动态适配识别语法来识别发言中所含的音节、词或短语。可使用动态识别语法来基于一个或多个声音模型识别通过语音口述的音素流。而且,如2005年8月5日提交的题为“Systems and Methods for Responding to Natural Language Speech Utterance”的共同未决美国专利申请11/197,504所述,自动语音识别器110能够进行多通道分析,其中主语音识别引擎可生成对发言的主译释(例如使用大的口述语法列表)并可从一个或多个次语音识别引擎请求次译释(例如使用具有超出词汇表外的诱饵字的虚拟口述语法),将该申请的全部内容通过引用并入本文。

因此,自动语音识别器110能够以各种方式生成对发言的主译释,这些方式包括对口述语法或虚拟口述语法的排他使用、或对这些语法的各种组合的使用(例如,当装置100支持多通道分析时)。在任何情况下,自动语音识别器110可提供超出词汇表外的能力并能容忍被落下的语音信号、用户的误讲或者其它可能发生在自然语言语音中的变数(例如停止、开始、结巴等)。而且,自动语音识别器110所使用的识别语法可包括词汇、字典、音节、词、短语或其它根据各种前后关系或应用特定的领域(例如,导航、音乐、电影、天气、购物、新闻、语言、时间或地域临近、或其它适合的领域)而优化的信息。另外,可使用环境知识(例如对等亲和、环境中装置的能力等)、历史知识(例如频繁请求、上文等)或其它类型的知识来持续动态优化包含在识别语法中的信息。

例如,可动态优化包含在识别语法中的信息来改善给定发言被精确识别的可能性(例如,对一个词的不正确译释之后,可从语法中去除该不正确译释以减小该不正确译释被重复的可能性)。因此,自动语音识别器110可使用多个技术来生成对自然语言发言的主译释,包括那些例如在2006年8月31日提交的题为“Dynamic Speech Sharpening”的共同未决美国专利申请11/513,269中公开的内容,该申请的全部内容以引用方式并入本文。而且,与装置100有关的自动语音识别器110所使用的技术可被认为是定义了装置100的意图确定能力,并且该能力可与环境中的其它装置共享来使整个环境中的语音识别集中(例如,由于各种装置可使用特有的语音识别技术或具有特有的语法或词汇表,所以装置可共享词汇翻译机制来增强系统范围内的识别)。

根据本发明的各个方面,自动语音识别器110可向会话语言处理器120提供对其中包含发言的多语气输入的一个或多个主译释。该会话语言处理器120可包括各种组件,它们集中操作来将每日的人与人的会话建模,从而与用户进行协作式的会话来解决基于用户意图的请求。例如,会话语言处理器120可包括但不限于意图确定引擎130a、合成模型130b、一个或多个领域接口进程(domain agent)130c、语境跟踪引擎130d、误识别引擎130e、以及语音搜索引擎130f。另外,会话语言处理器120可耦接到一个或多个数据存储器160以及与一个或多个领域有关的应用程序。因此,装置100的意图确定能力可根据自动语音识别器110和会话语言处理器120的数据和处理能力来定义。

更特别的,意图确定引擎130a可基于对装置100的意图确定能力以及对集成语音服务环境中其它装置的意图确定能力的考虑来为一个给定的多语气自然语言输入建立含义。例如,装置100的意图确定能力可被定义为处理资源的功能,处理对语法、语境、接口进程或其它数据的存储的功能,以及处理与装置100有关的内容或服务的功能(例如,具有较少存储量的媒体装置与具有较大存储量的装置相比具有更少的可识别歌曲列表)。因此,意图确定引擎130a可确定是否在本地处理给定的输入(例如,当装置100的意图确定能力表明了识别的有利条件时),或者是否将输入相关的信息传递到其它能帮助确定输入意图的装置。

这样,为了确定应当由哪个装置或装置的组合来处理输入,意图确定引擎130a可评估合成模型130b,该模型提供了针对集成语音服务环境中每个装置的意图确定能力的模型。例如,合成模型130b可包含但不限于为环境中每个装置可用的处理知识和存储资源、以及为环境中每个装置可用的领域接口进程、语境、内容、服务和其它信息的特征和范围。这样,使用该合成模型130b,意图确定引擎130a能够确定是否存在任何一个具有意图确定能力的其它装置能够被调用来增大或提高装置100的意图确定能力(例如,通过将多语气自然语言输入相关的信息传递到表现为最适合分析该信息从而确定输入意图的一个或多个装置)。因此,意图确定引擎130a可利用广泛的合成模型130b来建立给定发言的含义,该广泛的合成模型130b描述了装置100内以及整个集成环境的能力。因此,意图确定引擎130a可根据整个环境的能力来对给定自然语言输入的处理进行优化(例如,可在装置100本地处理发言,可根据合成模型130b中的信息来将发言传递到特定装置,或者可将发言发送到环境中的所有装置并作出裁断来选出一个对意图确定的最佳猜测)。

尽管以下将针对能被用来确定集成多装置环境中多语气自然语言输入的意图的各种技术进行讨论,但显然任何一个装置的自然语言处理能力都不仅限于这里所提供的特定讨论的范围。这样,除了以上所参考的共同未决美国专利申请以外,还可利用以下申请中所描述的其它自然语言处理能力,这些申请包括:2005年8月5日提交的题为“Systems and Methods for Responding to Natural Language Speech Utterance”的共同未决美国专利申请11/197,504;2005年8月10日提交的题为“System and Method of Supporting Adaptive Misrecognition in Conversational Speech”的美国专利申请11/200,164;2005年8月29日提交的题为“Mobile Systems and Methods of Supporting Natural Language Human-Machine Interactions”的美国专利申请11/212,693;2006年10月16日提交的题为“System and Method for a Cooperative Conversational Voice User Interface”的美国专利申请11/580,926;2007年2月6日提交的题为“System and Method for Selecting and Presenting Advertisements Based on Natural Language Processing of Voice-Based Input”的美国专利申请11/671,526;以及2007年12月11日提交的题为“System and Method for Providing a Natural Language Voice User Interface in an Integrated Voice Navigation Services Environment”的美国专利申请11/954,064,这些申请的全部公开内容都通过引用并入本文。

根据本发明的各个方面,图2示出了集成多语气多装置的自然语言语音服务环境的集中实现方式的示例的框图。如稍后将要描述的,该集成多语气多装置的自然语言语音服务环境的集中实现方式可使用户与任何一个语音装置210a-n或中央语音装置220进行会话式的多语气自然语言交互。这样,多装置语音服务环境可集中确定任意给定多语气自然语言输入的意图,从而用户可不受限制地请求与环境中的任意装置或应用程序有关的内容或语音服务。

如图2所示,多装置语音服务环境的集中实现可包括多个语音装置210a-n,每个语音装置包括如图1所描述的能够确定自然语言发言意图的各种组件。另外,集中实现包括中央装置220,其包含与每个其它语音装置210a-n的意图确定能力有关的信息。例如,在各种示例实现方式中,中央装置220可被设计成其优点是作为最能够确定发言意图的装置(例如,具有重要的处理力、存储资源和通信能力来使装置适于管理整个环境的意图确定的服务器主数据中心或其它装置)。在其它示例实现方式中,可根据给定多语气自然语言输入、对话或交互的一个或多个特征来动态选择中央装置220(例如在当前发言与特定领域有关时可以将一个装置指定为中央装置220)。

在图2所示的集中实现方式中,可在语音装置210a-n之一处接收多语气自然语言输入。因此,装置210a-n中进行接收的一个装置可被指定为针对那一输入的输入装置,而装置210a-n中剩下的装置可被指定为针对那一输入的次级装置。换句话说,对于任意给定的多语气自然语言输入,多装置环境可包括一个用来收集输入的输入装置,对环境中所有装置210a-n的意图确定、推断和处理能力进行集合的中央装置220,以及也可被用于意图确定处理中的一个或多个次级装置。这样,环境中的每个装置210可提供有合成模型来对具有输入和输出通信能力的所有装置210进行鉴别,因此指示了其它装置可能能够确定针对给定多语气自然语言输入的范围。合成模型还可定义中央装置220的位置,该中央装置集合了来自环境中各个装置210a-n的语境、词汇表、内容、识别语法、错误识别、共享知识、意图确定能力、推断能力、以及其它信息。

因此,只要通信和处理能力允许,中央装置220可被用作第一个或最后一个识别器手段。例如,由于中央装置220集合了整个环境的意图确定能力(例如通过集合来自环境中装置210a-n的语境、词汇表、装置能力以及其它信息),所以当输入装置210处的本地处理无法以满意的信任等级确定输入意图时,在中央装置220被用作第一个手段的识别器或被用作最后一个手段的识别器的情况下将输入自动地传送到该中央装置220。然而,还应明了在某些情况下输入装置210可能由于各种原因而无法与中央装置220连接(例如,无法使用网络连接、或者中央装置220的处理瓶颈会引起通信延迟)。在这种情况下,起初与中央装置220连接的输入装置210可被移到分布式处理中(例如参考图6描述的那样)并且以合成模型来与一个或多个其它装置210a-n进行能力的通信。因此,当中央装置220由于各种原因而无法被调用时,剩下的装置210a-n可作为协作节点来进行操作,以通过分散方式确定意图。

此外,在多装置语音服务环境中,中央装置220和各个其它装置210a-n可协作来创建一个整个环境能力的集合模型。例如,如上面所指出的,除了具有基于处理资源、存储资源、以及装置能力的意图确定能力之外,每个装置210a-n和中央装置220可包括各种其它自然语言处理组件。通过不仅仅维持与各个装置210a-n有关的数据、内容和服务的完整模型,还维持与各个装置210a-n有关的其它自然语言处理能力和动态状态,可因此使语音服务环境以集成方式工作。这样,各个装置210a-n能够以集中整个装置的能力、数据、状态和其它信息为目标进行工作,这种工作方式可以是针对一个装置(例如,中央装置220),也可以是遍布各个装置210a-n(例如,如图6所描述的分布实现方案中那样)。

例如,如上所述,每个装置210都包括一个自动语音识别器、一个或多个动态适配识别语法、以及列出了用来产生对自然语言发言的因素译释的词汇表。而且,每个装置210都包括在本地建立的语境,该语境的范围包括语境堆中所含的信息、语境和命名空间变量、词汇翻译机制、与当前对话或会话交互有关的短期共享知识、与用户经过长时间得知的喜好有关的长期共享知识、或者其它语境信息。而且,每个装置210可具有彼此相关的各种服务或应用,并且可在本地执行自然语言处理的各个方面。因此,将在整个环境中集中的附加信息可包括部分或初步发言识别、误识别或含糊识别、推断能力、以及全部装置状态信息(例如,环境中播放的歌曲、环境中设置的警报等)。

因此,各种数据同步化和参照完整性算法可被各个装置210a-n和中央装置220一齐使用来提供对环境一致的观点。例如,使用为计算机辅助装置设计的通用即插即用协议来在整个环境中描述和传递信息以用于同步化和集中的目的,尽管环境也可工作在对等断开模式下(例如,当无法达到中央装置220时)。然而,在各种实现方式中,例如当装置210a-n具有针对自然语言处理足够的相称资源和能力时,环境也可工作在如图6所示的对等模式下而无需考虑断开状态。

通常,环境中用于集中的算法能够以各种间隔来执行,尽管希望其限制数据传输以避免处理瓶颈。例如,由于集中和同步化技术与其中典型地在几秒钟时间内表达给定发言的自然语言处理有关,所以与语境和词汇有关的信息无需在少于很少几秒的时间范围内更新。然而,只要通信能力允许,就能够更加频繁地更新语境和词汇来提供实时识别或表现实时识别。在另一实现方式中,允许执行集中和同步化直至完成(例如,当此时没有未决请求时),或者当达到预定时间或资源消耗限制时(例如,当集中与使用截止时间的未决请求、具有最高信任等级的意图确定有关时)可暂停或终止集中和同步化。

通过在整个环境中建立对能力、数据、状态和其它信息一致的观点,在处理任意给定的多语气自然语言输入过程中输入装置210可与中央装置220和一个或多个次级装置(即,输入装置以外的一个或多个装置210a-n)协作。而且,通过为每个装置210和中央装置220提供描述了环境的同步状态的合成模型,环境可容忍由一个或者多个装置210a-n或中央装置220产生的故障。例如,如果输入装置210无法与中央装置220通信(例如由于服务冲突),则输入装置210可进入断开的对等模式,从而能够与通信保持可用的一个或多个装置210a-n交换能力。这样,当装置210建立了与词汇、语境、误识别、接口进程适配、意图确定能力、推断能力或其它有关的新信息时,除了询问合成模型来确定信息是否应被发送到一个或多个其它装置210a-n中以外,如上所述,装置210还会发送这些信息到中央装置220以用于集中目的。

例如,假设环境包括具有与播放音乐或其它媒体有关的标称功能的语音移动电话,并且该语音移动电话还具有有限量的本地存储空间,而环境还包括语音家庭媒体系统,该系统具有能够提供专用的媒体功能的较大存储介质。如果移动电话将要建立新的词汇、语境、或其它与歌曲相关的信息(例如用户在路上下载歌曲或铃声到移动电话),则移动电话除了可将新建立的信息发送中央装置220以外还可将这些信息发送到家庭媒体系统。这样,通过具有环境中所有装置210a-n的模型并将新信息发送到信息最可能被使用的装置,在中央装置220由于任何原因而无法使用时各个装置都可掌握操作的断开模式,同时可在整个环境中有效分配资源。

因此,根据前面的讨论,将明了集成多装置服务环境的集中实现方式通常包括中央装置220,其操作来集合或集中关于内容、服务、能力、以及其它与环境中所使用的各个语音装置210a-n有关的信息的知识。在这样的集中实现方式中,如参考图3至图5将详细描述的那样,中央装置220可被调用来作为第一个手段或最后一个手段的识别器,而且,环境中的其它装置210a-n可被构成来在中央装置220由于任意原因而无法被调用时自动进入断开或对等工作模式(即,装置可进入分散或分布模式,如参考图6至图7将要详细描述的)。因此可使每个装置210a-n的知识和能力以集中方式、分布方式或它们的各种组合方式而在整个语音服务环境中可用,从而优化了在确定任意给定多语气自然语言输入时所使用的自然语言处理资源的量。

根据本发明的各个方面,图3示出了在集成多语气多装置的自然语言语音服务环境的集中实现方式中,在输入装置处对多语气自然语言输入进行处理的示例的流程图。类似地,图4和图5示出了分别与集中语音服务环境中的中央装置和一个或多个次级装置有关的对应方法。而且,显然图3至图5所描述的处理技术通常可基于图2所示的上述集中实现方式,从而可假设输入装置与中央装置不同,并且可假设一个或多个次级装置与中央装置和输入装置不同。然而,显然的是各个示例都会涉及在中央装置或其它装置处接收的自然语言输入,在此情况下,图3至图5所示的技术可根据环境的具体情况而变化(例如,关于将发言传递到特定的一个或几个装置的决定可在本地协作地做出,或是根据诸如整体系统状态、通信能力、意图确定能力或其它因素之类的各种因素来以其它方式做出)。

如图3所示,在操作310中,多语气自然语言输入可在输入装置处接收。多语气输入可至少包括用户提供的自然语言发言,并且还可包括诸如音频、文本、按键按下、手势、或其它非语音输入之类的其它输入形式。还应当明确的是在操作310中接收自然语言输入之前,输入装置可被构成来建立自然语言处理能力。例如,建立自然语言处理能力可包括但不限于:加载自动语音识别器和任意相关的识别语法,启动会话语言处理器来掌管与用户的对话,以及安装一个或多个领域接口进程来提供针对各个应用领域或语境领域的功能(例如,导航、音乐、电影、天气、信息检索、装置控制等)。

输入装置还可被配置成在操作310接收输入之前使意图确定能力、共享知识和其它信息的同步化与环境中的中央装置和次级装置协调。例如,当输入装置建立了一个领域接口进程时,所安装的领域接口进程可从系统中其它装置导入(bootstrap)语境变量、语意、命名空间变量、判定值以及其它与领域接口进程有关的语境。类似地,可从中央装置和次级装置中接收误识别从而对使用了与所接收的误识别有关的信息的接口进程进行校正,并且在装置之间对词汇表和相关翻译机制进行同步以对各个装置所使用的自动语音识别器之间的潜在变化负责(例如,环境中的每个装置都无法确保使用相同的自动语音识别器或者将在共享意图确定能力的几个装置之间共享的识别语法、必须词汇以及翻译机制)。

一旦建立和同步了自然语言处理能力并随后在操作310中接收了多语气自然语言输入,输入装置就可在确定操作320中确定是否已经建立了环境来自动将输入发送到中央装置。在这种情况下,处理进行到操作360来将输入发送到中央装置,该中央装置随后根据参考图4描述的技术来处理输入。然而,如果还未建立将输入自动发送到中央装置的环境,则处理进行到操作330,此处输入装置执行对包含在多语气输入中的自然语言发言的转述。例如,输入装置可使用自动语音识别器和与该识别器相关的识别语法来根据上述技术以及以上参考的美国专利申请中的技术来对该发言进行转述。

接着,在操作340中,可使用本地自然语言处理能力和资源来在输入装置处确定多语气自然语言输入的意图。例如,输入中所包含的任何非语音输入形式都可与发言转述合并,并且与输入装置有关的会话语言处理器可利用与语境、领域知识、共享知识、语境变量、判定变量、或其它在自然语言处理中有用的信息有关的本地信息。这样,输入装置可尝试确定对于提供输入的用户的诸如鉴别会话类型(例如,询问、教训或试探)之类的意图或者对于可能包含在输入中的请求(例如与一个或多个领域接口进程或应用领域有关的命令或询问)的最佳猜测。

可为输入装置的意图确定指定一个信任等级(例如,具有实现多通道分析的自动语音识别器的装置可对其所创建的发言转述指定相对更高的信任等级,这可能会产生针对意图确定的更高信任等级)。可根据各种因素来指定信任等级,正如上述参考的美国专利申请所描述的一样。这样,确定操作350可包括确定输入装置的意图确定是否满足信任的可接受等级。当意图确定满足了可接受的信任等级时,处理可直接进行到操作380,在该操作中可响应于该意图确定来进行动作。例如,当意图确定指示了用户已请求了某一信息时,可阐释一个或多个询问来从可能包括一个或多个其它装置的适当信息源取回信息。在另一示例中,当意图确定指示了用户已请求了一个给定命令时(例如控制特定装置的命令),可将命令传递到适当装置来执行。

因此,在输入装置能够无需中央装置或次级装置的协助而确定自然语言输入的意图的情况下,可通过进行可能是合适的即刻动作来保存通信和处理资源。另一方面,当输入装置的意图确定不满足可接受的信任等级时,确定操作350会导致在操作360中进行输入装置向中央装置寻求协助的操作。在这种情况下,多语气自然语言输入可被传送到整个中央装置,从而中央装置按照图4所示的技术来处理该输入。然而,假如由于一些原因而使得向中央装置的传输失败,则输入装置可被切换到断开的对等模式,在该模式中可利用一个或多个次级装置,如下文将参考图7所描述的那样。然而当发生了向中央装置的传输而未发生任何意外时,在操作370中输入装置会从中央装置接收意图确定,并且会进一步接收中央装置能够解决的一个或多个请求、或者已被中央装置制定来进行对输入装置的进一步处理的请求。结果,输入装置可在操作380中根据在操作370中从中央装置接收的信息来进行动作。例如,输入装置可根据意图确定来将询问或命令传递到本地或远程信息源或装置,或者可向用户呈现由中央装置处理的请求结果。

参考图4,在操作410中,中央装置可从输入装置接收多语气自然语言输入。集合了来自整个环境的语境和其它知识的中央装置可因此在操作420中对发言进行转述并在操作430中根据所转述的发言来确定输入的意图。这样,中央装置可在确定发言意图的过程中考虑与整个环境中的语境、领域接口进程、应用和装置能力有关的信息,包括对与输入相关的一个或多个领域进行鉴别。然而,应当明了的是利用从整个环境集合的信息会引起在不同情况下的含混或不明确(例如,包含词语“交通”的发言在与电影、音乐和导航有关的不同领域中会具有不同的意图)。

这样,一旦中央装置尝试确定自然语言输入的意图,就会在操作440中进行关于一个或多个次级装置(即,除了输入装置以外存在于合成模型中的其它装置)是否也能在所鉴别的一个或几个领域中进行意图确定的确定步骤。当没有鉴别出这样的次级装置时,确定操作440直接分支到操作480来将确定的意图和任何从确定意图中鉴别出的命令、询问、或其它请求发送到输入装置。

另一方面,当环境中的一个或多个次级装置具有在鉴别的一个或几个领域中的意图确定能力时,可在操作450中将自然语言输入发送到这些次级装置。随后如图5所示次级装置可确定意图,该确定步骤中包括了大体上与上述输入装置和中央装置的技术类似的技术(即,可在操作510中接收自然语言输入,包含在其中的发言可在操作520中转述,并且在操作530中进行的意图确定可在操作540中返回到中央装置)。

回到图4,中央装置可在操作460中对从次级装置接收到的意图确定响应进行比较。例如,如上所述,中央装置可鉴别一个或多个次级装置能否在中央装置所鉴别出的与自然语言发言有关的领域中进行意图确定。将要明了的是,在操作450中被调用的次级装置通常可包括多个装置,并且可根据处理资源、通信通过量、或其它因素(例如,次级装置可包括具有大量处理能力和宽带网络连接的信息通讯装置、以及具有较小处理能力和单一的蜂窝式连接的嵌入式移动电话,在这种情况下,很可能是信息通讯装置在嵌入式移动电话之前就将结果提供给中央装置)来以交错方式从次级装置接收意图确定响应。因此,根据次级装置响应时间的潜在变化,中央装置可被构成为对比较操作460中的比较进行约束。例如,一旦从满足可接受信任等级的次级装置之一接收到意图确定就终止比较操作460,或者当经过预定量的时间或消耗了预定量的资源时切断操作460。然而,在其它实现方式中,显然可将比较操作460构成为运行至完成而不考虑发生了延迟或接收到了适当的意图确定。另外,应当明了的是可使用各种标准来确定是否或何时结束比较操作460,这些标准包括但不限于给定自然语言输入或对话的特性、或其它交互或系统或用户偏好的特性。

在任何情况下,当比较操作460完成时,顺序的操作470可包括中央装置在从一个或多个先前在操作450中被调用的次级装置接收的意图确定响应中作出裁断。例如,产生意图确定的每个被调用的次级装置都可为该意图确定指定信任等级,并且中央装置会在对响应进行裁断的过程中考虑这些信任等级。而且,中央装置会将其它标准与次级装置或从次级装置接收的意图确定相关联,从而进一步增强使用最佳意图确定的可能性。例如,各个次级装置都只会针对专用领域中的部分识别而被调用,并且中央装置可集合并裁断部分识别来创建完整的转述。在另一示例中,多个次级装置可被调用来执行覆盖意图确定,并且中央装置会考虑次级装置的能力来对各个信任等级进行加权(例如,当两个同样的次级装置之一使用了多通道语音识别分析时,使用多通道语音识别分析的次级装置可被加权为具有更高的成功可能性)。应当清楚中央装置可被构成为从所有的意图假定中(包括在操作430中由中央装置产生的意图确定假定)裁断并选择一个意图确定。一旦选择了最佳意图确定假定,则中央装置随后在操作480中将该意图确定连同任何可能与其相关的命令、询问、或其它请求一起提供到输入装置。输入装置随后可进行如上图3所述的适当动作。

根据本发明的各个方面,图6示出了集成多语气多装置的自然语言语音服务环境的分布实现方式的示例的框图。如上所述,分布实现方式还可被分类为断开或对等模式,在集中实现方式中的中央装置无法达到或无法满足环境需要时使用该模式。图6所示的分布实现方式大体上以类似于上述集中实现方式的目的来工作(即,确保环境包括集合了环境中多个装置610a-n的知识和能力的广泛的模型)。但是,分布实现方式可工作在多少稍有不同的方式下,其中为一个或多个装置610a-n提供整体合成模型,或者将各个不同方面的模型分布到多个装置610a-n或者它们的各种组合。

总的来说,多个语音装置610a-n可通过语音服务接口630彼此耦接,该语音服务接口630包括任何适当的实体或虚拟接口(例如,通用信息总线或网络接口、服务定向提取层等)。各个装置610a-n因此可作为协作节点工作来对任何一个装置610所接收的多语气自然语言发言进行意图确定。而且,在同步某些形式的数据以保证装置610a-n之间一致处理的同时,装置610a-n可共享词汇表、语境、能力和其它信息的知识。例如,由于在装置610a-n中使用的自然语言处理组件会发生变化(例如,存在不同识别语法或语音识别技术),所以在意图确定处理中使用的词汇翻译机制、误识别、语境变量、标准值、标准处理器和其它信息应被同步为通信能力所允许的程度。

通过共享意图确定能力、装置能力、推断能力、领域知识和其它信息,可本地地(例如在一个输入装置)、协作地(例如具有与发言相关的特定能力的装置可发送请求来处理发言)、或者结合这两种方式(例如输入装置可考虑仅在无法确定发言意图时传递到次级装置)来确定将发言传递到装置610a-n中特定的一个。类似地,在一个或多个装置610a-n处执行的部分识别可被用于确定传递针对发言的另一意图确定的策略。例如,可以在只能确定一个领域意图的输入装置处接收包含了关于多个不同领域的多个请求的发言。在该示例中,输入装置可执行与该输入装置有关的领域中的部分识别,并且该部分识别还鉴别出该输入装置不具有足够识别信息的其它发言领域。因此,输入装置执行的部分识别可产生对其它潜在相关领域的鉴别,并可形成策略来将该发言传递到环境中包括了针对那些领域的识别信息的其它装置。

结果,包括了自然语言发言的多语气自然语言输入可被传递到各个装置610a-n当中,从而以分布方式执行意图确定。然而,由于装置610a-n的任意一个所具有的能力和知识会变化,所以每个装置610a-n会与各个装置610a-n所产生的针对意图确定的可靠因数相关联。这样,为了保证最终的意图确定能够以一个足够的信任等级而被信任,可在装置610a-n之间分布知识来保证由每个装置610a-n所提供的针对意图确定的可靠性度量在整个环境中都是相称的。例如,即使附加知识会导致环境中的冗余,也会将该知识提供到具有较低意图确定可靠性的装置,从而保证环境范围内意图确定的相称可靠性。

因此,在集成语音服务环境的分布实现方式中,可通过各种方式来处理发言,这些方式取决于给定时间的情况(例如,系统状态、系统或用户喜好等)。例如,可在一个输入装置处对一个发言进行本地处理,并在意图确定信任等级降到给定阈值以下时仅将该发言传递到次级装置。在另一示例中,根据上述对知识和能力的建模来将发言传递到特定装置。在又一示例中,发言可遍布到环境中的所有装置当中,并且会发生裁断,由此比较意图确定并对意图确定的最佳猜测进行裁断。

因此,可以通过各种方式来处理发言,包括通过本地技术、集中技术、分布技术以及这些技术的各种组合。尽管明了存在许多变型,图7只示出了根据本发明的各个方面、在语音服务环境的分布实现方式中对多语气自然语言输入的本地和分布处理进行结合的示例的流程图。具体来说,在操作710开始分布处理,其中在输入装置处接收多语气自然语言输入。输入装置随后在操作720中利用各种相关的自然语言处理能力来对多语气输入中所包含的发言进行转述(例如,使用自动语音识别器和相关的识别语法),并接着在操作730中确定多语气自然语言输入的初步意图。应当明了的是操作710到操作730通常可使用与输入装置相关的本地意图确定能力来执行。

此后,在操作740中,输入装置可调用一个或多个次级装置的意图确定能力。具体来说,输入装置可向一个或多个次级装置提供与多语气自然语言输入有关的信息,该一个或多个次级装置可利用本地意图确定能力来使用上述图5所描述的技术进行对输入的意图确定。还应当明了,在各种实现方式中,在操作740中被调用的次级装置可仅仅包含具有与关于输入所鉴别出的特定领域有关的意图确定能力的装置。在任意情况下,输入装置可在操作750中从所调用的次级装置接收意图确定,并且随后输入装置可比较从次级装置接收的意图确定。输入装置随后在各个意图确定中作出裁断,或者结合各个意图确定(例如,当专用次级装置确定了专用领域中的意图时),又或者在意图确定中进行裁断来确定对多语气自然语言输入的意图的最佳猜测(例如,根据与各个意图确定有关的信任等级)。根据确定的意图,输入装置随后可在操作770中进行适当的动作,例如发出将在输入装置或次级装置的一个或多个处执行的一个或多个命令、询问或其它请求。

而且,除了上述示例的实现方式之外,各种实现方式还包括操作的持续收听模式,其中多个装置可对基于多语气语音的输入进行持续收听。在持续收听模式中,当发生一个或多个预定事件时,环境中的每个装置可被触发来接收一个多语气输入。例如,每个装置都会与一个或多个关注词语相关,诸如“电话,<多语气请求>”针对移动电话,或者“计算机,<多语气请求>”针对个人计算机。当环境中的一个或多个装置识别出相关的关注词语时,会导致关键字激活,其中相关装置触发来接受接下来的多语气请求。另外,在合成模型中的多个装置可进行收听的情况下,该合成模型可使用所有可用输入来增加识别率。

而且,应当明了的是可将持续收听模式应用到集中语音服务环境、分布集中语音服务环境或各种组合环境中。例如,当合成模型中的每个装置具有不同的关注词语时,识别一个关注词语的任意给定装置都会参照一种合成模型来确定与该关注词语相关的目标装置或功能。在另一示例中,当合成模型中的多个装置共享一个或多个关注词语时,多个装置会彼此协作来对用于处理多语气输入的信息进行同步,该信息诸如是包含在该多语气输入中的发言的开始时间。

本发明的实现方式可以通过硬件、固件、软件或这些方式的各种组合来实现。本发明还可被实现为存储在机器可读介质中的指令,可由一个或多个处理器来读取和执行这些指令。机器可读介质可包括各种用于存储或发送具有机器(例如计算装置)可读形式的信息的机构。例如,机器可读存储介质可包括只读存储器、随机访问存储器、磁盘存储介质、光存储介质、闪速存储装置及其它,并且机器可读发送介质可包括传播信号的形式,诸如载波、红外信号、数字信号及其它。另外,固件、软件、程序或指令可以在上述关于特定示例方面和本发明的实现方式方面的公开来描述,并执行某些动作。然而,显然这些描述仅仅是为了方便,这样的动作事实上是由计算装置、处理器、控制器、或其它执行固件、软件、程序或指令的装置所进行的。

描述了各个方面和实现方式包括特定的特征、结构或特性,但每个方面或实现方式并非必须包括这些特定的特征、结构或特性。另外,当特定的特征、结构或特性结合一个方面或实现方式而被描述时,不管是否进行了直接的描述都应当理解该特征、结构或特性可与其它方面或实现方式相关地存在。因此可在不超出本发明范围和精神的前提下对前面的描述进行各种变化和修改,并且说明书和附图应被看作仅仅用来示例,本发明的范围仅由所附权利要求来确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号