首页> 中国专利> 确定数据意向并基于该意向响应数据的系统和方法

确定数据意向并基于该意向响应数据的系统和方法

摘要

本发明涉及确定所接收的数据(如,电子邮件、语音、图形……)的意向,并基于该意向响应数据的系统和方法。本系统和方法采用基于浅和深语言分析(如,语义和句法)的特征的各种组合来产生非常高的准确度。本系统和方法分析并归类所接收的数据,以查找可包括意向的数据。该数据可通过提取涉及意向的特征来进一步细化。特征可由分类器用于确定意向。如果意向证明响应是正确的,则数据被进一步细察和重新表达,以生成指示该意向的描述。重新表达和包括以逻辑形式表示特征、变换该形式并生成可以可视和/或可听地向用户呈现的意向描述。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-20

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20150429 申请日:20050228

    专利申请权、专利权的转移

  • 2012-03-14

    授权

    授权

  • 2007-05-02

    实质审查的生效

    实质审查的生效

  • 2005-09-07

    公开

    公开

说明书

相关申请的参照

本申请要求2004年3月1日提交的名为“确定、推断或预测具有内容的项目的意向的系统和方法(SYSTEMS AND METHODS FOR DETERMING,INFERRING OR PREDICTING INTENT OF AN ITEM HAVING CONTENT)”的美国临时专利申请序列号60/549,075的优先权,其整体通过引用结合于此。

技术领域

本发明一般涉及计算机系统,尤其涉及接收一个或多个数据集、分析该数据以确定对应的意向、并基于该意向执行行动的系统和方法。

背景技术

随着计算机和信息系统以及无线和因特网通信等相关的网络技术的增长,日益增长的电子信息得以传递、传输然后由用户和/或系统处理。作为示例,电子邮件程序已变为计算机用户中用于生成和接收这类信息的流行应用程序。例如,随着因特网的出现,交换电子邮件已变为影响为什么许多人获得计算机的一个重要因素。在许多企业环境内,电子邮件已变为同事间交换信息的一个近乎实际的标准。然而,随着电子邮件和其它信息传输系统的较高的普及度,对于管理和处理来自多个来源的越来越多的信息量也开始出现问题。

在这些问题中,许多用户现在面对着电子邮件和/或其它信息泛滥,用户必须对这些电子邮件和信息进行分类和/或响应,从而使得能够发送、接收和处理信息的能力几乎变成富有成效的障碍。例如,某些用户报告每天接收超过100个电子邮件消息。由于如此大量的电子邮件和其它电子信息,因此变得很难在实际上不花费相当多的时间来对重要性作出个人决策的情况下依照什么重要而什么不重要来管理信息。作为这些决策的一个示例,用户可能必须判断是否应当立即响应消息、忽略消息以在稍后阅读、或由于不重要(如,垃圾邮件)简单地删除消息。

已作出了尝试来针对解决这些信息管理问题。例如,已作出了尝试来缩减用户接收到的垃圾邮件或促销电子邮件(如,兜售信息)的量。另外,某些电子邮件程序提供了支配如何在程序内管理电子邮件的规则的生成。例如,一种规则规定,“来自各种地址的所有邮件”被放入特殊的文件夹中。这类尝试一般不针对电子邮件和其它信息传输/接收系统后面的基本问题。即,常规系统通常促使用户手动细读并核查他们所接收的消息中的某些(如果不是全部的话)的至少一部分,以确定哪些消息应当被审阅或被进一步处理。如上所述,这花费了更富有成效的活动的时间。因此,对于接收到的大量信息,需要一种系统和方法以便于对电子信息进行有效的处理,同时减轻与其相关联的手动干预的成本。

发明内容

以下提出了本发明的一个简化概述,以提供对本发明的某些方面的基本理解。本概述并非本发明的广泛综述。它并非标识本发明的关键或决定性元素,也并非描绘本发明的范围。其唯一的目的是以简化的形式提出本发明的某些概念,作为后文提出的更详细描述的序言。

本发明涉及基于数据的意向响应所接收的数据(如,电子邮件、语音、图形……)的系统和方法。一般而言,本系统和方法分析并分类所接收的数据、提取涉及意向的数据和/或丢弃与意向无关的任何数据、以及根据所提取的数据集确定该意向。如果确定意向证明响应是正确的,则进一步细察并重新表达该数据以生成指示该意向的描述。这类描述可以例如可视地或可听地以不同的方式呈现给用户。此处描述的新颖系统和方法采用了基于浅语言分析(如,功能单词频率、语音三元语法的一部分……)和深语言分析(如,无上下文语法产生频率和从语义图表导出的特征)的各种特征组合,以产生将短随机文本样本归于特定来源的提高的准确度。

在本发明的一个方面中,提供了一种确定意向并基于该意向生成行动和/或通知的系统。本系统包括一种数据管理器,它可采用各种技术来确定数据的相关联意向。在一个实例中,该数据管理器使用诸如元数据、属性、内容、上下文、关键词、历史、启发、推论、规则、分界、外来信息(如,数据来源、发送和/或接收数据的时间和星期几、处理数据的成本/收益等)等信息,以将数据分组成具有相似特征的一个或多个数据集。该数据管理器可提取涉及意向的数据和/或丢弃与意向不相关的数据。指示意向的数据可被分析以确定是否响应该数据。当确定应当提供响应时,相应的数据可被进一步细化(refine)、重新表达、并用于生成合适的响应,如自动执行行动和/或通知用户。该数据管理器可包括各种组件,如执行接收数据的初始分析的分析器;将数据分割成各种分组的语法剖析器;将数据缩减到涉及意向的数据集的提取器;从缩减的数据集生成意向的分类器;确定意向是否证明响应是正确的的决策组件(阈值器);以及执行相关的行动和/或通知用户的行动引擎。

以下描述和附图详细地陈述了本发明的某些方面。然而,这些方面仅表明了可采用本发明的原理的各种方法中的几种,并且本发明并不旨在包括所有这样的方面及其等效方面。当结合附图考虑时,从以下本发明的详细描述中,本发明的其它优点和新颖特征将变得显而易见。

附图说明

图1示出了接收数据、确定数据的意向、并生成对应的行动和/或通知的示例性系统。

图2示出了确定意向并生成对应的行动和/或通知的示例性数据管理器。

图3示出了与便于确定意向并生成对应的行动和/或通知的数据管理器相关联的多个示例性实体。

图4示出了确定数据意向并自动向用户呈现意向描述的示例性流程图。

图5示出了确定数据意向并自动向用户呈现所接收的数据的意向的描述的示例性方法。

图6示出了一个示例性数据管理器,它与多个实体通信以便于提前(proactive)测量,来减轻与关于数据的不作为(inaction)相关联的负面结果。

图7示出了采用智能来便于确定意向的示例性数据管理器。

图8示出了基于数据意向自动响应数据的示例性方法。

图9示出了可依照本发明的一个方面采用的一个示例性图形用户界面。

图10示出了依照本发明的一个方面的一个示例性图形用户界面,它描述了标识的电子邮件、电子邮件中选择的文本和与意向相关的数据。

图11示出了依照本发明的一个方面用于选择要添加到任务列表的任务的一个示例性图形用户界面。

图12示出了一个示例性意向分析系统。

图13示出了一个示例性联网环境,其中可采用本发明的新颖方面。

图14示出了一个示例性操作环境,其中可采用本发明的新颖方面。

具体实施方式

本发明涉及确定数据意向的系统和方法。这类意向可通过分析和归类数据、从归类的数据中提取特征、以及基于特征分类数据来确认、推断或预测意向来确定。标识了意向的数据然后可被转换成可提供给用户的一种表达形式。

如本申请中所使用的,术语“组件”、“系统”、“引擎”等指的是计算机相关的实体,无论是硬件、硬件和软件的组合、软件还是执行中的软件。例如,组件可以是,但不限于,运行在处理器上的进程、处理器、对象、可执行码、执行线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程中,并且组件可位于一个计算机上和/或在两个或多个计算机之间分布。

另外,术语“推断”一般指从一组通过事件和/或数据捕捉的观察中推理或推断系统、环境和/或用户的状态的过程。例如,推断可用于标识特定的上下文或行动,或可生成状态的概率分布。推断可以是概率性的—即,基于数据和事件的考虑计算感兴趣的状态的概率分布。推断也可以指用于从一组事件和/或数据组成更高级事件的技术。这类推断导致从一组观察的事件和/或储存的事件数据构造新的事件或行动,无论事件是否在相邻的时间上相关,也无论事件是否来自一个或若干个事件和数据源。

本发明参考附图来描述,贯穿整个附图,相同的标号用于指相同的元素。在以下描述中,为解释目的,陈述了众多特定细节以提供对本发明的彻底理解。然而,很明显,本发明可以不采用这些特定细节来实施。在其它实例中,以框图的形式示出众所周知的结构和设备,以便于描述本发明。

图1示出了确定意向并基于意向生成行动和/或通知的系统100。系统100包括数据管理器110和接口组件120。数据管理器110通过接口组件120接收数据之后,可采用各种技术来确定数据的相关意向。在一个实例中,数据管理器110使用与数据相关联的信息,如元数据、属性、内容、上下文、关键词、历史、启发、推论、规则、分界等,以将数据分组成一个或多个数据集,其中,相应的集具有相似的特征。这类数据集可被进一步处理以提高决策分辨率(decision resolution)或粒度。数据管理器110可从结果集中提取信息并使用所提取的信息来对意向进行译码。

数据管理器110可分析意向来确定是否响应该数据。当确定应当提供响应时,相应的数据集可被进一步细化并用于生成合适的响应。合适的响应包括例如自动执行行动和/或通知用户。自动响应可包括回答问题、提供请求的信息、激活设备、调度会议、重新组织(recast)工程等等,通知用户可包括将项目插入到用户时间表、向用户提供要完成的事情、联系用户(如寻呼机、蜂窝电话、手持式设备……)等等的清单。另外,用户通知可被传送到一消息通信服务和/或储存在存储器中用于排队和/或随后由用户察看。

接口组件120可用于将数据管理器110耦合至本质上发送数据的任何实体。例如,接口组件120可将数据管理器110耦合至电子邮件系统、文字处理程序、语音捕捉应用程序、电话系统、视频记录器/播放器等等。由此,数据可以是例如电子邮件、文档、语音和图像的形式,并以不同形式被格式化(如结构化和未结构化)。此外,数据可被发送到接口组件120和/或由数据管理器110通过接口组件120接收。这类数据可被直接传送到接口组件120和/或被储存(如,本地或远程)并随后提供给接口组件120。在另一实例中,接口组件120可从来源检索数据和/或将信号发送到来源以指示它可用于接收数据。此外,这类传送可以通过例如硬布线和/或无线网络和/或总线通信信道来进行。

图2示出了依照本发明的一个方面的数据管理器110。如图所示,数据管理器110可包括意向确定组件210、存储组件220、决策制定组件230和行动引擎240。意向确定组件210可接收诸如电子邮件、消息、文档、音频、图形等数据。例如,这类数据可作为一个或多个数据字符组(burst)、数据流、多个数据分组来提供,并例如在包封(envelope)内被加密、编码、压缩和/或调制。另外,这类数据可被保存在存储组件220中。保存的数据可用于生成统计和/或训练集、提供临时存储、和/或维护副本以便于数据误差校验和误差恢复。

意向确定组件210可采用各种技术来确定数据的相关意向。例如,意向确定组件210可基于元数据、数据内的位置、内容、上下文、关键词、历史、启发、推论、规则、分界等对数据进行归类。另外,诸如数据源、发送和/或接收数据的时间和/或星期几、处理数据的成本/收益等外部信息可使用以便于归类数据。意向确定组件210可细察所归类的数据以确定数据意向。可以理解,这类意向可以是做某些事情(如,执行某些行动)或不做事情(如,与无关紧要的信息相关联的数据)的意向。

在确定了意向之后,数据或其子集、分析和/或意向可被保存在存储组件220,和/或提供给决策制定组件230。意向本质上可以用任何已知的格式来表示。例如,意向可作为二进制指示符、灰度级值、百分比、置信度等级、和/或概率来提供。决策制定组件230可确定意向是否证明响应是正确的。例如,决策制定组件230可使用阈值来与意向进行比较。阈值可以是用户定义的、默认的和/或基于过去的用户响应自动设置的。另外,阈值可被手动和/或自动地实时(动态地)调整,以适应各种用户和/或环境。此外,阈值可基于推论、预测、概率等来设置。

如果在评估了意向之后确定不需要任何进一步的行动,则数据可被丢弃或转发到其目的地。如果确定需要响应,则数据、意向和/或任何相关联的信息可被传送到行动引擎240。所传送的信息可被进一步分析并被转换成一种语言表示,它可用于生成描述。这类描述可用于自动响应和/或通过可视和/或可听通知来通知用户。

图3示出了依照本发明的一个方面的数据管理器110。数据管理器110包括意向确定组件210、存储组件220、决策制定组件230和行动引擎240。在本示例中,意向确定组件210包括以下组件:分析器310;语法剖析器320、提取器330;分类器340。发送到数据管理器110的诸如电子邮件、消息、文档、音频、图形等的数据可由分析器310和/或存储组件220接收。这类数据可通过如上所述的各种技术和格式来提供。分析器310可细察和归类数据(如,语法剖析成相应的贮存结构(bin))。这一归类可包括在标题、正文、称呼等之间区分。分析器310可基于元数据、数据中数据子集的位置、内容、上下文、关键词、历史、启发、推论、规则、分界、外来信息(如数据源、发送和/或接收数据的时间和/或星期几、处理数据的成本/收益等)等对数据进行归类。

语法剖析器320可细察归类的数据并将数据分割成逻辑结构,如串、单词、句子、段落……。类似于分析器310,语法剖析器320可使用诸如元数据、数据内数据子集的位置、内容、上下文、关键词、历史、启发、推论、规则、分界和/或其它准则来提高决策分辨率或细化决策粒度。对于相应的结构,提取器330可提取特征。

特征可被传送到分类器340,它可确定意向。这类意向可以是做某些事情(如,执行某些行动)或不做事情(如,与无关紧要的信息相关联的数据)的意向,并可作为例如二进制指示符(如,“是”或“否”,“1”或“0”)、滑动标尺、百分比、置信度等级和/或概率来提供。可以理解,分类器可以是任一分类器,如支持矢量机、贝叶斯规则、经验工程师分类器……。训练集可被手动和/或自动生成,并在训练时间用于训练分类器。另外,分类器可在运行时间被动态地更新。在本发明的一个方面,训练集至少包括涉及数据属性和语言结构的信息。

如上所述,意向可被提供给决策组件230,它可将意向与阈值相比较。对于非二进制标记,阈值可被定义并用于呈现诸如响应或不响应的决策。对于非二进制决策,可考虑各种情况来确定适当的截止点(cut-off point)。例如,一个用户可判断较佳的是选择谨慎的做法并令系统在具有应当执行行动的微小机会时响应,而另一用户可判断响应的成本超过了丢弃数据的成本。

如果在评估意向之后确定不需要任何进一步的行动,则数据可被丢弃或转发到其目的地。如果确定需要响应,则数据、意向和/或任何相关联的信息可被传送到行动引擎240,在那里它可被重新表达。例如,数据可被进一步处理、转换成逻辑表示、并用于生成描述。这类重新表达的数据可以是单词、段落、片断句子等的形式,并用于自动响应或通过可视和/或可听通知来通知用户。

图4-5分别示出了依照本发明的流程图和方法。尽管为解释简明性的目的,流程图和方法被描述为一系列动作,然而可以理解和明白,本发明不受动作的顺序所限制,因为依照本发明,某些动作可以不同的顺序和/或与此处所示出并描述的其它动作一起发生。此外,并非需要所有示出的动作来实现依照本发明的流程图和方法。本发明可以在诸如由一个或多个组件执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言,程序模块包括例程、程序、对象、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。通常,如各种实施例中所需要的,程序模块的功能可被组合或分布。

图4示出了依照本发明的示例性流程图400。在标号410处,确定是否存在数据。如果不存在,则系统继续等待。可以理解,系统可周期性地轮询数据和/或可在数据已准备好被传送时通知系统。如果确定数据可用,则在420,从数据中获取一个或多个特征集。另外,特征可基于元数据、内容、上下文、关键词、历史、启发、推论、规则、分界、外来信息(如,数据源、发送和/或接收数据的时间和/或星期几、处理数据的成本/收益等)等来提取。

在标号430处,特征可被传送到一机器学习的分类器以确定意向。这类意向可以是做某些事情(如,执行某些行动)或不做事情(如,与无关紧要的信息相关联的数据)的意向。在440,如果确定意向不需要任何进一步的行动,则系统转移回到410处的空闲或等待状态。然而,如果在440确定需要进一步行动,则在450重新表达数据。这一重新表达可包括进一步细化数据和生成用于通知用户的数据。在标号460处,可以例如图形用户界面和/或音频信息向用户呈现这类数据。

图5示出了依照本发明的一个方面的示例性方法500。在标号505处,获取诸如电子邮件、消息、文档、音频、图形等数据。在510,细察并归类数据。这样归类可包括基于元数据、数据内数据子集的位置、内容、上下文、关键字、历史、启发、推论、规则、分界、外来信息(如数据源、发送和/或接收数据的时间和/或星期几、处理数据的成本/收益等)等在标题、正文、称呼之间区分。在515,归类的数据被语法剖析成语言结构(如,串、单词、句子、段落……),并被进一步描绘以达到更大的分辨率。这类细化可通过元数据、数据内数据子集的位置、内容、上下文、关键词、历史、启发、推论、规则、分界和/或其它准则来促进,以提高决策分辨率或细化决策粒度。

在520,可从相应的结构中提取特征。特征可用于训练确定意向的分类器。合适的分类器包括例如支持矢量机、贝叶斯分类器、经验工程师分类器。在标号525处,分类器确定意向。在530,可确定是否存在做某些事情的意向或仅是一空闲意向。这类确定可以基于与预定阈值的比较。如果在530确定不需要任何进一步的行动,则数据可被丢弃或转发到其目的地。如果在530确定需要响应,则在535,数据、意向和/或任何相关联的信息可用于生成逻辑形式。在540,可基于该逻辑形式生成描述。在545,可通过一用户界面向用户呈现该描述。

图6示出了依照本发明的一个方面的数据管理器600。数据管理器600包括数据接收组件610,它接收包括内容的项目(例如数据)以及外来数据/证据。提取组件620例如部分地基于外来数据/证据对接收的项目进行语法剖析。提取组件620为方便数据管理器600,移除与项目相关联的无关特征,以将项目重新表达为项目意向上的汇聚的一部分。数据存储630可储存来自接收组件610和/或提取组件620的信息,以及规则、表格、索引、算法、历史数据、模式等等,以便于依照本发明确定、推断和/或预测意向,以及采取行动、调度行动、不采取行动等等。例如,数据管理器600可方便采取提前的措施以减轻与项目的无行动相关联的负面结果。

更具体地,数据管理器600可对与项目相关联的内容进行语法剖析-内容可以是文本、音频、图形等—并使用各种技术(语言处理程序、图像识别、语音识别……)来标识内容的无关特征并移除它们和/或减去它们,作为汇聚在项目意向上的重新表达过程的一部分。例如,数据管理器600可标识或推断对应于任务的项目并修剪去无关特征。作为重新表达过程的一部分,例如,代名词可被重写为名字或其它明确的引用,而隐含日期(“明天”、“下周”)可被重写为明确日期(“2005年2月20日)。数据管理器600理解语言和/或语言的语义,作为执行逻辑重建的一部分。数据管理器600可包括关于理解语言和/或内容语义的分类器或其它机器学习系统。

由此,数据管理器600一种丰富的分析系统,它将特征提取与内容的语言理解相结合,以确定、推断和/或预测项目意向。依照数据管理器600的一个具体的示例性实现,可采用一种结合重新表达对项目进行语法剖析以汇聚在意向上的真实自然语言处理程序-逻辑构造。重新表达可用于将意向重新转换成另一语言以及不同的格式,用于传送意向(如,通过基于图形的消息)。此外,数据管理器600可基于确定的意向采取行动(如,优先化、日程安排、自动化行动……)。

数据管理器600可使用关于重新表达的外来证据(如,发送者、时间、附件、共同接收者、紧急度……)。此外,数据管理器600可采用基于n语法(n-gram-based)的分析类型,以及采用相关特征的分析类型的关系,并将项目的内容精炼成例如单个语句,并通过单个语句(如,弹出泡)传送这样意向。更具体地,一旦确定了意向,意向可以一种非常精简的方式(如,提要、大纲、图标、基于图形的意向传送-图片、颜色……)来传送。

数据管理器600还包括上下文组件640,它提供了结合本发明选择性地确定关于项目数据的上下文。例如,映射组件650方便将意向映射到任务或行动。映射组件650也可通过担当数据的预过滤器以便于依照本发明的分类。通知组件660向个人、计算机或系统提供关于意向分析和数据管理器600依照意向分析的推荐的通知。可以理解,数据管理器600可与多个实体670(如,个人、组、设备、计算机、系统……)就意向分析进行通信,其中,数据可从实体接收以及被发送到实体。

图7示出了依照本发明具有影响各种功能的组件的数据管理器600。人工智能(AI)组件710能够实现依照本发明的各种自动化功能。AI组件710可采用关于确定、推断、诊断、预兆和预测的分类器。可以理解,依照本发明的各方面的分类可采用概率性和/或基于统计的分析(如,分解成分析效用和成本),以预测或推断用户希望自动执行的行动。分类器可以是将输入属性矢量x=(x1,x2,x3,…,xn)映射到输入属于类的置信度的函数—即,f(x)=conficence(class)。例如,可采用支持矢量机(SVM)分类器-SVM一般通过找出在多维特征空间中将正例(positive example)从负例(negative example)中分离出的超平面(hyper plane)来运作。包括,例如,单纯贝叶斯、贝叶斯网络、决策树以及提供不同独立性模式的概率性分类模型的其它专用和非专用模型分类方法也可被采用。此处所使用的分类也包括用于开发优先级模型的统计回归。数据管理器600也包括关于本发明的各种通信方面的web服务器720、电子邮件服务器730和无线收发器740,以及存储器750、电源760和处理器770。

图8示出了依照本发明的方法800。尽管为解释的简明性目的,方法被示出并描述为一系列动作,然而可以理解和明白,本发明不受动作的顺序所限制,因为依照本发明,某些动作可以不同的顺序和/或与此处所示出并描述的其它动作一起发生。此外,并非需要所有示出的动作来实现依照本发明的方法。本发明可以在诸如由一个或多个组件执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言,程序模块包括例程、程序、对象、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。通常,如各种实施例中所需要的,程序模块的功能可被组合或分布。

前进到图8,在810,接收数据。在820,标识数据的相关特征并对其进行语法剖析。在参考标号830处,分析经语法剖析的内容,并执行内容的重新表达以汇聚在意向上。这一重新表达可包括例如语言分析以及特征分析。在840,基于重新表达确定要采取的最优行动。例如,数据可被移动到一特定文件夹,或者如果项目对应于任务,则可执行进一步的重新表达以确定、推断和/或预测要执行的任务以及要采取的必要行动(如,对会议进行日程安排、发送电子邮件、通知某人、发送文档、取消会议……)。在参考标号850处,执行合适的行动。

图9-11示出了方便此处描述的本发明的示例性用户界面。如上文详细讨论的,在接收数据之后,可确定意向并执行对应的行动。作为示例,在接收电子邮件消息之后,可执行电子邮件的表面分析以区别电子邮件中的各部分。例如,电子邮件可通过以下来描绘:标题、消息正文和转发的部分。所标识的消息正文可由句子分隔。对于相应的句子,可提取特征并由机器学习分类器进行处理,以获取对句子是“任务”的概率的估算。如果句子是“任务”,则可分析该句子以产生一逻辑形式。逻辑形式可被转换并用于生成“任务”描述,它可通过一用户界面呈现给用户。这样呈现可通过将其自动添加到用户任务列表来发生。图9描述了用于这一电子邮件系统的示例性用户界面900。图10在1010示出了(如此处所描述)已被标识的各种电子邮件。另外,图10在1020示出了电子邮件内的加亮数据,并在1030示出了提取并重新表达的数据(如,串)。图11示出了通过由用户选择的重新表达的数据和/或自动填充的任务列表。

图12提供了示出本发明的各种训练和运行时间方面的示例。在1200和1210,分别接收电子邮件句子和新电子邮件句子。在1220,通过手动和/或自动技术从接收的电子邮件生成已注释数据集。在1230,将训练集馈送到一机器学习算法,它用于构造一机器学习分类器。在1240,机器学习分类器采用该算法来提供所接收的数据包括任务的概率(如,P(Task))。如果在1240,概率超出预定的阈值,则在1270,重新表达电子邮件并将其自动添加到用户的任务列表。

以下段落示出了依照本发明的各方面的示例性训练和运行时间技术。

示例性特征提取

在训练时间和运行时间,电子邮件消息可被类似地处理。例如,此处所描述的系统可标识电子邮件的标题、转发的部分以及消息正文。在一个实例中,标题可通过搜索诸如“到(To)”、“抄送(CC)”、“自(From)”和“Subject(主题)”等关键词来标识。转发的部分可通过搜索诸如初始行(line-initial)“>”符号的存在等表达式,或标识通常在诸如“原始消息(Original Message)”等文本之后的资料来标识。消息正文可通过搜索例如被定义为不是标题或转发的部分的任何内容的消息新内容来标识。

在接收这类信息之后,可获得一些特征。例如,可获得诸如收件人数量、消息总的大小、消息优先级以及消息是否具有附件等信息。另外,消息正文可使用任一已知的句子分隔器分割成句子。对于正文中相应的句子,可构建一特征矢量,其中,该特征矢量可包括所提取的消息级特征和所标识的句子的显著特征。这类信息可指示句子是否看似为发送者名字或发送者名字的缩写,以及诸如出现在句子中的单词等语言特征;出现在句子中的单词二元语法(bigram);句子中的单词三元语法(trigram);从语言分析中得到的特征,包括句法结构和属性以及逻辑形式结构和属性。可以理解,采用的特征集可以是如下文详细描述的开放式研究问题。还可以理解,可使用任一合适的机器学习分类器,如支持矢量机和经验工程师组件(如,考虑所提取的特征然后预测任务还是非任务的手写代码)。

示例性训练数据和模型训练

为创建用于机器学习分类器的训练数据,人类注释者可审阅训练集中相应消息的消息正文中的相应句子。对于这些句子,注释者可判断句子是否应当被分类为任务。注释者的判断可以被称为目标值或目标类。可对相应的句子自动提取特征并与目标值配对。可训练机器学习分类器,以对于自动提取的特征将任务从非任务中区别开来。

示例性运行时间应用程序

在运行时间,此处所描述的系统可以此处所描述的方式处理给定的电子邮件消息。对于消息正文中的相应句子,可将关联的特征矢量呈现给机器学习分类器,它产生句子是任务的概率(如,P(Task))的估算。如果句子被认为是任务(如,P(Task)超出阈值),则可分析该句子以产生一逻辑形式。该逻辑形式可以被重新表达,并用于从该逻辑形式生成任务描述。所生成的任务描述可例如通过自动将其添加到用户界面的用户任务列表被提供给用户。

任务的示例性重新表达

此处所描述的系统可以执行所提取的任务句子的基于规则的后处理,以将它们重新表达为类似任务的命令式(imperative)。例如,句子“Oh,by the way,couldyou just send me a few sentences by EOD Friday?(噢,顺便提一句,你能够在周五的期限之前发送给我一些句子吗?)”可以被重新表达成“Just send Rich a fewsentences by EOD Feb.20(在2月20日的期限之前向Rich发送一些句子)”。这一重新表达可涉及各种动作。例如,一个动作可包括对于所提取的句子产生一逻辑形式。另一动作可包括标识包括任务的句子的那一部分。又一动作可包括(本质上以任何顺序)聚焦在所标识的部分上并从逻辑形式中移除无关资料、归一化其引用随发言者或时间变化的句子的某些元素、以及在适当时将这些片断标记为命令句子。再一动作可包括将所得的结构传递到一句子实现组件,它可从该结构中生成句子。以下小节更详细地讨论上述动作。

如上文简要提到的,一个行动可包括对提取的句子产生逻辑形式。这可包括产生句子的各个部分之间的语义和深句法关系的表示。这一表示可以是图表,其节点表示要被分析的句子的部分,其边表示那些部分之间的关系。另外,节点本身可以用与其解释有关的额外信息来注释,例如它是问题还是命令。

包含任务的句子可以具有非任务内容。由此,在标识对应于任务的逻辑形式部分时可使用启发。这可包括整个句子或句子的任何子部分。使用的启发可便于查找与任务相关的特征,如句子是否为命令式、句子的主题是否为“你”、是否使用了诸如“请”的模态词或模态动词等等。可以在所标识的逻辑形式上执行进一步的处理,而剩余部分可被忽略。

被认为对任务表达不必要的单词、短语和/或从句可从逻辑形式中移除。这类信息可包括诸如“请(please)”等模态单词和/或诸如“必须(must)”、“能够(could)”等各种助动词,以及某些从句和状语。例如,在句子“Oh,by the way,could you just send me a few sentences by EOD Friday?”中,短语“oh,by the way”以及助动词“could”可以从逻辑形式中移除。另外,某些指示元素(即,其引用根据正在说话的人或者对其说话的人改变,或在说出或书写句子之时或之处改变的单词或短语)可被归一化。例如,它们可用具有恒定引用的非指示元素来替换。例如,第一人称代名词(对不同的说话者不同地引用)可用电子邮件发送者的名字或用明确地指发送者的第三人称代名词来替换。类似地,诸如“Friday(周五)”等指示时间表达式可以根据所说的星期指不同的日期,因此可用具体的日期(如,“Feb.20(2月20日)”来替换。此外,如果逻辑形式具有指示它可以被表达为命令式(如,命令)句子的的某些特征,则它可被注释为命令式。

句子可通过将所得的逻辑形式或结构传递到句子实现组件来重新生成。这一组件可使用语法校验器中作为重写建议的基础的已知技术。

示例性定制

可向用户提供定义(如,通过调整滑动块)精度和任务回叫之间的权衡的能力,例如,以指定他们更希望见到所有的任务(无论任务有多小),还是仅见到用最高置信度预测的任务。其它定制可包括配置系统以自动向用户的任务列表添加任务;可视地指示(如,通过显示一特殊图标或通过对消息加颜色)电子邮件消息包含一个或多个任务,它可以被过滤以仅看到包含任务的消息;在消息的预览中显示消息中存在的任务而非显示前n个字节;加亮对应于任务的消息部分;以及,当用户打开消息时,显示从消息中提取的任务列表,这允许用户校验消息以将它们添加到其任务列表或将它们移至共享的任务集(如,在共享点(SharePoint)团队场所或向某一其他人分配任务)。

为提供用于实现本发明的各方面的附加环境,图13-14及以下讨论旨在提供可在其中实现本发明的各方面的合适的计算环境的简要、通用描述。尽管上文在运行在本地计算机和/或远程计算机上的计算机程序的计算机可执行指令的通用上下文中描述了本发明,然而本领域的技术人员将认识到,本发明也可结合其它程序模块来实现。一般而言,程序模块包括例程、程序、组件、数据结构等,它们执行特定的任务和/或实现特定的抽象数据类型。

此外,本领域的技术人员可以理解,本发明方法可以其它计算机系统配置来实施,包括单处理器或多处理器计算机系统、小型机、大型机,以及个人计算机、手持式计算设备、基于微处理器和/或可编程消费者电子设备等等,其中,每一个都在操作上与一个或多个相关联的设备通信。本发明所示的各方面也可以在分布式计算环境中实施,其中,任务由通过通信网络连接的远程处理设备来执行。然而,本发明的某些(如果不是所有)方面可以在独立的计算机上实施。在分布式计算环境中,程序模块可以位于本地和/或远程存储器存储设备中。

图13是本发明可交互的示例计算环境1300的示意框图。系统1300包括一个或多个客户机1310。客户机1310可以是硬件和/或软件(如,线程、进程、计算装置)。系统1300也包括一个或多个服务器1320。服务器1320也可以是硬件和/或软件(如,线程、进程、计算装置)。例如,服务器1320可容纳线程,以通过使用本发明执行变换。

客户机1310和服务器1320之间的一个可能的通信可以是适用于在两个或多个计算机进程之间传输的数据分组的形式。系统1300包括可用于便于在客户机1310和服务器1320之间通信的通信框架1340。客户机1310操作上连接至可用于储存对客户机1310本地的信息的一个或多个客户机数据存储1350。类似地,服务器1320操作上连接至可用于储存对服务器1320本地的信息的一个或多个服务器数据存储1330。

参考图14,实现本发明的各方面的示例性环境1400包括计算机1412。计算机1412包括处理单元1414、系统存储器1416和系统总线1418。系统总线1418将包括但不限于系统存储器1416的系统组件耦合至处理单元1414。处理单元1414可以是各种可用处理器的任一种。双微处理器和其它多处理器体系结构也可用作处理单元1414。

系统总线1418可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各类总线体系结构的局部总线,这些体系结构包括但不限于,工业标准体系结构(ISA)、微通道体系结构(MCA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA局部总线(VLB)、外围部件互连(PCI),插件总线、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)、火线(IEEE 1394)以及小型计算机系统接口(SCSI)。

系统存储器1416包括易失存储器1420和非易失存储器1422。基本输入/输出系统(BIOS)包括如在启动时帮助在计算机1412内的元件之间传输信息的基本例程,通常储存在非易失存储器1422中。作为说明而非局限,非易失存储器1422可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失存储器1420包括随机存取存储器(RAM)、它担当外部高速缓存。作为说明而非局限,RAM以许多形式可用,如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)和直接存储器总线RAM(DRRAM)。

计算机1412也包括可移动/不可移动、易失/非易失计算机存储介质。例如,图14示出了盘存储1424。盘存储1424包括但不限于,诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒等设备。另外,盘存储1424可单独包括存储介质或与其它存储介质组合,其它存储介质包括但不限于,诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)等光盘驱动器。为便于盘存储设备1424连接到系统总线1418,通常使用可移动或不可移动接口,如接口1426。

可以理解,图14描述了担当用户和合适的操作环境1400中描述的基本计算机资源之间的中介的软件。这类软件包括操作系统1428。操作系统1428可储存在盘存储1424中,它用于控制并分配计算机系统1412的资源。系统应用程序1430利用操作系统1428通过储存在系统存储器1416或盘存储1424上的程序模块1432和程序数据1434对资源的管理。可以理解,本发明可用各种操作系统或操作系统的组合来实现。

用户通过输入设备1436向计算机1412输入命令或信息。输入设备1436包括但不限于,诸如鼠标、跟踪球、触针、触摸垫等定位设备、键盘、麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、web相机等等。这些和其它输入设备通过系统总线1418经由接口端口1438连接到处理单元1414。接口端口1438包括,例如,串行端口、并行端口、游戏端口、通用串行总线(USB)。输出设备1440使用与输入设备1436相同类型端口中的某一些。由此,例如,USB端口可用于向计算机1412提供输入,并从计算机1412输出信息到输出设备1440。提供了输出适配器1442以说明存在一些输出设备1440,如监视器、扬声器和打印机,以及需要特殊适配器的其它输出设备1440。输出适配器1442包括,作为说明而非局限,提供输出设备1440和系统总线1418之间的连接装置的视频卡和声卡。应当注意,其它设备和/或设备的系统提供了输入和输出能力,如远程计算机1444。

计算机1412可以在使用到一个或多个远程计算机,如远程计算机1444的逻辑连接的网络化环境中操作。远程计算机1444可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其它公用网络节点等等,并通常包括相对于计算机1412所描述的许多或所有元件。为简明性目的,仅示出了远程计算机1444具有存储器存储设备1446。远程计算机1444通过网络接口1448逻辑上连接至计算机1412,然后通过通信连接1450物理地连接。网络接口1448包含诸如局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网、令牌环等等。WAN技术包括但不限于,点对点链路、诸如综合业务数字网(ISDN)及其变体等电路交换网络、分组交换网络以及数字订户线(DSL)。

通信连接1450指用于将网络接口1448连接到总线1418的硬件/软件。尽管为说明的清晰性,示出通信连接1450在计算机1412内,然而它也可以对计算机1412是外部的。仅为示例性目的,连接到网路接口1448必须的硬件/软件包括内部和外部技术,如包括常规电话级调制解调器、线缆调制解调器和DSL调制解调器的调制解调器、ISDN适配器和以太网卡。

上文所描述的包括本发明的示例。当然,不可能为了描述本发明而描述组件或方法的每一可想象的组合,但是本领域的普通技术人员可以认识到,本发明的许多另外的组合和置换是可能的。因此,本发明旨在包含落入所附权利要求书的精神和范围中的所有这样的改变、修改和变化。

具体地,对于由上文描述的组件、设备、电路、系统等执行的各种功能,用于描述这类组件的术语(包括对“装置的参照”)旨在对应于执行所描述的组件(如,功能上等效的组件)的指定功能的任何组件,除非另外指明,即使其结构上不等效于所揭示的结构,这些组件执行此处所示的本发明的示例性方面中的功能。在这一点上,也可认识到,本发明包括系统以及具有用于执行本发明的各方法的动作和/或事件的计算机可执行指令的计算机可读介质。

另外,尽管仅参照若干实现之一揭示了本发明的特定特征,然而如在任何给定或特定应用中希望且有利的,这些特征可与其它实现的一个或多个其它特征相组合。此外,在术语“包括”用于详细描述和权利要求书的意义上,这类术语旨在以与术语“包含”用作权利要求书中的过渡词语所解释的类似的方式为包含性的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号