首页> 中国专利> 用于集成和显示从多个可靠来源收集的旅行忠告的系统和方法

用于集成和显示从多个可靠来源收集的旅行忠告的系统和方法

摘要

描述了用于按照旅行目的地给旅行系统的终端用户提供忠告和警告的计算机化的旅行系统和方法。本发明的系统具有客户服务模块,旨在接收来自终端用户的查询,并且旨在向终端用户传递针对查询的旅行目的地的旅行忠告和警告的合并报告。使用下载和解析模块,以便将从多个在线的可靠旅行来源下载的旅行原始文档解析为共享公共格式结构的经清理的原始文档,所述公共格式结构包括小节、小节标题和段落。算法模块将经清理的原始文档集成到按照旅行目的地的旅行忠告和警告的合并报告中。根据选自每个查询的旅行目的地的所有相关的干净的原始文档的基础文档,执行将经清理的原始文档集成到合并报告中。基于其小节标题的内容确定可比较的小节,并且将语义接近的段落彼此相邻地放置在合并报告的相应小节内。

著录项

  • 公开/公告号CN101765857A

    专利类型发明专利

  • 公开/公告日2010-06-30

    原文格式PDF

  • 申请/专利权人 阿玛得斯两合公司;

    申请/专利号CN200880100308.6

  • 发明设计人 G·内斯;

    申请日2008-06-05

  • 分类号

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人李向英

  • 地址 法国比奥

  • 入库时间 2023-12-18 00:14:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-06-19

    授权

    授权

  • 2010-08-25

    实质审查的生效 IPC(主分类):G06Q30/00 申请日:20080605

    实质审查的生效

  • 2010-06-30

    公开

    公开

说明书

技术领域

本发明总体上涉及用于收集、集成和向旅行者传递关于其旅行目的地的信息的方法和系统。更具体地,本发明旨在提供从多个所选择的在线可靠来源收集的、并且以按语义组织的合并报告的形式传递的旅行忠告,所述合并报告的内容可被进一步过滤,以便显示。

背景技术

对于来自世界各地的计划通常是第一次的工作或休闲目的的几百万出国旅行者来说,产生了在起程之前必须收集关于其目的地的各种旅行信息的问题。如果所收集的部分信息不会危及旅行,而是如果最终看来该信息是错误的或不足够的,则仅仅使得旅行的乐趣更多或更少和/或代价更高或更低;关于安全和治安状况、健康问题和入境要求的信息仍然是至关重要的并且不能被忽视,否则将受到在旅行时出现严重问题的惩罚。然而,即使如果旅行者通过传统的旅行社预订了他们的旅程,从而他们可以接收他们的航空公司或旅行代理商的某些帮助,旅行者通常要独自担负收集至少大部分这种关键信息的任务。当前,通常还可以在线预订旅程而无需人工干预。旅行者只能依赖负责在线旅行提供方站点的人为其当前旅行目的地准备的任何警告和忠告,如果实际上的确提供了某些警告和忠告的话。另外,个人旅行者一般事先不知道了解关于其目的地的哪些信息是重要的,并且除了通常认为要参考其本国或居住国的某些官方站点,例如由大部分国家的外事部门设立的站点,以及例如世界卫生组织(WHO)和联合国(UN)公共健康组织的旅行者可能知道的其它政府或国际官方站点之外,一般事先不知道他们可从何处得到这种信息。然而,即使旅行者能够收集关于其旅行目的地的某些必要信息,他们仍不能确信他们收集的毫无联系的文档集合包含了他们在起程之前必须知道的所有内容。因此,需要一种旅行系统,该旅行系统能够应旅行者的请求,自动地传递从多个可靠来源收集的针对给定旅行目的地的当前旅行忠告和警告的全面并综合的集合。

发明内容

本发明的系统和方法满足上述需要,并且描述了一种用于按照旅行目的地给旅行系统的终端用户提供忠告和警告的计算机化的旅行系统和方法。就此而言,本发明的系统具有客户服务模块,客户服务模块旨在接收来自终端用户的查询,并且旨在向终端用户传递针对查询的旅行目的地的旅行忠告和警告的合并报告。使用下载和解析模块将从多个在线的可靠旅行来源下载的旅行原始文档解析为共享公共格式结构的经清理的原始文档,所述公共格式结构包括小节、小节标题和段落。算法模块将经清理的原始文档集成到每个旅行目的地的旅行忠告和警告的合并报告中。根据选自每个被查询的旅行目的地的所有相关的干净的原始文档的基础文档,执行将经清理的原始文档集成到合并报告中。基于其小节标题的内容确定可比较的小节,并且将语义接近的段落彼此相邻地放置在合并报告的相应小节内。

因此,本发明的主要目的是通过汇集来自多个可靠的在线旅行忠告来源的文档内容而不丢失任何信息,给旅行者提供旅行忠告和警告的全面的合并报告。

本发明的另一个目的是获得信息的汇集,该汇集不仅仅是物理地附加所有收集的单个文档,而是按照语义组织合并报告,其中具有高语义相似性的小节段落彼此靠近。

本发明的另一个目的是允许基于语义过滤器为了打印或显示过滤合并报告和单个旅行忠告文档,以便例如仅查看忠告或事件。

本发明的另一个目的是描述一种系统,该系统可被嵌入较大的旅行系统,或也可以以具有与其它旅行系统的松散耦合的孤立模式操作,可以从其它旅行系统调用该系统。

在参考附图研究了下面的描述之后,本领域的技术人员将明了本发明的其它目的、特征和优点。本发明旨在包含任意附加的优点。

附图说明

图1示出了根据本发明的在其环境中的旅行忠告系统;

图2描述了本发明的产生和显示按语义组织的旅行忠告和警告的合并报告的方法的步骤;

图3通过例子示出了如何根据从可靠的旅行信息来源下载的各个文档建立旅行忠告的合并报告;和

图4描述了本发明的方法的集成步骤的细节。

具体实施方式

下面对本发明的详细描述参考了附图。虽然该描述包括示例实施例,其它实施例也是可行的,并且可对描述的实施例进行改变,而不脱离本发明的精神和范围。

本发明描述了旨在从可靠来源收集和集成旅行相关信息的旅行忠告构造器(TAB)。特别地,TAB旨在收集可从权威来源,诸如,政府官方站点、国家旅游部门、领事馆和大使馆以及为准备旅行或正在旅行的旅行者指定的权威来源获得的所有旅行警告和忠告。旅行忠告可以包括,但不限于,关于当地事态的最新信息、健康和卫生状况、近来的事件、可能的风险、恐怖分子威胁、关于给定目的地或国家的相关防范和建议。另外,可以用语义过滤器过滤收集的旅行信息和忠告,从而仅仅显示例如建议(诸如,在所考虑的目的地可以做什么和应当避免什么)或当地事件。

图1示出了包括执行本发明所必需的装置的系统(100)。可从当前各种孤立的计算机资源(105)运行这种系统,从而例如以专门的web站点的形式直接地或代表传统的(即,旅行代理商)和在线旅行服务提供者间接地向旅行者传递相应服务。它还可被嵌入较大的计算机系统,例如,诸如旅游业的世界范围的服务提供者AMADEUS的几个全球分布式系统(GDS)所设立的较大的计算机系统。

根据本发明的系统(100)包括下列5个模块:

-客户服务模块(110),客户服务模块旨在接收终端用户输入请求,即,客户查询(112),客户查询(112)通常包括目的地国家和旅行者的国籍。响应客户查询,客户服务模块的输出包括各种报告(114),包括如下文所述的更详细的描述,由本发明的系统收集在一起的可能具有压缩形式的合并报告和特定于国籍的报告。

-关系数据库(120),用于存储操作本发明所必需的所有数据,包括特定于来源的针对所有目的地国家的各种报告、由算法模块(140)产生的合并报告、用于解析从旅行信息的不同来源得到的原始文档的准则、作为旅行信息来源以及从其下载旅行原始文档的web站点的列表。

-下载和解析模块(130),下载和解析模块旨在从存储在关系数据库(120)的相应表中的所选择的可靠web站点的列表下载旅行原始文档。然后,基于也被存储在关系数据库内的特定于来源的解析准则解析下载的原始文档。这个模块的输出是作为下面的算法模块的输入的经清理的原始文档。

-算法模块(140),用于处理上面的原始文档,并且产生将被存储在关系数据库内并被呈递给旅行者的合并报告。因此,算法模块是本发明实现集成从经选择的可靠来源收集的旅行信息的关键组件。在下面的附图中将进一步描述该模块的操作。

-管理模块(150),如其名称暗示的,管理模块用于配置、控制和监视根据本发明的系统,执行操作和维护该系统所需的所有标准管理任务、错误处理和报告。

就其所涉及的环境而言,使得本发明的系统(100)能够通过专用和包括因特网的公共网络(160)的任意组合与各种远程软件应用通信。就此而言,它使用标准手段和协议,诸如因特网的网络和传输协议组TCP/IP。因此,系统可以通过客户服务模块(110)与个人计算机(162)的各个远程终端用户接口,个人计算机(162)一般地使用因特网和许多其它专用网络上普遍存在的用于在web上导航的任意可用的软件应用(浏览器)。本发明的系统还可以与公司的旅行系统(164),诸如,由各种旅行服务提供者和上面已经讨论的GDS(166)设立的旅行系统通信。另外,如已经提到的,从遍布世界各地的所选择的web站点从其自己的远程计算平台(170)下载原始旅行文档。

图2是由本发明的系统执行的集成收集的旅行信息以便产生合并报告的处理步骤的流程图。

首先假设系统的终端用户一般地以国家名称(210)的形式,或系统可以识别的任意旅行目的地的形式输入有效的旅行目的地。通过询问存储着所支持的国家以及系统设计者定义的其它地区或主题目的地的列表(可能包括世界上所有的国家)的相应数据库表,执行目的地名称检查。可选择地,终端用户可能必须输入其它信息,诸如旅行者(多个)的国籍,从而可以根据其国籍和血统不同地进行原始旅行文档的集成。例如,根据申请人的国籍需要或不需要签证,并且如果来自某些国家,可能必须采取特定的健康预防措施。

如果已经输入了有效的目的地,则系统检查数据库中是否存在来自各个预定数据来源中的每一个数据来源的相应原始文档,并且该文档是否不过时。如果情况的确如此,不需要下载相应文档,并且可以直接进入下面的步骤(230)。

然而,如果数据库中不是具有所有文档和/或文档已过时,需要执行下面两个步骤。

本发明假设如上所述的每个国家或有效目的地的可靠数据来源链接的主表最初已经内置于关系数据库(222)内。由系统管理员通过管理模块管理这个表。这个表存储每个所选择的数据来源的名称和主web页面地址,即,统一资源定位符或URL。另外,每个数据来源的主URL可能还被补充有指向相应目的地或国家的旅行忠告页面的附加路径。因此通过读取和解析主页面,一个信息收获器可以给主URL补充相应于数据来源可为其提供旅行忠告的每个国家的路径。因此,如果数据来源主URL例如是:www.data.com,它潜在地是针对许多国家并且可能是针对所有国家的旅行忠告的根目录。在该情况下,被称为D的特定目的地国家的精确的URL例如可能是:www.data.com/D或其它路径,例如:www.data.com/travel-advice/103456.html。这种信息被存储在数据来源国家表内。每一行相应于一个国家,国家后面是该目的地国家的相关URL。通常在系统首次运行时执行步骤(222),并且还可以按固定的时间间隔执行步骤(222),或在步骤(220)发现原始文档缺失或过时时执行步骤(222),以便填充关系数据库中的数据来源-国家表的相关列,并且在启动和运行TAB时保持其内容是当前的。

因此,作为执行步骤(222)的结果,已知每个数据来源的链接,并且可以下载相应的原始文档。在Web使用的下层协议,即,代表“超文本传输协议”的HTTP的控制下发生下载。HTTP定义如何格式化消息以及如何使用TCP/IP协议组在因特网和其它公有或专用网络上传输。这被从TAB系统通过标准应用程序接口或API实现,从而可以从每个所选择的数据来源下载旅行信息,并且可以获得最终基于其相应国家或旅行目的地存储在数据库表中的原始文档以便进行将来的处理。文档为代表“超文本标记语言”的HTML,HTML是用于创建web上的文档的创作语言。HTML通过使用各种标签和属性定义了web文档的结构和布局。

描述了哪些单个原始文档在数据库中是已经可用的(221),或作为执行步骤(222)和(224)的结果是已经下载了的;下一个步骤,即,步骤(230),在于解析原始文档。这由通过图1所示的下载和解析模块实现。

解析步骤(230)的关键目的是实现提供针对每个目的地国家的旅行忠告的所有各个文档最终具有相同的HTML结构,从而前面讨论的算法模块稍后可以更有效地分析它们。由于所选择的不同的web数据来源可能具有非常不同的HTML结构,这是由于它们是由没有共同之处的组织(例如,国家大使馆、领事馆等)准备的,解析模块被设计为将内容和不同的信息组织结构转换为由小节、标题和段落组成的公共的简单分层结构。这仅能由本领域的技术人员通过选择和使用几个适当的标签在HTML中实现。因此,一旦被转换,各个下载的旅行文档将具有相同的简单结构,这允许直接地提取用于格式化这些文档的标签之间的文本。然后可以以句子列表的形式直接解析每个段落。

为了帮助实现解析模块的这个关键目的,并且允许实现对下载的原始文档的有效转换,关系数据库中的国家表以其来源为基础记忆原始文档的结构。因此,为每个所选择的不同旅行信息来源存储(例如,以模板的形式)HTML结构,即,标签结构。期望该信息组织,该HTML结构,对于给定数据来源为其实际提供旅行信息的每个国家是完全相同的。在web源的任意主要结构改动之后一劳永逸地导出这些标签就足够了。因为与国家数目(世界上存在大约190个独立国家)相比,本发明所考虑的数据来源的数目非常小(通常,4或5个),通常可通过使用标记结构查看器(例如,扩展标记语言或XML查看器)对几个下载的文档进行的人工检查得到这些标签。自动的方法也是可行的。其中,可以应用使用诱导学习方法的标准包装诱导技术,以便自动得出给定数据来源的标签。因此,数据来源关系数据库表存储每个数据来源的这些标签。给定一个将被解析的文档,从该数据来源表中获得其相关标签。然后容易地提取这些标签之间的内容,以便得出下载的文档的组织结构。除了超文本链接之外的所有其它无关的HTML标签都可被清理掉。因此,在这个阶段的结尾,完整地建立每个文档小节标题、小节和段落结构以及其内容。

由本发明的系统执行的下一个处理步骤(250)是这样的步骤,其中最终执行各个下载的(如在上面的步骤中解释的由下载和解析模块清理后的)原始文档的集成,以便产生如图1所讨论的最终被传递(260)给旅行者的被指定给旅行者的合并报告。在下面的图3和图4中详细描述了这个步骤。

图2中出现的步骤(240)的目的是过滤由本发明的系统操纵和产生的各种单个文档和合并文档的内容。可以在处理(242)的任意阶段调用步骤(240),即,过滤,以便允许终端用户仅查看当前现用文档,即,正被查看的文档中的收集的旅行信息的一部分。最简单的过滤操作是显示现用文档的特定段落部分,以便构造该特定段落部分以便显示。然而,可以出于仅显示包含在现用文档中的特定信息的目的调用语义过滤器,即,基于文本含义的过滤器。语义过滤器是例如“显示当前旅行忠告的所有建议(要做的或要避免的事情)”。下面的文本是将被过滤的原始文本的例子,其中X是国家名称,并且Y是城市名称:

在X中存在发展中的好战组织的恐怖分子活动的危险。我们建议您多加小心,并且监视X中由于好战组织的恐怖活动的危险可能影响您的安全的发展。密切关注您的人身安全,并且监视媒体关于可能的新安全或治安危险的信息。攻击目标可能是永久政府建筑物、国家机构、礼拜堂、公共交通工具、机场和飞机、宗教地点和节日和旅游地点。Y城市自2003年11月以来已经出现了多次暴民暴力事件。在2005年10月,三次炸弹爆炸袭击了Y中的旅游区,导致59入死亡超过300人受伤。

如果我们应用上面的语义过滤,可以获得:

我们建议您多加小心,并且监视X中由于好战组织的恐怖分子活动的危险可能影响您的安全的发展。密切关注您的人身安全,并且监视媒体关于可能的新安全或治安危险的信息。

另一种语义过滤可以是例如“示出所有事件”。在该情况下,显示的内容成为:

Y城市自2003年11月以来已经出现了多次暴民暴力事件。在2005年10月,三次炸弹爆炸袭击了Y中的旅游区,导致59入死亡超过300人受伤。

许多其它语义过滤器显然是可行的。例如,法律过滤器可以仅保留关于法律条款、处罚或罚金的语句。以相同的精神,可以针对不具有专门的犯罪小节的数据来源应用犯罪过滤器。

以类似于SQL的方式实现根据本发明的过滤,业界标准语言SQL用于创建、更新和查询关系数据库中的记录。类似于SQL,SELECT命令允许过滤将要显示的内容。下面的例子示出了可以如何从TAB请求过滤:

-SELECT现用文档中的包含建议的句子;

-SELECT现用文档中的包含建议的段落;

-SELECT现用文档中的包含事件的句子;

-SELECT现用文档中的包含事件的段落。

任意语义过滤器,不论它是上面例子中的事件还是建议或是某些其它内容,都以签名定义。用于建议过滤器的签名必须是关键字集合的一部分。例如,用于建议过滤器的签名的关键字集合中的某些项例如如下:

{Tell,Get,Keep,Use,Do not,Check,Pack,Avoid You should,You must,Travellers,Visitors,Exercise caution,Pay attention,Payspecial attention,are reminded,are warned,your responsibility,strongly recommend,strongly advise}

一旦以手工方式或以自动方式定义了关键字集合,过滤操作仅仅在于检查任意单个单词的关键字或多个单词的序列是否的确出现在文本元素,即,语句或段落内。由于旅行忠告文档是精心编写和验证的文本,值得注意的是在过滤中要考虑小写和大写字母。因此,上面关键字中的大写字母意味着它们与句子的开头匹配。

在另一方面,由以日期表征的签名定义事件过滤器。日期在句子中以不同的形式出现,例如,{Jan99,January 99,January of 1999,3rdJanuary 1999等}。一旦在文本元素(段落或语句)中检测到日期的一种可能的语法形式,其可被分类为事件。

旅行忠告领域的一个优点是对于跨越不同国家的给定过滤,原始文档中往往具有大量签名的重复。这允许快速制定对于大范围目的地国家有效的针对给定语义过滤器的文本文档的基于知识的签名集合。另外,对于所考虑的应用领域,关键字集合中的多单词序列的最大长度实际上非常有限,因此防止TAB免于必须检查长的单词序列。如上面示出的过滤关键字集合的例子中所示,一个、两个和三个单词的序列一般就足够了。最后,可以通过对某些多单词序列的出现位置的启发式观察,例如,仅出现在语句开头附近或结尾处,帮助制定最佳地实现用来获得给定过滤的语义过滤器的语法模式。

图3通过例子描述了根据本发明将各个原始文档集成到合并文档内。

对被指定为基础文档的一个文档进行用于合成新文档的原始文档内容的集成。DocA(310)、DocB(320)和DocC(330)是应用了图2所述的步骤(230)之后的经解析和清理的旅行忠告文档。来自不同数据来源的这些文档涉及相同的给定国家或目的地。在该例子中是DocC(330)被选作起基础文档的作用。如前面解释的,经解析和清理的文档都具有一种仅由小节、小节标题和段落形成的简单的HTML结构。以下面的参考:(350)、(352)和(354)分别指明它们的例子。理想地,集成步骤的目的是产生原始文档的真正语义并集。然而,仅当由有经验的人工编辑者执行时,真正的语义并集才是可能的,真正的语义并集可被定义为不缺少来自每个文档的信息,并且绝对不留有冗余。自动机制往往仅能够合理地产生一种语义并集,而不需要不可接受数量的计算资源。换言之,在一个极端,物理并集是所有单个文档一个接一个的简单添加,这显然能够直接实现,并且需要很少的计算资源。在另一个极端,我们将获得真正的语义并集,如果的确可行,对于实际应用来说,这当前无论如何都需要多得多的计算资源。因此,如下进行本发明的集成步骤,以便按照语义组织而不丢失任意信息地产生合并文档:

-在合并文档(340)中,语义接近的段落被分组为物理地邻接。以参考(360)示出了其例子,其中被发现与基础文档(330)的第二小节中的第一段(18181818....)语义接近的DocA中的一段(5555..)在合并文档中与彼此物理靠拢。

-选择这些单个文档中的一个文档的组织结构作为形成并集的模板。这是已经提到的在这个例子中被选择的基础文档(330)。对于旅行忠告领域,基础文档(Doc)可以来自用户偏爱的任意数据来源。例如,如果旅行者是美国公民,该基础格式可以是由美国大使馆针对所选择的目的地提供的,并且在其中插入来自其它文档的片断。因此,DocC的小节标题(342、344)被保留为合并文档(340)的小节标题。

-如果语义接近的段落之间存在冗余,并不试图消除冗余。不相关的小节被置于结尾(346)。

因此,获得的是以DocC为基础并且被称为LOPUAB/C(340)的文档A、B和C的按逻辑组织的物理并集。LOPU不计划被原样显示。如在图2中并且更具体地在步骤(240)已经讨论的,一般在文档上应用过滤,以便仅显示其内容的一部分。显示相关小节以便提高可读性的方法与应用相关,并且可能取决于它们是被在显示监视器上查看还是被打印。可以考虑其它显示方法,例如,各种分层和树状视图方法和各种鼠标响应提示方法。

将文档组织到LOPU中的益处是具有许多交叠。相对于基础文档的集成在旅行忠告领域通常特别有效,这是由于旅行者很可能主要对来自其优选的数据来源的忠告感兴趣(例如,来自其自己的政府的忠告),并且愿意按照其优选文档查看来自其它文档的相关段落。通过将语义接近的段落放在一起,用户能够迅速分辩类似段落之间的不同,以便获得段落主题之后更全面的概念。另外,由于语义重复,比较具有语义冗余的完整段落(所使用的措词和语言表述可能非常不同)可以强调某些方面的重要性,从而读者更可能了解和注意它们。此外,如果需要,可以方便地为摘要处理考虑紧密相关的段落。可以方便地提取语义接近的段落的每个聚集中的一个或两个语句,以便促成整个摘要。最后,通过以这种方便的形式重新制定该问题(即,LOPU),我们极大地减小了产生文档的完整全局集合的复杂度,在产生文档的完整全局集合时,我们必须比较所有文档中的所有可能的段落对。此处的比较可被局限为仅仅比较语义接近的段落。

图4进一步描述了整个集成步骤,即,图2讨论的步骤(250)的子步骤。

子步骤(410)旨在基于两个小节的小节标题判断它们的内容是否是可比较的。如果标题具有类似的信息内容,则认为这些小节是可比较的。在各个文档(除了被指定为基础文档的文档)的所有小节标题和基础文档的小节标题之间执行小节标题的比较,直到比较耗尽为止(412)。为了检测两个小节标题是否具有类似的信息内容,使用下面的过程:

-标识两个标题中带有内容的关键字:

○识别专有名词和普通名词、动词和形容词,以便形成两个关键字列表。

○消除“噪声”单词(普通名词,例如:I,We;动词,例如:have,be;以及连词)。噪声单词是不论主题如何,通常在任意文本中使用,并且对于区分两段文本的主要语义内容和语义主题没有帮助或具有很少帮助的单词。

除非另外指出,这通常也是本发明下面描述中的情况。然后,子步骤(410)如下继续:

-标记化P1和P2,以便形成两个关键字的多重集合(即,其中的项目可以重复的集合)。它们称为w(P1)和w(P2)。

-计算所述多重集合的交集,并且称之为w(P1)∩w(P2)。该集合中的元素的数目为:n(w(P1)∩w(P2))。

-计算所述多重集合的并集,并且称之为w(P1)∪w(P2)。该集合中的元素的数目为:n(w(P1)∪w(P2))。

在计算多重集合的上述交集和并集时,考虑句法和语义等价。如果两个小节标题关键字出现在存储在该系统的关系数据库的表内的等价数据字典内,则认为它们是语义等价的。另外,如已经讨论的,数据字典定义的关键字可以是单个、两个或一般地n个单词的关键字。

-接下来,相似性(P1,P2)是:n(w(P1)∩w(P2))/n(w(P1)∪w(P2))。因此,相似性是公共关键字的数目除以被比较的标题的关键字的总数。因此,如果它们没有共同点,相似性值为0,并且如果它们共享所有关键字,相似性值为1。如果相似性值超过了预定阈值,则称两个小节基于其标题是可比较的。

此处值得注意,已经发现旅行忠告领域中的小节标题非常短,一般仅包含几个单词,并且以使用关键字或同义关键字的相同集合为特征。另外,发现所有可能的数据来源的小节标题的完整并集极小,并且具有高度的通用性。因此,这种检测是基于知识的,并且在句法和语义两个层面上发生,其中语义比较基于等价数据字典。在句法层,使用精确拼写以便识别常用单词。在语义层,使用数据字典以便指定它们之间的等价性。

已经确定文档中的哪些小节是可比较的子步骤(410)之后是总体集成步骤的子步骤,即,子步骤(420),旨在对基础文档的每个小节中的n个段落与其它文档的可比较小节中的m个段落中的每一个段落进行比较,直到用尽段落比较(426)。基础文档的段落和将被比较的另一个文档内的目标段落此后分别被称为基础段落和比较段落。一般地,在旅行忠告文档中,段落数目n和m是小的。并且由于旅行忠告文档被精心编辑,预期段落中的单词的平均数目也是小的(典型地,150个单词或更少)。

在比较段落时,子步骤(420)首先标识基础段落(421)中带有内容的关键字。提取传达文本语句中的大部分语义信息的单词,即,动词、名词(专用名词和普通名词)和形容词。虽然这可以通过应用标准词性或语法标注器(即,将单词识别为名词、动词、形容词等的软件)实现,本发明相反地遵从通过数据字典消除所有单个和多个单词的连接短语的更简单和容易的方法。消除的单词集合包括冠词(the,an,a),前置词和后置词(for,from,in,inside,into,to,next ago,apart,aside,away,hence,notwithstanding,on,up,down,through等)、连接词和副词(一种简单的规则是以“ly”结尾的单词,例如:luckily,happily等)。因此,剩余的单词是动词、名词和形容词。另外,本发明还使用任意的标准命名实体识别(NER)算法,以便区分专用名词和普通名词。然后,使用标准词干化算法例如Levin词干化算法,将除了被识别为命名实体的关键字之外的所有关键字还原为其形态学的根。

下面是子步骤(421)可以实现,以便在关于法国的旅行忠告的下列基础段落上识别带有内容的关键字的例子:

In Paris,at Charles de Gaulle airport or at the Gare du Nordrailway station,you should protect your baggage against theft andbeware of pickpockets.Thieves and pickpockets also operate on theParis Metro and RER(suburban)lines especially RER line B,whichserves Charles de Gaulle and Orly airports and the Gare du Nord.

Thefts h ave also occurred at Nice Airport,particularly at the car rentalcar parks where bags have been snatched as drivers have been loadingluggage into hire cars.Pedestrians should beware of bag snatchersoperating both on foot and from motorcycles.

词干化之前的结果如下。括号之间的数字指示上述文本中相应关键字的使用频率。

{Paris(2),Charles De Gaulle(2),airport(3),Gare du Nord(2),railway,station,protect,baggage,theft(2),beware(2),pickpocket(2),operate(2),metro,RER(2),suburban,line(2),serve,Orly,occur,Nice,car(3),rent,park,bag(2),snatch(2),driver,load,luggage,hire,pedestrian,foot,motorcycle,B}

在词干化之后,上面集合中的某些单词被以其形态学的根替代(例如,operate和operating两者都改变为operat)。下一个子步骤(422)在将被比较的并且来自另一个文档的段落的文本上做相同的事情。

There is a high incidence of petty crime,especially bag snatching,and pickpocketing,throughout France particularly on the streets oflarger cities such as Paris,Marseilles and Nice.Airports,publictransport,tourist areas,and beaches are prime targets for thieves whofrequently work in gangs,using a variety of methods to distractpotential victims.There are frequent reports of crime,including robberyand muggings,on the train system servicing Roissy,Charles-de-Gaulleand Orly Airports.Increasingly,such crime is being accompanied byacts or threats of violence.There is a growing incidence of violentattacks against tourists by groups of young people,usually occurringlate at night around major tourist attractions  such as theChamps-Elysees,the Les Halles district and the Latin Quarter in centralParis.

以类似的方式提取带有内容的关键字。结果如下。在这个例子中,应当注意,“violen”是词干化“violence”的结果。

{high,incidence(2),petty,bag,snatch,pickpocket,France,street,large,city,Paris,Marseilles,Nice,airport(2),p ublic,transport,to urist,area,beach,prime,target,thieves,work,gang,variety,method,distract,potential,victim,frequent,report,crime(3),rob,mug,train,system,service,Roissy,Ch arles-de-Gaulle,OrIy,accompany,act,violen(2),threat,violence,attac k,tourist(2),group,young,people,occur,late,night,major,attraction,Champs-Elysees,Les Halles,district,LatinQuarter,central,Paris}

然后,下一个子步骤(423)在于识别用于评估基础段落和比较段落之间的相似性的矢量空间。一旦在两个段落中识别出了带有内容的关键字,就可以开始比较处理。比较的原理如下。

-基础段落中的每个单词表示一个维度轴。例如如果我们在基础段落的带有内容的关键字表示中具有150个单词,这暗示着具有150个维度。整个文本是这些维度的线性组合,每个轴的线性权重或系数相应于单词的频率。因此,整个文本是这个空间中的矢量。

-比较段落具有由独特单词的数目确定的一组不同的维度,例如:80个;某些维度是公共的,例如:7个精确常用单词。类似地,因此它是这个80维度空间中的矢量。

-为了计算相似性,考虑基础段落和比较段落矢量的维度的并集。在这个例子中,这些维度的并集得出:(150-7)+7+(80-7)=223。因此,并集是223维度的空间。在这个空间中,估计相似性的文本挖掘的标准实践在于计算基础段落矢量和比较段落矢量之间的余弦角。如果两个矢量完全相同,它们之间的角为0,并且余弦值为1(它们完全共享相同的关键字)。如果矢量完全不同,它们在空间中正交,并且余弦值为0(它们没有公共关键字)。

然而,在应用上述比较原理之前,本发明试图减少空间维度,以便在作为上述段落空间的子空间的带有语义内容的比较空间上操作时更有计算效率。为此,首先消除稀有维度。什么是稀有的或是常见的取决于其它所选择的旅行忠告文档是否将特定关键字用于相同的国家。为此,本发明将针对相同国家的每个数据来源的内容中的关键字频率列表。具有频率1的那些关键字可被认为在给定国家的旅行忠告的空间中是稀有的,并且可被消除。然后,为了进一步减少空间维度,将在词汇上接近的关键字并入单个维度。这通过人工为旅行忠告领域构建的词汇等价映射实现。因此,未被词干化算法覆盖的下列关键字被并入单个维度,例如:

-Bag相对于baggage;

-theft相对于thieve,thief

聚集词汇等价映射和语义相关映射,并且将其放入一个文本文件,检查该文本文件以便减少空间维度。语义相关映射使得能够将比较空间定向到属于旅行忠告领域的语义概念,其目的是使得相似性值尽可能有意义。如果不同的旅行者以不同方式表达其需要,则可以细调相似性估计。例如,这种语义相关映射中的两个条目是:

-Train-Metro,Station,Rail,Railway,

-Attack-Violence

语义映射允许将具有高度相关含义的两个语义概念坍塌到相同维度。这意味着在词干化按照句法将单词“operating”和“operate”两者减少为“operat”,从而它们成为是相同的(维度从2减少到1)的同时,语义映射条目进一步例如将两个维度“Attack”和“violence”减少为一个等价单词,从而结果维度变为1。

在已经创建矢量空间,并且进一步减少维度之后,在子步骤(424)确定被比较的两个段落之间的相似性的测量。如上面解释的,通过计算其空间矢量的余弦,获得相似性评分。

最后,在子步骤(430),将当前可比较文档小节的所有比较段落无遗漏地插到(432)返回最佳相似性评分即最高余弦值的基础段落之后。如果找到多个相同的相似性值,可以选择相应基础段落中的任意一个,例如,第一个基础段落,以便在其后插入比较段落。已经在图3中示出并讨论了段落插入的例子。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号