首页> 中国专利> 用于提供高忠实度上下文搜索结果的系统和方法

用于提供高忠实度上下文搜索结果的系统和方法

摘要

本公开内容描述了一种用于提供高忠实度上下文搜索结果的系统和方法。在一个所述实施方式中,提供了一种用于提供高忠实度上下文搜索结果的方法,包括:接收包括搜索术语的查询;响应于所述查询来确定页面上的位置,其中所述页面具有原生外观;确定与所述页面上的位置相关联的上下文区域;以及使所述上下文区域在高忠实度的结果集合中输出,其中所述上下文区域具有与所述页面的原生外观相同的外观。

著录项

  • 公开/公告号CN101620631A

    专利类型发明专利

  • 公开/公告日2010-01-06

    原文格式PDF

  • 申请/专利权人 奥多比公司;

    申请/专利号CN200910149872.3

  • 发明设计人 A·谢班奥夫;

    申请日2009-07-02

  • 分类号G06F17/30(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人王茂华

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 23:14:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-06-19

    授权

    授权

  • 2010-03-03

    实质审查的生效

    实质审查的生效

  • 2010-01-06

    公开

    公开

说明书

技术领域

本公开内容的实施方式一般地涉及对页面的索引编制和检索。 更具体地,本公开内容的实施方式涉及用于提供高忠实度上下文搜 索结果的系统和方法。

背景技术

在现有技术中,用于搜索和提供搜索结果的计算机软件应用是 公知的。此类应用包括:因特网搜索引擎,诸如由和所提供的那些;文档管理系统,诸如由提供的那些;以 及基于因特网的文档管理系统,诸如由提供的Share服务。

用于搜索文档集并提供搜索结果的传统软件应用通常是基于文 本的。例如,某些传统应用允许用户使用诸如键盘的输入设备来输 入搜索标准,并且将搜索结果作为包括文本的网页来返回。某些此 类应用返回上下文搜索结果。例如,传统应用可以返回具有高亮显 示的或者在搜索结果列表中被强调的搜索术语的搜索结果集合。

为了对搜索请求进行响应,传统搜索应用依赖于某些形式的索 引编制,传统系统可以使用称作“爬行器(crawler)”的软件应用 来遍历web页面集合和其他内容。此内容可以是本地的,或者可以 分布于网络(诸如,因特网)之上。一旦爬行器已经遍历了内容, 则其将包括其位置的关于内容的信息存储在索引中。

发明内容

本公开内容的实施方式提供了一种用于提供高忠实度上下文搜 索结果的系统和方法。一个实施方式是一种方法,该方法包括:接 收包括搜索术语的查询;响应于所述查询来确定页面上的位置,其 中所述页面具有原生外观(native appearance);确定与所述页面上 的位置相关联的上下文区域;以及使所述上下文区域在高忠实度结 果集合中输出;其中所述上下文区域具有与所述页面的原生外观相 同的外观。

另一实施方式是一种方法,该方法包括:接收具有原生外观的 页面;在所述页面上标识关键字;生成具有所述关键字的索引条目、 页面标识符、以及与所述页面上的所述关键字相关联的坐标位置; 存储所述索引条目;以及在与所述关键字相关联的所述页面上绘制 至少所述坐标位置的图像,其中所述图像具有所述页面的原生外观。 在其他实施方式中,一种计算机可读介质(诸如,随机访问存储器 或者计算机盘)包括用于实现这些方法的代码。

所提及的这些实施方式并不对本公开内容进行限制或者限定, 而是提供了辅助其理解的示例。在详细描述中讨论了实施方式,并 且在此提供了进一步的说明。通过查阅本说明书,可以进一步理解 由各种实施方式提供的优点。

附图说明

当参考附图阅读下文的详细说明时,可以更好地理解本公开内 容的这些以及其他特征、方面和优点,在附图中:

图1是示出用于实现一个实施方式的示例性环境的图示;

图2是示出在一个实施方式中提供搜索结果的流程图;

图3是示出在一个实施方式中索引编制功能的流程图;

图4是根据一个实施方式的所创建页面的图像的表示;

图5a和图5b是示出在一个实施方式中绘制功能的流程图;以及

图6是由一个实施方式提供的高忠实度结果集合的表示。

具体实施方式

本公开内容的实施方式提供了用于提供高忠实度上下文搜索结 果的系统和方法。

高忠实度上下文搜索的示意性实施方式

在一个示意性实施方式中,服务器指派爬行器来生成文档的索 引。当对文档进行索引编制时,服务器确定文档的文件类型(例如, Microsoft或者Adobe Portable Document(便携文档 格式)())。在一个实施方式中,如果服务器确定文件类型 不是则服务器将该文档转换至格式。

作为对文档进行索引编制的部分,服务器确定一个或者多个词 在文档中的位置。服务器将此位置与关于该文档的各种其他信息(包 括例如,文档的唯一标识符以及该词自身)一同进行存储。服务器 还可以存储关于每个文档的结构信息,例如包括该文档的布局(例 如,包括栏的web页面)。

在一个示意性实施方式中,服务器还可以执行绘制处理。在绘 制处理期间,服务器从文档中的每个页面创建图像。多个文档格式 (诸如,和Microsoft)将文档划分到页面中。然而, 在此使用的术语“页面”不应当是限制性的。例如,任何格式的整 个文档或者其任何部分可以包括“页面”。此外,页面的一部分可 以包括“页面”。由此,术语“页面”不应理解为限制本公开内容 的范围。由上述索引编制过程存储的位置对应于在绘制处理期间创 建的每个图像中每个词在文档中的位置。

一旦已经对文档进行了索引编制和绘制,用户可以搜索可能在 文档中出现的关键字。在一个示意性实施方式中,用户输入查询并 且将其提交至服务器。响应于接收到该查询,服务器在索引中搜索 满足查询的一个或者多个关键字,并且标识文档内包含响应于该查 询的内容的一个或者多个页面。服务器接着在包含响应内容(即, 与用户查询相关的关键字)的页面图像上标识位置。服务器还可以 基于页面的属性而在该位置周围标识上下文区域。服务器继而提取 上下文区域并且将其作为图像进行绘制。服务器接着向用户提供该 图像,以作为高忠实度结果集合的部分。作为高忠实度结果集合的 部分而提供的上下文区域的图像具有与该页面相同的原生外观。原 生外观可以包括在页面上呈现的相同的格式、字体和/或图形。

给出该示意性的示例是为了向读者介绍在此描述的一般主题。 本公开内容不限于此示例。下文的章节描述了用于提供高忠实度上 下文搜索结果的系统和方法的各种附加的实施方式以及示例。

提供高忠实度搜索结果的示意性环境

现在参考附图,其中贯穿多个附图,相同的数字表示相同的元 素。图1是示出用于实现一个实施方式的示例性环境的图示。可以 利用其他的实施方式。图1中示出的实施方式包括服务器100,该服 务器100包括处理器110和存储器120。在存储器120中存储有应用, 包括:web爬行器130、索引编制应用140以及搜索引擎150。此类 应用可以驻留在任何适当的计算机可读介质中,并且在任意适合的 处理器上执行。此类处理器可以包括例如:微处理器、ASIC、状态 机或者其他处理器、并且可以是任何数量的计算机处理器,诸如来 自Intel公司、Advanced Micro-Devices公司、以及Motorola公司的 处理器。计算机可读介质存储指令,当由处理器执行时,所述指令 使得处理器执行在此所述的步骤。

计算机可读介质的实施方式包括但不限于电子、光学、磁性或 者其他存储设备、传输设备、或者包括某种类型存储设备并能够向 处理器提供计算机可读指令的其他设备。适合介质的其他实例包括 但不限于:软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、 PROM、EPROM、EEPROM、ASIC、配置的处理器、所有光学介质、 所有磁带、或者其他磁性介质、或者计算机处理器可以从中读取指 令的任何其他介质。另外,各种其他形式的计算机可读介质可以嵌 入设备中,该设备可以向计算机传送或者承载指令,包括路由器、 私有网络或者公共网络、或者其他传输设备或者信道,包括有线方 式以及无线方式两者。指令可以包括来自任意适合计算机编程语言 的代码,例如包括C、C++、C#、Visual Basic、Java、Python、Perl 以及JavaScript。

在其他实施方式中,在独立的服务器上执行由服务器100执行 的每个处理,即:存在单独的索引编制服务器、绘制服务器和显示 服务器。在其他实施方式中,使用多个服务器来执行各种任务,例 如包括:索引编制、绘制和搜索引擎。在此类实施方式中,可以使 用诸如集群化或者高度可用的集群化的技术。其中诸如这些架构的 优势在于包括冗余和性能。

在所示出的实施方式中,服务器100与数据存储设备200通信, 该数据存储设备200包括图像数据库210、索引数据库220以及结构 数据库230。在备选实施方式中,单个数据库包括图像数据、结构数 据和索引数据。在其他实施方式中,结构数据和/或索引数据和/或图 像存储在多个数据库上。

服务器100还经由网络400与其他外部服务器300进行通信。 此外,服务器100经由网络600与用户计算机500进行通信。网络 400、600可以是任意数量的公共网络或者私有网络,包括例如,因 特网、局域网(“LAN”)或者广域网(“WAN”)。在一个实施 方式中,搜索没有连接至网络的单个计算机,以便对该计算机上的 文档进行索引编制。可以将此实施方式用作搜索设备。定位于外部 服务器300上的文档可以是各种形式,包括例如超文本标记语言 (“HTML”)、XML、Microsoft文档格式、纯文本 和富文本。

一个实施方式包括爬行器130。爬行器130有条理地并且自动地 遍历与网络400进行通信的计算机300,以搜索文档。当爬行器130 找到文档时,其下载该文档。在某些实施方式中,爬行器130基于 文档格式遍历网络400上的计算机300,以搜索文档。例如,爬行器 130可以搜索包含列表中一种格式的所有文档,或者搜索除了排除列 表中指明格式的任何格式的文档。在一个实施方式中,当爬行器130 找到文档时,其下载该文档并且将该文档存储到服务器100上。在 另一实施方式中,爬行器130将该文档临时保存在图像数据库210 中。

在图1所示的实施方式中,一旦爬行器130已经定位了一个或 者多个文档,则索引编制应用140处理这些文档。在一个此类实施 方式中,索引编制应用140每次处理一个文档。首先,索引编制应 用140将文档转换至格式,并且继而将文档的每个页面绘制为 图像。索引编制应用140接着处理文档中的每个单独的词。针对每 个词,索引编制应用140在索引数据库220中标识并存储定义了围 绕该词的矩形的坐标集合。在一个此类实施方式中,索引编制应用 140还在结构数据库230中标识并且存储关于页面的结构信息。索引 编制应用140可以略过包括于排除列表中的词,诸如停止词(stop word)。在其他实施方式中,索引编制应用140处理包括于包含列 表中的词。

在一个实施方式中,搜索引擎150响应于查询而进行检索并且 提供结果列表。搜索引擎150搜索索引数据库220,以便确认其是否 包括关于响应于查询的页面的信息。接着,如果对索引数据库220 的搜索返回了响应于该查询的一个或者多个页面,则搜索引擎150 从图像数据库210中检索一个或者多个图像。此外,搜索引擎150 使用从结构数据库230检索的信息,来确定如何提供搜索结果。搜 索引擎150绘制图像,该图像包括作为高忠实度结果集合部分的搜 索结果。高忠实度结果集合包括图像,从而使向用户呈现的结果的 部分是其原生外观的形式,例如,具有相同的格式、字体、图形和/ 或在原始页面上呈现的其他区别特征。由此,这是高忠实度的搜索 结果。在一个实施方式中,高忠实度的结果集合包括上下文数据。 例如,在一个此类实施方式中,用户提供的搜索术语在高忠实度结 果集合中被高亮显示。

在图1示出的实施方式中,搜索引擎150通过网络600向用户 的计算机500传输高忠实度结果集合。如同网络400,网络600除其 他之外可以包括局域网(“LAN”)、广域网(“WAN”)或者因 特网。在一个实施方式中,在用户计算机500上执行的web浏览器 中显示高忠实度结果集合。例如,计算机500可以是个人计算机 (“PC”)、UNIX或者Linux工作站、瘦客户端(thin client)、 胖客户端(thick client)或者智能客户端、或者能够接收高忠实度结 果集合的其他设备。web浏览器是一种软件程序,诸如Microsoft Internet或者Mozilla

在图1所示的实施方式中,服务器100与数据存储200进行通 信,其中数据存储设备200包括多个数据库210、220和230。数据 存储200驻留在诸如上文描述的计算机可读介质上。在一个实施方 式中,数据存储200还包括数据库管理系统。数据库管理系统执行 如下任务,诸如控制组织、存储、管理和检索数据库中的数据。数 据库管理系统的示例包括:由Oracle公司提供的Oracle数据由国际商业机器公司提供的由Microsoft公司提供的 Microsoft SQL以及由Sybase公司提供的Sybase Adaptive Server在其他实施方式中,图像数据库210、索引数据 库220以及结构数据库230驻留在单独的数据存储之上。

在所示实施方式中,图像数据库210包括一个或者多个图像。 每个图像表示文档的一个页面。图像数据库210还存储有关于每个 图像的信息,诸如图像所属的文档以及图像表示的文档中的页面。 在一个实施方式中,图像数据库210还包括针对该图像的唯一页面 标识符。页面标识符允许引用和标识每个图像。在其他实施方式中, 页面数据库210包括图像,该图像表示一个文档的一个页面或者一 个以上的页面的部分。例如,图像数据库210可以包括表示整个文 档或者其中某些部分的图像。

在图1所示的实施方式中,索引数据库220包括页面上呈现的 词以及一个或者多个矩形的位置坐标,其中的每个矩形限定了包括 特定词的页面区域。索引数据库220还包括如下信息,该信息足以 标识表示页面的图像。例如,在一个实施方式中,索引数据库220 包括页面标识符。在另一实施方式中,索引数据库220包括呈现在 文档的不止一个页面上的词。例如,索引数据库220可以包括在整 个文档或者其中某些部分上呈现的词。

图1所示的实施方式还包括结构数据库230。结构数据库230存 储关于页面结构的信息。此结构信息可以包括关于此类页面元素的 信息,页面元素诸如栏、列表和图像。例如,在一个此类实施方式 中,将在此类结构数据库230中标识包括双列打印的文档。在一个 实施方式中,结构数据库标识在页面上呈现的结构元素,并且提供 包围每个所标识结构元素的矩形或者其他多边形的坐标。在其他实 施方式中,结构数据库230包括关于在页面上呈现的元素的子集的 信息。在某些实施方式中,用户可以定制结构元素,结构数据库230 存储关于该结构元素的信息。在一个实施方式中,结构数据库230 包括页面标识符。在另一实施方式中,结构数据库230包括在文档 的不止一个页面上呈现的结构元素。例如,结构数据库230可以包 括在整个文档或者其中某些部分之上呈现的结构元素。

在其他实施方式中,单个数据库包括结构数据和索引数据。在 另一实施方式中,单个数据库包括结构数据和索引数据以及图像。 在另一实施方式中,在多个数据库中存储结构数据和/或索引数据和/ 或图像。

用于提供高忠实度搜索结果的示意性方法

图2是示出一个实施方式中的提供搜索结果的流程图。在此参 考图1所示的示例性环境来描述图2。然而,该过程并不局限于在此 环境中执行。在示出的实施方式中,搜索引擎150接收包括搜索术 语的查询(步骤1000)。在各种实施方式中,搜索可以来源于为提 供搜索功能而专门设计的web页面,或者可以来源于包括集成搜索 功能的应用。

作为响应,搜索引擎150针对搜索术语搜索索引(步骤1100)。 例如,在一个实施方式中,搜索引擎150生成用于在搜索索引数据 库220中使用的结构化查询语言(“SQL”)声明。搜索引擎150 标识满足搜索标准的一个或者多个页面。

在标识满足搜索标准的页面之后,搜索引擎150确定页面的哪 个部分包括与标准相匹配的内容(步骤1200)。例如,在一个实施 方式中,搜索引擎150确定诸如矩形的多边形坐标,该多边形包括 一个或者多个搜索术语。

图2所示的实施方式中,搜索引擎150接着确定多边形内部的 上下文数据的坐标(步骤1300)。各种实施方式提取不同数量的上 下文数据。例如,一个实施方式提取位于包含搜索术语的行之上的 一行上下文数据以及位于包含搜索术语的行之下的一行上下文。一 个实施方式使用关于页面的结构信息,来确定将要提取哪些上下文 数据以及所提取上下文数据的量。另一实施方式允许用户或者管理 员在定位搜索术语时,指定提取的上下文数据的量和/或类型。

某些实施方式包括计算机程序代码以便处理“边缘情况”,即, 当搜索术语出现在页面或者页面成分的边缘时的情况,例如,词出 现在页面底部或者顶部的情况。例如,在一个实施方式中,如果在 文档的开始处找到搜索术语,则上下文数据包括在包含搜索术语之 后的两行。与此相反,如果在文档的末端发现搜索术语,则上下文 数据包括在包含该搜索术语之前的两行。如果在页面的最后一行、 而并不是文档的最后一行找到搜索术语,则上下文数据包括下一页 面上的第一行。如果在页面的第一行、而并不是文档的第一行找到 搜索术语,则上下文数据包括前一页上的最后一行。如果在图像周 围的包围文本中找到搜索术语,则上下文数据包括该图像;或者如 果是大的图像,则上下文数据包括与文本对齐的图像的部分。存在 多种其他情况,其中可以利用结构信息来确定显示哪些上下文数据。 前述示例并不全面,而仅仅是代表性的。

在确定上下文数据的坐标之后,搜索引擎150提取在步骤1200 中所确定的坐标所界定的页面部分,并且将所提取的部分保存为图 像。接着,搜索引擎150对搜索术语进行高亮显示,并且绘制上下 文数据的图像(步骤1400)。这些图像可以是JPEG、GIF、位图或 者任何其他图像格式。

一旦已经绘制了图像,则搜索引擎150生成包括已绘制图像的 高忠实度结果集合(步骤1500)。在某些实施方式中,针对满足搜 索标准的多个文档或者文档的多个部分来重复步骤1100-1500。一旦 搜索引擎150已经完成了生成搜索结果或者搜索结果的页面,则搜 索引擎150将这些结果发送至搜索查询源自于其中的用户计算机 500。

用于提供索引编制功能的示意性方法

图3是示出了在一个实施方式中的索引编制功能的流程图。在 示出的实施方式中,索引编制应用140接收文档(步骤2000),该 文档可以是任何格式。多个格式的示例是本实施方式可以接收包括: Microsoft文档、HTML、PDF、富文本、纯文本、XML、以 及现有技术中已知的多种其他格式。

在示出的实施方式中,索引编制应用140接着确定文档的格式 是否为(步骤2100)。例如,索引编制应用可以评估文件扩 展名或者检查文件的内容。

如果该格式不是则索引编制应用140将该文档转换至 (步骤2110)。例如索引编制应用140可以利用转换器或者转 化器(distiller)来执行转换。在示出的实施方式中,针对原始格式 (原生格式)或者得到的格式来执行处理的其余步骤。在其他 实施方式中,在处理的后续步骤中使用原生格式。

在图3所示的实施方式中,索引编制应用140接着确定文 档是否包括多个页面(步骤2200)。如果文档包括多个页面, 则索引编制应用140将该文档分隔为个体页面(步骤2210)。在其 他实施方式中,可以不对文档进行分隔,而是将其存储为单个多页 文档。

一旦已经分析了页面,则索引编制应用140确定是否还需要处 理任何其他页面(步骤2300)。如果没有更多剩余需要处理的页面, 则处理终止(步骤2310)。

然而,在示出的实施方式中,如果还有页面需要被处理(步骤 2300),则索引编制应用140选择下一待处理页面(步骤2350)。 继续处理页面直到已经处理了该文档的所有页面。

索引编制应用140可以按照各种方式来处理文档。例如,在图3 示出的实施方式中,索引编制应用140读取页面中的每个词,并且 继而针对每个词执行以下步骤。索引编制应用140首先确定在页面 上是否存在需要被读取的任何其他词(步骤2400)。如果存在,则 索引编制应用140读取下一词(步骤2500)。索引编制应用继而将 该词与排除列表进行比较(步骤2600)。例如,在一个实施方式中, 排除列表包括诸如在页面上频繁出现的“a”、“an”以及“the”。 这些类型的词通常称为“停止”词。其他实施方式包括的排除列表 包含英语以外语言的词。在另一实施方式中,索引编制应用140将 词语包含列表进行比较。

某些实施方式还存储关于页面的结构信息,以便辅助高忠实度 地绘制页面。例如,在图3示出的实施方式中,索引编制应用140 标识并且存储关于页面的结构信息(步骤2410)。结构信息例如可 以包括关于如下内容的信息:列表、列、边、图像以及页面上的其 他结构信息。例如,文档可以包括两列形式的文本。一列中的文本 可以环绕文档内部的图像。此信息可用以确定如何最佳地在文档内 从页面的特定部分提供结果。在其他实施方式中,存储的信息包括 结构元素、页面标识符以及在页面上的位置。

在图3所示的实施方式中,绘制并且存储页面的图像(步骤 2420)。索引编制应用140可以利用已知软件来将页面绘制为多种 格式之一的图像,所述格式诸如GIF、JPEG、TIFF、位图等。在一 个实施方式中,图像具有页面的原生外观。每个绘制的页面存储在 图像数据库210中。

在图3所示的实施方式中,如果索引编制应用140确定词不在 排除列表中,则对该词进行索引编制,索引编制应用140确定与页 面上的词相关联的坐标位置。坐标位置包括包围页面上的词的矩形 的坐标(步骤2700)。在现有应用中,索引编制过程可以借助于偏 移量来确定词的位置,该偏移量表示该词的第一个字母之前的字符 数量。但是此类应用具有缺点,例如此类应用不能处理页面的结构、 格式和字体。为了克服这些缺点,在某些实施方式中,索引编制应 用140基于词在页面上的实际位置而不是仅仅相关于其他的词来确 定词的坐标位置。更具体地,某些实施方式确定包围该词的矩形的 坐标。为了确定该矩形的坐标,索引编制应用140在页面上定位该 词。

在一个此类实施方式中,索引编制应用140确定词的左上角的 坐标以及词的右下角的坐标。由此,由词的左上角和右下角表示的 点还构成了包围该词的矩形的左上角和右下角。在其他实施方式中, 矩形的左上角和右下角的坐标是相对于该词的相应角的偏移量。例 如,矩形的左上角可以是该词左上角之上的一个或者多个像素以及 左边的一个或者多个像素。类似地,矩形的右下角可以是该词右下 角之下的一个或多个像素以及右边的一个或多个像素。此类实施方 式的一个优势在于,其考虑到以下事实:字母并不是统一高度的。

在另一实施方式中,索引编制应用140确定词的左上角的坐标 以及词的长度和高度。如上所述,词的左上角的坐标用于确定包围 该词的矩形的左上角的坐标。接着,索引编制应用140基于该词的 长度和高度来确定矩形的位置和维度。在一个实施方式中,矩形侧 部的长度和高度是基于相对于该词的长度和高度的偏移量。此类实 施方式的一个益处在于,其将字母不是统一高度这一事实纳入了考 虑。

可以按照各种方式来表示上述矩形的位置和维度。在一个实施 方式中,索引编制应用140使用像素来标识坐标。其他实施方式使 用测量单位,诸如毫米和英寸来标识坐标、长度和高度。例如,一 个实施方式基于与从中找到该词的页面左上角的距离来标识该词的 左上坐标。其他实施方式使用像素来表示坐标并且使用测量单位, 诸如毫米和英寸来表示长度和高度。

在某些情况下,词并不完全位于单行中。在此情况下,一个实 施方式使用上述针对每个矩形的技术,来标识包围词的第一部分的 第一矩形的坐标,并且标识包围词的第二部分的第二矩形的坐标。 如果一个词被断开而跨越两行以上,则一个实施方式使用上述技术 来标识包围该词的每个部分的矩形的坐标。

在一个实施方式中,在标识包围一个词的一个或者多个矩形的 坐标之后,索引编制应用140存储索引数据(步骤2800)。索引数 据可以存储于索引条目中,该索引条目具有词、页面标识符、以及 页面上与词相关联的位置。在一个实施方式中,页面上与词相关联 的位置包括包围词的一个或者多个矩形的坐标。在示出的实施方式 中,在存储索引数据之后,索引编制应用140确定在有待处理的页 面上是否还存在任何更多的词(步骤2400),并且针对每个词重复 上述处理。

图4是根据一个实施方式创建的页面图像的表示。具体地,图4 表示由爬行器130检索以及由索引编制应用140绘制的页面图像。 词“bargaining”被矩形所包围(步骤3000),使用上述技术,根据 一个实施方式来确定其坐标。

用于提供绘制功能的示意性方法

图5a和图5b是示出一个实施方式中的绘制功能的流程图。更具 体地,图5a示出了页面的绘制。在示出的实施方式中,索引编制应 用140针对文档中的每个页面来执行此处理。在一个实施方式中, 索引编制应用140接收页面(步骤3000)。此页面可以是格 式。在其他实施方式中,页面是各种格式,诸如文本、Microsoft格式、HTML格式、XML格式或者任何其他格式。

在接收页面(步骤4000)之后,索引编制应用140将页面转换 为图像格式(步骤4100),诸如JPEG格式。在另一实施方式中, 将页面转换为TIFF格式。其他实施方式将页面转换为各种其他格式, 包括GIF、位图、或者任何其他图像格式。在一个实施方式中,图像 具有页面的原生外观。

在将页面转换成图像格式之后,索引编制应用140将图像存储 于计算机可读介质之上(步骤4200)。在一个实施方式中,图像存 储于盘驱动器之上。在其他实施方式中,图像存储在带、光学、或 者任何其他计算机可读介质上。有利的是,存储带有标识信息的图 像,从而例如便于查找和检索图像。由此,在一个实施方式中,图 像与标识信息一同存储。在一个此类实施方式中,标识信息包括文 档标识符以及页面标识符。

根据实施方式,从绘制页面中可以获得诸多益处。这些益处包 括在查找和检索包括搜索术语的页面时可以提高速度和效率。尤其 是,检索单一绘制页面的能力产生了优于检索包括整个文档的图像 (其中该文档包括多个页面)的性能。

为了提供上下文搜索结果,首先需要绘制包含上下文数据的页 面的部分。图5b示出了绘制一个或者多个页面的部分。一个实施方 式执行此处理,以便提供上下文搜索结果。首先,搜索引擎150接 收页面的图像以及坐标(步骤5000)。在某些情况下,上下文数据 跨越一个以上的图像。在此情况下,发送包含上下文数据的每个图 像。此外,对应于被发送的每个图像,发送一个坐标集合。由此, 如果发送了两个图像,则发送两个坐标集合(即,针对每个图像发 送一个坐标集合)。

在接收到页面和坐标之后,搜索引擎150标识对应于由坐标界 定的区域的图像的部分。接着,应用提取图像的该部分(步骤5100)。 在一个实施方式中,如果发送了不止一个图像,则搜索引擎150提 取对应于每个坐标集合的每个图像的部分。

在提取了对应于由坐标所界定的区域的图像部分之后,有利的 是对搜索术语进行高亮显示。在图5b所示的实施方式中,搜索引擎 150将搜索术语高亮显示(步骤5200)。在一个实施方式中,高亮 显示步骤包括对由包围搜索术语的矩形界定的区域应用颜色(例如, 黄色、粉色)。

在将搜索术语高亮显示之后,有益的是将上下文搜索结果绘制 为图像。根据图5b所绘出的实施方式,搜索引擎150将在步骤5100 中提取的以及在步骤5200中进行高亮显示的一个或者多个图像的一 个或者多个部分转换成为图像(步骤5300)。在一个实施方式中, 此图像是JPEG格式。在其他实施方式中,图像是TIFF、GIF、位图 或者任何其他图像格式。

最后,在将上下文搜索结果绘制为图像之后,提供该图像以作 为高忠实度结果集合。在图5b所绘出的实施方式中,搜索引擎150 向用户提供该图像作为高忠实度结果集合(步骤4400)。

图6是由一个实施方式提供的高忠实度结果集合的表示。在图6 中,用户针对术语“bargaining”进行搜索,并且在一个实施方式中, 搜索引擎150响应于用户查询来提供包括上下文搜索结果的高忠实 度结果集合(步骤6000)。在图6绘出的实施方式中,搜索术语被 高亮显示(步骤6100)。从图6中显然可见,结果集合是高忠实度 的,这是由于其具有与文档的原始图像相同的原生外观,如图4中 所示。

绘制页面的一部分的益处包括:在提供包含上下文搜索结果的 图像时提高了速度和效率。特别地,与提供表示整个页面的图像相 比,提供包括上下文搜索结果的相对较小的图像的能力得到了更好 的性能。

提供高忠实度上下文搜索结果具有多种益处,包括在上下文中 向用户示出搜索结果。本公开内容的实施方式的进一步益处在于, 有能力以高忠实度方式显示搜索结果。此类实施方式显示的上下文 搜索结果与原始文档中的原生外观相同。例如,在一个实施方式中, 上下文搜索结果以相同的字体表现,并且与它们在原始页面中的表 现具有相同格式。此特征的益处在于,当用户查看高忠实度的多个 搜索结果时,他或者她可以由于结果的字体、格式等而认识到特定 的相关结果。当用户正在针对他或者她先前浏览过的页面进行搜索 时,这一方法尤其有益。

仅出于示意和描述的目的呈现了本公开内容的实施方式的上述 描述,而并非在于对本公开内容进行穷举或者将其限制于所述精确 形式。在不脱离本公开内容的范围的情况下,显然本领域技术人员 可以进行多种修改和调整。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号