首页> 中国专利> 问答式文献检索系统和方法

问答式文献检索系统和方法

摘要

一种检索装置(22),其基于包含在作为来自用户的问题形式的检索请求的问题中的关键字来检索相关的文献。所述检索装置(22)提取与所述关键字相关并且包含在所述检索到的文献中的描述作为第一概要。概要提取单元(232)从形成由文献检索结果指示的文献的原始文献数据中提取对应于与由问题类型确定单元(231)确定的所述问题的问题类型相匹配的回答的描述作为第二概要。所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中。接口(21)在显示装置上显示所述文献检索结果以及所述提取的第二概要的列表。所述文献检索结果包括所述提取的第一概要的列表。

著录项

  • 公开/公告号CN1871605A

    专利类型发明专利

  • 公开/公告日2006-11-29

    原文格式PDF

  • 申请/专利权人 东芝解决方案株式会社;

    申请/专利号CN200480031332.0

  • 发明设计人 小林贤治;松井大辅;

    申请日2004-10-22

  • 分类号G06F17/30;

  • 代理机构北京市中咨律师事务所;

  • 代理人杨晓光

  • 地址 日本东京都

  • 入库时间 2023-12-17 17:59:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-09-02

    授权

    授权

  • 2007-01-24

    实质审查的生效

    实质审查的生效

  • 2006-11-29

    公开

    公开

说明书

技术领域

本发明涉及问答式文献检索系统和方法,其适于分析来自用户的作为问题形式的检索请求的问题的语义角色(SR),从文献中提取作为所述问题的回答的描述,并通过显示窗口向所述用户呈现所提取的描述。

背景技术

常规地,已经开发出了依照来自用户的检索请求检索文献的各种文献检索系统。作为这种类型的文献检索系统,已经知道了一种通过利用全文搜索技术或词法分析技术,以字为基础检索文献的文献检索系统。然而,可能有大量的文献和大量的文献数据满足一个检索请求。在这种情况下,用户需要检查显示窗口上的检索到的大量文献中每一篇的内容,并从中选择需要的文献或提取需要的信息。因此,近来,已开发了一种用户界面,其除了显示各检索到的文献的标题、作者等,还显示检索到的文献的概要(或摘要)列表,以减少用户的工作。在这种情况下,通常使用包含了检索的文献的关键字的句子、检索到的文献的第一个句子等作为概要。

然而,确定所显示的每一文献的概要是否为用户所需受到所述用户之间的观点差异或个体差异的影响。因此,在日本专利申请公开公报8-255172(参考1)中公开了以下文献检索技术。根据参考1中公开的文献检索技术,从构成作为检索目标的许多文献中的每一篇的文献数据(原始文献数据)中提取句子或信息作为摘录(摘录数据)。在这种情况下,基于称为句子模式的各种观点或参考,预先从存储在原始文献数据库中的每篇文献的原始文献数据中为每个句子模式提取摘录数据。将所述为每个句子模式提取的摘录数据存储在基于文献的数据库(摘录数据库)中。在从所述检索到的文献的文献数据中提取的所述摘录数据中,显示由用户选择的匹配句子模式的摘录数据列表。根据这种文献检索技术,可以显示用户很可能需要的摘录(概要)。

日本专利申请公开公报2002-132811(参考2)公开了如下的问答式文献检索系统。根据参考2中公开的文献检索技术,为检索系统(问答式文献检索系统)提供了来自用户的问题形式的检索请求。这种问题形式的检索请求是类似自然语言的检索请求,例如,“XXX的价格是多少?”或“谁是YYY公司的总裁?”等问题。在这种情况下,从问题确定检索字集(retrieval word set)和问题分类。然后,基于所述检索字集和所述问题分类从文献集检索相关文献集。从所述相关文献集提取所述问题的回答(字)。检索系统向用户示出所述提取的回答和包含所述回答的文献(或所述文献的文献编号)的对,作为所述问题的回答结果。

发明内容

根据参考1中公开的文献检索技术(此后称为第一文献检索技术),在从所述检索到的文献的文献数据中提取的所述摘录数据中,显示与由用户选择的句子模式相匹配的摘录数据的列表。这样可以显示用户很可能需要的摘录(概要),从而减少用户进行文献检索的工作负荷。然而,在所述第一文献检索技术中,对于每个句子模式预先从存储在原始文献数据库中的每一篇文献的原始文献数据中提取作为摘录(概要)的摘录数据。为此,所述第一文献检索技术不能处理句子模式的加入/改变。

根据专利参考2中公开的问答式文献检索技术(此后成为第二文献检索技术),向所述用户示出问题(自然语言形式的检索请求)的直接回答以及该回答所基于的文献。因此,所述用户可以检查所述回答的可靠性。在所述第二文献检索技术中,不需要预先准备用作回答的数据。这使得可以容易地处理问题分类的加入/改变。然而,在所述第二文献检索技术中,如果问题仅包括关键字,并且由于问题的模糊性而不能确定问题分类,则不能向用户示出回答结果(检索结果)。

本发明的目的在于向用户示出第一概要的列表,其中从通过关键字检索技术利用从问题提取的关键字而检索的文献中提取所述第一概要,以及对应于所述问题的回答的第二概要的列表,其中通过利用所述问答式文献检索技术从所述检索到的文献提取所述第二概要。

根据本发明的一个方面,提供了一种问答式文献检索系统,其依照问题形式的检索请求执行文献检索。此系统包括检索装置,其基于从作为问题形式的检索请求的问题提取出的关键字来检索相关的文献,提取与所述关键字相关并包含在所述检索到的文献中的描述作为第一概要,并且获取包括所述提取的第一概要的列表的文献检索结果,问题类型确定装置,其通过分析所述问题的语义角色来确定所述问题的问题类型,概要提取装置,通过从形成由所述文献检索结果指示的文献的原始文献数据中提取对应于与由所述问题类型确定装置确定的所述问题类型相匹配的回答的描述作为第二概要来获取所述第二概要的列表,所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中,所述概要提取装置获取所述提取的第二概要的列表,并且接口被配置为在检索请求源的显示装置的显示窗口上显示包括由所述检索装置获取的所述第一概要的列表的文献检索结果以及由所述概要提取装置获取的所述第二概要的列表,作为对所述检索请求的回答。

附图说明

图1是框图,其示出了实现根据本发明实施例的问答式文献检索系统的计算机系统的结构;

图2是框图,其示出了由图1中的计算机系统实现的问答式文献检索系统的结构;

图3是流程图,其示出了在所述相同实施例中的检索装置22中的处理顺序;

图4是流程图,其示出了在所述相同实施例中的问题类型确定单元231中的处理顺序;

图5是流程图,其示出了在所述相同实施例中的概要提取单元232中的处理顺序;

图6是视图,用于解释由所述问题类型确定单元231利用模式确定字典204进行的问题类型确定;

图7是视图,用于解释由所述概要提取单元232利用所述模式确定字典204进行的概要提取;

图8是视图,其示出了在所述相同实施例中的显示窗口例子。

具体实施方式

下面将参照附图描述本发明的实施例。图1是框图,示出了实现根据本发明实施例的问答式文献检索系统的计算机系统的硬件结构。图1所示的计算机系统包括CPU 1、存储装置2、显示装置3以及输入装置4。CPU1控制与文献检索相关的各种处理以及全部系统。存储装置2包括主存储器和磁盘驱动器(例如,硬盘驱动器)。如何选择地使用所述主存储器和所述硬盘驱动器与本发明没有直接关系,因此省略其描述。利用存储装置2存储由CPU 1执行的各种程序。这些程序中的一个是用于实现问答式文献检索的问答式文献检索程序。可注意到,所述问答式文献检索程序可以是一个应用程序的一个组成部分,而不必是独立的程序。存储装置2也被用于存储原始文献数据库201、字索引数据202、词素字典203,以及模式确定字典204。

原始文献数据库201存储原始文献数据(文献数据),所述文献数据组成了作为检索目标的多篇文献中的每一篇。字索引数据202是用来根据关键字检索文献的索引信息。关于包含在作为检索目标的每一篇文献中的字,字索引数据202指示在其中包含所述字的文献以及所述字在所述文献中的位置。词素字典203是用于对问题形式的作为检索问题的问题(即,自然语言表达的问题)的进行词法分析的字典。词素字典203对于每个词素包括所述词素与指示所述词素的词性的词性信息的对。模式确定字典204用于通过分析问题的语义角色来确定问题模式(问题类型)。显示装置3包括典型为液晶显示器的显示器,以及控制所述显示器的显示器控制器。显示装置3被用来显示用于输入文献检索请求(例如,问题形式的文献检索请求)的输入区,以及对应于所述检索请求的检索结果等。输入装置4包括键盘和鼠标。输入装置4被用来依照用户的操作输入文献检索请求、进行各种选择等等。

图2是框图,其示出了由图1中的计算机系统实现的问答式文献检索系统的结构。此问答式文献检索系统主要包括接口21、检索装置22以及摘录装置23。所述问答式文献检索系统还包括原始文献数据库201、字索引数据202、词素字典203以及图1所示的模式确定字典204。当图1所示的CPU 1执行所述问答式文献检索程序时,实现接口21、检索装置22以及摘录装置23。接口21具有接受来自所述用户的检索请求(在这种情况下是问题形式的检索请求)并向检索装置22传送所述检索请求的功能。当所述用户操作输入装置4时,从图1所示的输入装置4输入此检索请求。接口21还具有接收来自检索装置22的检索结果并向摘录装置23传送所述检索结果和对应于所述检索结果的检索请求的功能。接口21进一步具有接收来自摘录装置23的与检索请求相匹配的概要的列表并使得显示装置3在检索结果列表窗口上显示所述概要列表连同来自检索装置22的检索结果的功能。

检索装置22具有从接口21传送的问题形式的检索请求中提取关键字的关键字提取功能。检索装置22还具有通过利用字索引205检索包含所述提取的关键字的文献的文献检索功能。利用这样的关键字的检索被称为关键字检索。在这种情况下,基于所述关键字的出现频率对由所述关键字检索而检索到的文献的每一篇赋予得分。即,计算表示关于所述关键字的相关程度的得分。检索装置22从已被赋予得分的文献中选择上位的(upper)M(M是大于1的整数)篇文献,并向接口21传送检索结果,该结果包括选择文献的标题和概要的列表。

摘录装置23包括问题类型确定单元21和概要提取单元232。问题类型确定单元231通过基于模式确定字典204分析从接口21传送的问题形式的检索请求的语义角色(即,问题的语义角色)来确定所述问题的问题类型。概要提取单元232指定对于由问题类型确定单元231基于模式确定字典204确定的所述问题类型唯一的句子结构。概要提取单元232从由接口21传送的所述检索结果指示的最大M篇文献的原始文献数据中提取具有指定的句子结构的句子。概要提取单元232进一步为每个提取的句子赋予得分,并选择上位的N(N为整数,满足N≤M)个句子作为匹配所述问题的概要。将所选择的N个概要传送给接口21。

下面将参照图3到8,通过对当依照用户操作从输入装置4输入问题形式的检索请求时所进行的操作进行举例来描述此实施例的操作。图3是流程图,其示出了在检索装置22中的处理顺序。图4是流程图,其示出了在问题类型确定单元231中的处理顺序。图5是流程图,其示出了在概要提取单元232中的处理顺序。图6是视图,用于解释由所述问题类型确定单元231利用模式确定字典204进行的问题类型确定。图7是视图,用于解释由所述概要提取单元232利用所述模式确定字典204进行的概要提取。图8是视图,其示出了显示窗口的例子。

假设如图8所示,在显示装置3的显示窗口上显示问题输入区81。区81被用来输入问题形式的检索请求。假设所述用户已经进行了向问题输入区81输入作为问题形式的检索请求的问题的操作。通过利用输入装置4进行此操作。假设在这种情况下,所述用户已输入了使用自然语言的问题82,用于询问“XXX的价格”,类似“XXX的价格是多少?”,如图8所示。在这种情况下,假设问题82,即,“XXX的价格是多少?”被以日文输入。图8还示出了以罗马字母表示的日文表述“XXX no nedan waikura”,其对应于问题82“XXX的价格是多少?”。所述以罗马字母表示的日文字“nedan”和“ikura”分别意谓“价格”和“价格多少”(“多少钱”)。从输入装置4输入的问题82被作为问题形式的检索请求传送到接口21。接收到从输入装置4传送来的所述问题形式的检索请求之后,接口21向检索装置22传送所述检索请求。

检索装置22基于词素字典203对从接口21传送来的所述问题形式的检索请求,即,问题82进行词法分析(步骤S1)。在这种情况下,对问题82,即,“XXX no nedan wa ikura”进行词法分析得到“/XXX<名词>+/no<功能字>+/nedan<名词>+/wa<功能字>+/ikura<副词>”。在此词法分析结果中的<名词>、<功能字>和<副词>分别指示名词、功能字以及副词的相应词素。然后,检索装置22基于所述语法分析结果提取包含在所述问题中的关键字(步骤S2)。在这种情况下,提取词性为名词的关键字,即,“XXX”和“nedan”(即,“价格”)。

然后,检索装置22通过所谓的关键字检索技术进行文献检索,以检索包含了从问题82中提取的关键字的文献(步骤S3)。检索装置22通过参照字索引数据202检索包含了所述关键字的文献。常规地认为所述利用字索引数据202的文献检索技术是一种快速检索包含关键字的文献的技术。由于此技术与本发明并非直接相关,在此省略对其的详细描述。

然后,检索装置22对所有检索到的文献赋予得分(步骤S4)。在这种情况下,基于所述关键字在所述文献中的出现频率通过利用常规地称为“TFIDF”的算法对每篇检索到的文献赋予得分。注意到,除“TFIDF”外,已知还有各种对检索到的文献赋以得分的方法。例如,可预先为作为关键字的每一项准备得分,以赋给相应的检索到的文献。

检索装置22基于赋予所有检索到的文献的得分从所有检索到的文献中选择M篇具有高得分的文献作为以得分降序排列的文献检索结果(步骤S5)。如果检索到的文献数目小于M,则选择所有检索到的文献。在这种情况下,仅将得分超出预定得分的文献选择作为以得分降序排列的文献检索结果。

然后,检索装置22从根据得分顺序选择的所有文献(在这种情况下为M篇文献)的每一篇中提取与上述关键字相关联的描述,例如,包含所述关键字的句子,作为概要(第一概要)。通过参照存储在原始文献数据库201中的用于形成所述文献的所述原始文献数据从根据得分顺序选择的M篇文献的每一篇中提取所述第一概要。检索装置22向接口21传送检索结果,其中所述检索结果包含以得分顺序选择的所述M篇文献中每一篇的第一概要(步骤S7)。从检索装置22接收到所述检索结果之后,接口21向摘录装置23传送所述检索结果连同所述问题形式的检索请求。

然后,摘录装置23的问题类型确定单元231对从接口21传送的问题形式的检索请求,即,问题82,进行词法分析(步骤S11)。利用此操作,如图6所示,得到问题82“XXX no nedan wa ikura”(即,“XXX的价格是多少?”)的词法分析结果61,即,“/XXX<名词>+/no<功能字>+/nedan<名词>+/wa<功能字>+/ikura<副词>”。问题类型确定单元231基于所述词法分析结果61提取包含在问题82中的关键字(步骤S12)。在这种情况下,除了名词“XXX”和名词“nedan”(即,“价格”)之外,提取了副词“ikura”(即,“价格是多少”(“多少钱”))。

模式确定字典204为每个预定的问题类型存储问题类型确定规则信息,其为用于确定问题类型的关键字。在此实施例中,如图6所示,模式确定字典204存储问题类型确定规则信息,其包括问题类型确定规则信息204a和204b。问题类型确定规则信息204a被用来确定与人相关的问题类型。问题类型确定规则信息204a包括指示与人相关联的问题类型的问题类型信息以及对于与人,例如,“谁”,相关联的问题类型唯一的字信息。在这种情况下,如果“谁”被包含在从所述问题提取的一组关键字中,信息204a指示所述问题是与人相关联的问题类型。问题类型确定规则信息204b被用来确定与钱,诸如价格或费用,相关联的问题类型。信息204b包括指示与钱相关联的问题类型的问题类型信息以及对于与钱,诸如“价格”、“费用”、“数量”,或“多少钱”,相关联的问题类型唯一的字信息。在此实施例中,作为信息204b,使用日文信息。参照图6,所述以罗马字母表示的日文字“nedan”(即,“价格”),“kakaku”(即,“费用”),“kingaku”(即,“数量”),以及“ikura”(即,“多少钱”)连同“价格”、“费用”、“数量”,以及“多少钱”一起被写出,作为包含在所述信息204b中的字信息。在这种情况下,信息204b包括被写为类似“(价格|费用|数量)&多少钱”的确定条件。在这种情况下,“|”指示OR条件,而“&”指示AND条件。如果“价格”、“费用”和“数量”中的至少一个与“多少钱”均出现在从所述问题提取的一组关键字中,则信息204b指示所述问题是与钱相关的问题类型。“价格”、“费用”以及“数量”是准同义词(quasi-synonyms)。

如图6所示,当执行步骤S12时,问题类型确定单元231在从问题提取出的关键字和存储在模式确定字典204中的问题类型确定规则信息之间进行模式匹配62。问题类型确定单元231通过模式匹配62分析所述问题的语义角色,并确定由所述语义角色所表示的问题类型(步骤S13)。在这种情况下,从所述问题提取的关键字“价格”和“多少钱”命中在问题类型来确定规则信息204b中包含的“(价格|费用|数量)&多少钱”。在这种情况下,问题类型确定单元231确定所述问题类型为“钱”。问题类型确定单元231向摘录装置23中的概要提取单元232通知所确定的问题类型(步骤S14)。

概要提取单元232从接口21向摘录装置23传送的检索结果所指示的M篇文献中选择一篇未处理的文献,并提取存储在原始文献数据库201中的形成所述选择的文献的原始文献数据(步骤S21)。概要提取单元232基于词素字典203对所提取的原始文献数据进行词法分析(步骤S22)。假设如图7所示,原始文献数据包括以罗马字母表示的日文表述的句子71“XXX wa 12 gatsu 1 nichi hatsubai de,kakaku wa 125 manen karadesu.”(即,“XXX将于12月1日以至少1,250,000日元的价格发行”)。在此情况下,句子71的词法分析结果72是“/XXX<名词>+wa<功能字>/12<数词>/gatsu<计数后缀>/1<数词>/nichi<计数后缀>/hatsubai<名词>+de<功能字>/,<标点符号>/kakaku<名词>+wa<功能字>/125<数词>/manen<计数后缀>+karadesu<功能字>/.<标点符号>”。

除了上述问题类型确定规则信息之外,模式确定字典204为每种预定的问题类型存储指示与所述问题类型相匹配的句子的句子结构的句子结构信息。在此实施例中,如图7所示,模式确定字典204存储对于与人相关联的问题类型唯一的句子结构信息204c以及对于与钱相关的问题类型唯一的句子结构信息204d。如果所述问题类型是“人”,句子结构信息204c指示与匹配所述问题类型的推荐的句子(描述)共同的日语句子结构“{(<姓(专有名词)>|<名(专有名词)>|<人的姓名后缀>|<姓后缀>}/(kun<后缀>|uji<后缀>)”。在这种情况下,“kun”和“uji”对应于英语中的“先生”或“夫人”。然而,可注意到,“kun”或“uji”被置于“姓(专有名词)”和“名(专有名词)”等等之后。另外,“|”和“/”分别指示OR条件和AND条件。利用句子结构信息204c,可将包括句子结构“{<姓(专有名词)>或<名(专有名词)>或<人的姓名后缀>或<姓后缀>}+{(kun<后缀>)或(uji<后缀>)}”的句子提取出来作为匹配与人相关的问题类型的句子。

如果问题类型是“钱”,句子结构信息204d指示与匹配所述问题类型的推荐的句子(描述)共同的句子结构“<数词>/{(en|manen|oku<名词>/en|doru}<计数后缀>”(即,“<数词>/(日元/万日元|亿<名词>/日元|美元)<计数后缀>”)。在这种情况下,为简便起见,将以罗马字母表示的日语单词“en”(即,“日元”),“manen”(即,“万日元”),“oku”(即,“亿”),以及“doru”(即,“美元”)用于一些句子结构信息204d。利用所述句子结构信息204d,可提取包括句子结构“数词+(日元或万日元或(亿+名词+日元)或美元)+计数后缀”的句子作为匹配与钱相关的问题类型的句子。

概要提取单元232对在步骤S21提取的原始文献数据的每一个句子(即,由检索装置22检索的文献的每一个句子)进行词法分析(步骤S22)。然后,所述流程进行到步骤S23。在步骤S23中,概要提取单元232在步骤S21提取的每个句子和句子结构信息之间进行模式匹配73,所述句子结构信息对于问题类型确定单元231基于步骤S22中得到的词法分析结果所确定的问题类型唯一(步骤S23)。在这种情况下,概要提取单元232在步骤S21提取的每一个句子和存储在模式确定字典204中的每一种问题类型的句子结构信息的句子结构信息204d之间进行模式匹配73。利用模式匹配73,概要提取单元232提取匹配的句子作为与所述问题类型相匹配的句子(即,与所述问题的语义角色相匹配的句子)的候选(步骤S24)。在这种情况下,如图7所示,由于句子71“XXX将于12月1日以至少1,250,000日元的价格发行”中的“1,250,000日元”命中由句子结构信息204d指示的句子结构,句子71被提取作为匹配所述问题类型的句子的候选。然后,概要提取单元232从问题82提取例如名词作为关键字(步骤S25)。概要提取单元232从在步骤S24中提取的候选(句子71)中选择包含在步骤S25提取的关键字的候选(步骤S26)。在这种情况下,从问题82“XXX的价格是多少?”中提取“XXX”和“价格”作为关键字。“XXX”被包含在前述的句子71(“XXX将于12月1日以至少1,250,000日元的价格发行”)中。因此,在步骤S25中,选择句子71“XXX将于12月1日以至少1,250,000日元的价格发行”。这样,概要提取单元232从由检索装置22检索到的文献的句子中选择包括对于所述问题的问题类型唯一的句子结构并且包含从所述问题提取的关键字的句子(步骤S23到S26)。可注意到,作为关键字从所述问题中提取出的“价格”的准同义词“费用”和“数量”也可以作为关键字使用。这种准同义词被包含在与钱相关的问题类型确定规则信息204b中。所述信息204b被存储在模式确定字典204中。

与步骤S24中一样,概要提取单元232基于所述关键字的出现频率对选择的句子赋以得分(步骤S27)。概要提取单元232对于由检索结果指示的M篇文献重复步骤S21到S27(步骤S28)。概要提取单元232从所述赋予了得分的句子(候选)中例如以得分的降序排列选择上位的N(N为整数,满足N≤M)个句子作为匹配所述问题的推荐的概要(第二概要)(步骤S29)。如果所述被赋予得分的句子的数目少于N,则选择所有被赋予得分的句子。在这种情况下,仅以得分的降序排列选择所赋得分超过预定得分的句子。概要提取单元232向接口21传送以得分的顺序选择的概要(上位的N个第二概要)(步骤S30)。

接口21使得显示装置3的显示器控制器在显示装置3的显示窗口上显示之前从检索装置22传送的所述检索结果以及从概要提取单元232传送的第二概要。在这种情况下,如图8所示,从检索装置22传送的所述检索结果,即,包括以得分的顺序选择的各文献的第一概要的列表的所述检索结果被显示在所述显示窗口的第一区域83。另外,从概要提取单元232传送的第二概要,即,以得分的顺序选择的第二概要的列表被显示在所述显示窗口的第二区域84。

当包括所述第一概要的列表的检索结果将被显示时,接口21的显示顺序决定单元210决定所述第一概要的显示顺序。当由检索装置22检索到相关的文献时,基于所计算的得分根据得分的顺序决定此显示顺序。接口21以决定的显示顺序(即,所述得分的顺序)在所述显示窗口的第一区域83中显示所述第一概要的列表。类似地,当所述第二概要的列表将被显示时,显示顺序决定单元210决定所述第二概要的显示顺序。当由概要提取单元232提取出所述第二概要时,基于所计算的得分根据得分的顺序决定此显示顺序。接口21以决定的显示顺序(即,所述得分的顺序)在所述显示窗口的第二区域84中显示所述第二概要的列表。在这种情况下,如果不能立刻显示所述第一或第二概要的完整列表,则分割显示所述列表。在这种情况下,首先显示对应于具有最高得分的组的第一或第二概要。当所述用户指示切换将被显示的概要时,将当前显示切换到对应于具有次最高得分的组的第一或第二概要的显示。

可注意到,如果检索装置22被配置为向接口21传送所述第一概要(以及标题)的列表,其中,以得分的顺序排列所述第一概要(和标题),显示顺序决定单元210可以根据得分的顺序而无需考虑所述得分来决定所述第一概要(和标题)的显示顺序。类似地,如果概要提取单元232被配置为向接口21传送所述第二概要的列表,其中,以得分的顺序排列所述第二概要,显示顺序决定单元210可以根据得分的顺序而无需考虑所述得分来决定所述第二概要的显示顺序。

如上所述,在此实施例中,通过关键字检索方法利用从作为输入到问题输入区81的问题形式的检索请求的问题中提取出的关键字检索文献。从检索到的文献的上位的M篇文献的每一篇中提取出作为与所述关键字相关的描述的第一概要。以得分的顺序在显示窗口的第一区域83中显示所述提取的第一概要。从所述M篇文献中的每一篇提取对应于匹配所述问题类型的回答的描述。通过利用问答式检索技术分析所述问题的语义角色来确定此问题类型。将从上述M篇文献提取的所述描述的上位的N个描述(句子)提取作为对应于所述问题的回答的所述第二概要。以得分的顺序在所述显示窗口的第二区域84中显示所述提取的第二概要。

如上所述,在此实施例中,如果通过问答式检索找到对应于问题的回答的描述作为所述第二概要,可以明确地向用户示出所述第二概要的列表。因此,用户可以容易地在所述第二概要的列表访问其正要搜索的信息。另外,在此实施例中,由于仅对由文献检索结果指示的文献进行问答式检索处理,可以抑制问答式检索的响应速度降低。此外,在此实施例中,可以以得分的降序排列参照具有不同属性的两种概要的列表,即,所述第一概要的列表和所述第二概要的列表。这使得可能容易地访问他们正在搜索的信息。在这种情况下,用户可以通过进行从所述第一或第二概要的列表中选择所要的概要的操作,来显示对应于所要的概要的文献。

假设基本上只显示所述第二概要的列表。在这种情况下,仅当在由文献检索结果指示的文献中找不到第二概要时,将与关键字相关的描述作为第一概要从所述将被显示的文献中提取出来作为代替所述第二概要的概要。然而,在此显示方法中,不能将所述第一概要从所述第二概要中区别出来。可选地,可以以结合的方式显示从相同文献中提取的所述第一和第二概要。然而,根据此显示方法,即使根据检索文献时计算的得分的顺序或提取所述第二概要时计算的得分的顺序来确定所述显示顺序,也不以所述得分的顺序显示所述第一或第二概要。这使得用户使用此方法比较困难。

在问答式检索中,例如,由于以下因素:(1)所述问题句子仅由关键字组成,(2)所述问题句子语义模糊,(3)问题类型的确定规则不充分,以及(4)对应于匹配问题类型的回答的描述的提取规则不充分,有可能找不到所述第二概要。然而,在此实施例中,向用户示出了包括通过利用所述关键字检索技术获取的所述第一概要的列表的文献检索结果。因此,即使找不到第二概要,所述用户也可以从所述第一概要的列表容易地访问其正在搜索的信息。

以上实施例基于这样的假设,即在相同的计算机系统中存在显示装置3,输入装置4,以及处理部分(接口21,检索装置22,以及摘录装置23),其中所述处理部分依照从输入装置4输入的文献检索请求进行例如文献检索。然而,例如,可以在客户终端中提供所述显示装置3和所述输入装置4,并且,例如,可以在通过网络与所述客户终端相连接的检索服务器计算机中提供上述处理部分。另外,例如,可以在通过网络与所述检索服务器计算机相连接的数据库服务器计算机中提供所述原始文献数据库201。

本领域技术人员可以容易地得到其它优点和修改。因此,本发明在广义上不限于在此处示出和描述的具体细节和代表性实施例。于是,无需脱离由所附权利要求及其等同所定义的一般发明概念的精神和范围即可作出各种修改。

工业实用性

根据本发明,由于可以向用户示出第一概要的列表和第二概要的列表,其中,从通过关键字检索技术利用从问题提取的关键字而检索到的文献中提取所述第一概要,从通过利用问答式检索技术检索到的文献中提取对应于所述问题的回答的所述第二概要,所述用户能够容易地访问其正在搜索的信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号