首页> 中国专利> 近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置

近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置

摘要

本发明提供在生成装置(1)中,判定部(101)分别针对近义词数据库300所具备的多个基准词和与其对应的近义词,判定是否包含在检索对象的多个文档数据(文档数据组400)的任意一个中。提取部(102)对判定为包含在文档数据组(400)中的基准词和近义词进行提取。设定部(103)分别针对提取出的近义词,基于文档数据组(400)中的该近义词和对应的基准词的至少一方的出现状况,设定输出优先级;生成部(104)分别针对提取出的基准词,以与该基准词对应的近义词中设定了输出优先级的近义词对应的方式来生成近义词列表(900)。

著录项

  • 公开/公告号CN102722477A

    专利类型发明专利

  • 公开/公告日2012-10-10

    原文格式PDF

  • 申请/专利权人 卡西欧计算机株式会社;

    申请/专利号CN201210080115.7

  • 发明设计人 山口伦治;

    申请日2012-03-23

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构11243 北京银龙知识产权代理有限公司;

  • 代理人张敬强;李家浩

  • 地址 日本东京都

  • 入库时间 2023-12-18 06:47:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-20

    授权

    授权

  • 2012-12-05

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20120323

    实质审查的生效

  • 2012-10-10

    公开

    公开

说明书

技术领域

本发明涉及适于将检索词扩展成近义词且进行有效检索的近义词列表的 生成方法以及生成装置、使用了该近义词列表的检索方法以及检索装置。

背景技术

伴随文档的电子化的增加,从至今为止积蓄的大量的文档组中找出所希望 的文档的检索技术的重要性变高。电子设备中的典型的检索是从检索对象的文 档组中找出包含用户输入的检索词的文档,并向用户显示该找出的文档。

然而,在自然语言中,可能以其他的词汇来表现与某个词汇相同的意思。 例如,“世界上最大的岛屿”这个语句与“世界上第一大的岛屿”这个语句意 思相同。在单纯以字符串是否一致的检索中,由于用户作为检索词即便输入“世 界上最大的岛屿”,也不能够找出记述“世界上第一大岛屿”的文档,因此, 存在很难找出用户想要的文档的问题。对此,近年来,为了提高用户的使用便 利性,公开了各种扩展成这样的近义词来进行检索的技术。

例如在专利文献1(日本特开2004-118262号公报)中公开了将检索词扩 展到近义词,并为了减少检索噪声而限制文档数量的技术。而且,在专利文献 2(日本特开2006-215717号公报)中公开了通过评价近义词相对检索词的类 似度,并基于类似度进行检索,尽量使与检索词意思相近的近义词优先进行检 索的技术。

通过将检索词扩展到近义词,虽然能够抑制检索遗漏,但是另一方面,也 未必就能获得有效的检索结果。存在例如,检索用户不希望的文档,以多个近 义词检索重复的文档这类的不必要的检索。因此,需要用于将检索词扩展到近 义词且进行有效检索的技术。

发明内容

本发明是为了解决以上的课题而完成的,其目的在于提供适于将检索词扩 展到近义词并进行有效检索的近义词列表的生成方法以及生成装置、使用了该 近义词列表的检索方法以及检索装置。

为了实现上述目的,本发明涉及的近义词列表的生成方法的特征在于,具 备:判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档 数据的文档数据组中的判定步骤;对判定为包含在上述文档数据组中的基准词 和近义词进行提取的提取步骤;基于上述文档数据组中的该近义词和对应的基 准词的至少一方的出现状况,设定上述提取出的近义词的输出优先级的设定步 骤;以及针对上述提取出的基准词,以设定了上述输出优先级的近义词与该基 准词对应的方式来生成近义词列表的生成步骤。

另外,本发明涉及的检索方法是使用通过近义词列表的生成方法生成的近 义词列表的检索方法,其特征在于,具备:从上述文档数据组中,确定出包含 有所希望的检索字符串的文档数据的文档确定步骤;输出上述确定出的文档数 据的文档输出步骤;判定上述近义词列表所具有的基准词是否包含在上述检索 字符串中的基准词判定步骤;以及,将与判定为包含在上述检索字符串中的基 准词对应的近义词,以与对该近义词设定的输出优先级对应的方式进行输出的 近义词输出步骤。

附图说明

图1是表示本发明的实施方式的近义词列表的生成装置的概要构成的图。

图2是表示本发明的实施方式的近义词列表的生成装置的物理构成的图。

图3是表示本发明的实施方式的近义词数据库的构成的图。

图4是表示本发明的实施方式的文档数据的构成的图。

图5是表示本发明的实施方式的生成装置的处理流程的流程图。

图6是表示在本发明的实施方式中,从近义词数据库提取基准词和近义词 的状况的图。

图7是表示在本发明的实施方式的生成装置中,近义词的等级设定处理的 流程的流程图。

图8是表示在本发明的实施方式中,对近义词设定等级的状况的图。

图9是表示本发明的实施方式所生成的近义词列表的例子的图。

图10是表示本发明的实施方式的检索装置的概要构成的图。

图11是表示本发明的实施方式的检索装置的物理构成的图。

图12是表示本发明的实施方式的检索装置的处理流程的流程图。

图13是表示本发明的实施方式的检索结果显示在监视器上的状况的图。

图14是本发明的检索装置的构成概要的其他例子的图。

具体实施方式

以下,参照附图对本发明的实施方式进行说明。而且,以下说明的实施方 式用于说明,不对本发明的范围进行限制。因此,本领域技术人员能够采用将 下述的各构成要素置换成均等要素的实施方式,这些实施方式也包含在本发明 的范围内。而且,在以下的说明中,为了容易理解本发明,适当省略不重要的 公知的技术事项的说明。

首先,实现本实施方式的近义词列表的生成装置1的信息处理装置采取图 1所示的构成。即,生成装置1具备控制部100、存储部110、输入部120、输 出部130以及通信部140。另一方面,该生成装置1的物理构成如图2所示, 具备CPU(Central Processing Unit)151、ROM(Read Only Memory)152、 RAM(Random Access Memory)153、硬盘154、键盘155、监视器156、DVD-ROM 驱动器157以及通信装置158。以下,参照图1以及图2,进行生成装置1的 构成要素的说明。

控制部100对生成装置1整体的动作进行控制,与各构成要素连接,交换 控制信号、数据。即,控制部100与存储部110、输入部120、输出部130、 通信部140连接,灵活运用这些各部的功能,同时执行近义词列表的生成处理。

这里控制部100具备判定部101、提取部102、设定部103、生成部104。 详细如后所述,近义词列表的生成装置1利用这些各部的功能,基于近义词数 据库300,执行生成近义词列表900的处理,其中,该近义词列表900用于进 行检索对象为多个文档数据(文档数据组400)的检索。

这样的控制部100(判定部101、提取部102、设定部103以及生成部104) 例如由CPU151构成。这里CPU151通过作为用于转送命令、数据的传送路径 的系统总线与各构成要素相互连接,根据记录在ROM152中的生成装置1整 体的动作控制所需的计算机程序、各种数据进行动作。而且CPU151将从 ROM152中读出的计算机程序、数据以及进行其他处理所需的数据暂时存储在 RAM153中,并对各种动作进行控制。这样,通过CPU151与ROM152、RAM153 配合,控制部100对生成装置1整体的动作进行控制。

存储部110由例如硬盘154这样的大容量外部存储装置构成,对控制部 100生成近义词列表900的处理所需的各种数据进行存储。具体而言,这里, 对成为生成近义词列表900的基础的近义词数据库300以及被检索装置作为检 索对象的多个文档数据(文档数据组400)进行存储。而且,存储部110也存 储通过该生成装置1的处理而生成的近义词列表900。

这里,预先存储在存储部110中的近义词数据库300如图3所示那样构成。 即,近义词数据库300具备多个基准词和与其对应的近义词的组合,针对一个 基准词,对应一个以上与该基准词意思类似的近义词。例如,“大地”这个基 准词与意思相近的词语“地面”、“接地”这两个近义词对应,“比赛”这个基 准词与“较量”、“胜负”、“竞赛”、“竞争”这四个近义词对应。

此时,基准词和近义词不必是单词单位,例如,可以像本附图的“授予专 利”这个基准词、“回答的语言”这类近义词这样,由多个单词构成。

这样的近义词数据库300可以以任何方式作成。例如,可以利用各种存在 的已知的近义词辞典等现有的近义词数据库作成。例如,在利用所刊登的词数 丰富的近义词辞典的情况下,相应地,生成装置1能够生成词数丰富的近义词 列表900,提高检索的可用性。另一方面,生成的近义词列表900的数据大小 也会增大。

另外,同样预先存储的文档数据组400如图4所示那样构成。即文档数据 组400由各个文档数据401a~401c等构成,而且,文档数据401a~401c等分 别由“词条”和“说明文”构成。即,文档数据401a~401c等是构成辞典的 构成单位,“词条”是成为该辞典的索引的一个词语,针对一个文档数据401 对应一个词条。而且,“词条”与说明该词条的“说明文”对应,这些合在一 起构成一个文档数据401。并且,这样的文档数据401与“词条”的数量相对 应地存在,由整体构成文档数据组400。

返回图1以及图2,存储部110所存储的这些数据经由例如生成装置1的 DVD-ROM驱动器157,或经由通过通信部140连接的网络150,与外部交换。

输入部120由例如键盘155这样的输入装置构成,接收来自用户的输入。 接收到的输入信息被供给至控制部100。在本实施方式中,接收来自用户的用 于生成近义词列表900的命令。

输出部130由例如监视器156这样的显示装置构成,向用户输出控制部 100进行处理后的结果。在本实施方式中,判定部101、提取部102、设定部 103以及生成部104分别进行的近义词列表900的生成处理的经过、结果都显 示在监视器156中。由此,用户能够获得与该生成处理的经过、结果相关的信 息。

通信部140将生成装置1与因特网等的网络150连接,在控制部100的控 制下,经由网络150交换数据。这样的通信部140由例如调制解调器等的适当 的通信装置158构成。

如上构成的生成装置1在控制部100的控制下,进行近义词列表900的生 成处理。具体而言,按照图5的流程图所示的顺序执行处理。

本处理以生成装置1的输入部120接收来自用户的生成近义词列表900 的意图的指示为契机而开始。即,通过用户使用键盘155来对生成近义词列表 900的意图进行指示,开始本处理。

若处理开始,则首先生成装置1的判定部101指定近义词数据库300的最 初的基准词(步骤S501)。即,判定部101访问预先准备在存储部110中的近 义词数据库300,指定该近义词数据库300所具备的多个基准词中的最初的基 准词。具体地在图3所示的近义词数据库300的例子中,指定“大地”这个最 初的基准词。

接下来,判定部101判定指定的基准词是否存在于文档数据组400中(步 骤S502)。即,判定部101判定指定的基准词的字符串是否包含在存储于存储 部110中的多个文档数据401a~401c等中的任意一个中。这里,虽然如上述 图4所示,多个文档数据401a~401c等分别由词条和说明文构成,但是在这 里若基准词包含在词条和说明文的任意一个中,则也判定为包含在该文档数据 401中。

若判定指定的基准词存在于文档数据组400中(步骤S502;YES),则接 下来提取部102提取该指定的基准词(步骤S503)。即,将存在于任意一个文 档数据401中的基准词作为生成的近义词列表900的基准词取出。

这里,另外,提取部102针对该提取出的基准词提取存在于文档数据组 400中的近义词(步骤S504)。即,针对判定为存在于任意一个文档数据401 中的基准词,针对与该基准词对应的近义词也同样地,由判定部101判定是否 存在于任意一个文档数据401中,提取判定为存在的近义词。

具体地参照上述图3的近义词数据库300的例子进行说明。首先,若判定 最初的基准词“大地”存在于文档数据组400中,则提取该基准词“大地”。 而且还判定作为近义词而对应的“地面”和“接地”这两个词语是否也存在于 文档数据组400中。这里,例如,若判定为存在近义词“地面”,判定不存在 近义词“接地”,则该近义词“地面”被提取,该近义词“接地”不被提取。

返回图5的流程图,另一方面,若判定为在任何一个文档数据401中都不 存在基准词(步骤S502;NO),则不提取该基准词,对应的近义词也不被提 取。这是因为对文档数据组400中不存在的基准词而言,无需进行将该文档数 据组400作为检索对象的检索,无需装载在近义词列表900中。

这样,若针对最初的基准词的处理结束,则接下来判定部101判定是否对 近义词数据库300的全部的基准词进行了处理(步骤S505)。若存在未处理的 基准词(步骤S505;NO),则判定部101指定下一个基准词(步骤S506),处 理返回步骤S502。即,针对与第2个基准词对应的近义词,重复进行提取存 在于任意一个文档数据401中的近义词的处理。

通过对近义词数据库300所具备的全部的基准词重复进行这样的处理,提 取多个文档数据401a~401c等的任意一个中所包含的基准词和近义词。其结 果,如图6所示,从预先准备的近义词数据库300中去除任何一个文档数据 401中都不存在的基准词和近义词(在本附图中画横线显示),其以外的基准 词和近义词被提取而保留。

具体地在本附图中,从最初的基准词“大地”提取近义词“地面”,同时 去除近义词“接地”。另外,第2个基准词“答辞”在任何一个文档数据401 中都不存在,对应的2个近义词“寒暄”、“回答的语言”都不被提取而去除。

返回图5的流程图,这样,在任意一个文档数据401中包含的基准词和对 应的近义词被提取,若对近义词数据库300的全部基准词都进行了处理(步骤 S505;YES),接下来设定部103对提取出的近义词设定等级(步骤S507)。 这里,“等级”是表示通过后述检索装置进行检索时,输出与检索词相关的近 义词的优先级的指标,针对各个提取出的近义词的分别设定一个值的等级。在 检索中,近义词按照这里设定的等级值从大到小的顺序输出。

这里参照图7的流程图,再次详细说明针对具体的近义词的等级设定处 理。

若开始近义词的等级设定处理,则首先设定部103指定提取出的基准词中 的最初的基准词(步骤S701)。在上述图6的具体例子中,指定“大地”这个 最初的基准词。

接下来,设定部103将对应于指定的基准词的全部的近义词的等级初始化 为0(步骤S702)。具体而言,在指定了“大地”这个最初的基准词的情况下, 对应的近义词“地面”的等级被初始化为0。在从指定的基准词提取了多个近 义词的情况下,对该多个近义词全部进行这样的初始化。

接下来设定部103指定最初的文档数据401(步骤S703),判定在该指定 的文档数据401内是否存在指定的基准词(步骤S704)。即设定部103访问存 储于存储部110的文档数据组400,判定在最初的文档数据401a的词条、说 明文中是否包含基准词的字符串。

在判定存在基准词的情况下(步骤S704;YES),针对指定的基准词指定 最初的近义词(步骤S705)。在上述图6的具体例子中,对于最初指定的“大 地”这个基准词,指定对应的近义词“地面”。这里,在对应的近义词存在多 个的情况下,指定最初的一个。

若指定近义词,则设定部103判定在指定的文档数据401内是否存在指定 的近义词(步骤S706)。这里,即判定在存在基准词的文档数据401内是否还 同时存在对应的近义词。具体而言,如图8的例子所示,判定在存在基准词“大 地”的文档数据401内是否还存在对应的近义词“地面”。

在判定为存在近义词的情况下(步骤S706;YES),将该指定的近义词的 等级减1(S707)。即,由于与基准词共存于相同的文档数据401内的近义词 能够作为该基准词的检索结果在同一文档数据401内找出,因此判定优先向用 户输出的必要性低,降低相当于输出优先级的等级。在图8的具体例子中,在 文档数据401内的说明文中与基准词“大地”同时存在的“地面”这个近义词 的等级的值被降低1。

另一方面,在判定不存在近义词的情况下(步骤S706;NO),该近义词 的等级不下降,保持此前的值不变。即,不与基准词共存在于同一文档数据 401内的近义词是很难在检索该基准词时找出的语句,在检索该基准词时向用 户输出的优先级不被降低而被维持。

这样,若近义词的等级被降低或者被维持,则设定部103判定是否对指定 的基准词处理了全部的近义词(步骤S708)。若存在未处理的近义词(步骤 S708;NO),则设定部103指定下一个近义词(步骤S709),处理返回步骤 S706。即,在指定的近义词与基准词共存于同一文档数据401内的情况下,该 近义词的等级下降。这样,针对与指定的基准词对应的全部的近义词,重复步 骤S706~S707的处理,共存于同一文档数据401内的近义词的等级下降。

若针对指定的基准词对全部的近义词的进行了处理(步骤S708;YES), 则接下来设定部103判定是否对全部的文档数据401进行了处理(步骤S710)。 即,判定是否对存储于存储部110中的多个文档数据401a~401c等中的全部 的文档数据401进行了处理。若存在未处理的文档数据401(步骤S710;NO), 则设定部103指定下一个文档数据401(步骤S711),处理返回步骤S704。即, 针对下一个指定的文档数据401,判定在该词条或者说明文中是否存在基准 词,在存在的情况下,还进行使共存于该文档数据401内的近义词的等级的值 降低1的处理。

这里,在指定的文档数据401内不存在基准词的情况下(步骤S704;NO), 不进行针对与该基准词对应的近义词的处理(步骤S705~S709),处理进入步 骤S710,转移至下一未处理的文档数据401的处理。由于在不存在基准词的 文档数据401中也不存在基准词和近义词共存的情况,因此,无需降低近义词 的等级。

这样,按照文档数据401重复等级设定处理,与基准词对应的近义词每有 一个与该基准词同时存在的文档数据401,等级值下降1。其结果,近义词的 等级成为从作为初始值的0下降与和基准词共同存在的文档数据401的个数相 当的值而得到的值。例如,在存在N个与基准词同时存在的文档数据401的 情况下,近义词的等级成为-N。

若针对指定的基准词,结束对全部的文档数据401的处理(步骤S710; YES),则接下来设定部103判定是否处理了全部的基准词(步骤S712)。若 在通过提取部102提取的基准词中、存在未处理的基准词(步骤S712;NO), 则指定未处理的基准词中的下一个基准词(步骤S713),处理返回步骤S702。 即,针对下一个指定的基准词,进行设定对应的近义词的等级的处理(步骤 S702~S711)。在上述图6的具体例子中,若最初的基准词“大地”的处理结 束,则指定下一个基准词“比赛”,进行设定与该基准词对应的3个近义词“胜 负”、“竞赛”、“竞争”的等级的处理。

这样,针对所有提取的基准词,重复进行分别设定对应的近义词的等级的 处理,之后若全部的基准词的处理结束(步骤S712),则该流程中的近义词的 等级设定处理结束。之后,返回图5的流程图,生成部104使设定了等级的近 义词与提取出的基准词对应,生成近义词列表900(步骤S508),生成的近义 词列表900存储到硬盘154这样的存储部110中,本流程的处理结束。

其结果,如图9所示,在生成的近义词列表900中,由提取部102提取的 基准词分别与作为等级而设定了任意一个0以下的整数值的近义词对应。例 如,对于基准词“大地”的近义词“地面”而言,与该基准词同时出现的文档 数据401的个数为三个,被设定-3等级。另外,对于基准词“比赛”的近义词 “胜负”、“竞赛”、“竞争”而言,与该基准词同时出现的文档数据401的个数 分别为1个、0个、4个,分别被设定为-1、0、-4的等级。

根据以上构成,本实施方式的近义词列表900的生成装置1根据近义词数 据库300所具备的基准词和对应的近义词,提取在作为检索对象的多个文档数 据401a~401c等的任意一个中存在的基准词和近义词。而且,通过对该提取 出的近义词设定、对应于和基准词同时出现的文档数据401的个数而下降的输 出优先级,生成近义词列表900。

其结果,在使用该生成的近义词列表900进行检索时,向用户提示针对所 希望的检索词的近义词,能够辅助用户的检索,并且通过降低与检索词存在于 同一个文档数据401中的近义词的输出优先级,用户能够优先检索更多种类的 文档数据401。

在本发明中,除了上述的近义词列表900的生成装置1以及使用了该生成 装置1的近义词列表900的生成方法外,还提供使用该生成的近义词列表900 来进行将文档数据组400作为检索对象的检索的检索装置以及使用了该检索 装置的检索方法。

这里,检索装置通常由与上述近义词列表900的生成装置1不同的信息处 理装置来实现。具体地在本实施方式中,作为检索装置,假设具备电子词典等 功能的小型信息处理装置来进行说明。即,针对作为检索对象的文档数据组 400(多个文档数据401a~401c等)来生成近义词列表900的处理预先在上述 图1以及图2所示的一般的信息处理装置中进行,另一方面,使用了该生成的 近义词列表900的文档数据组400的检索,在与生成装置1不同的信息处理装 置、即电子词典等小型信息处理装置中实现。

作为这样的检索装置2,其构成如图10所示。即检索装置2具备控制部 200、存储部210、输入部220以及显示部230。另一方面,该检索装置2的物 理构成如图11所示,具备CPU251、ROM252、RAM253、键盘255以及监视 器256。以下,参照图10以及图11,进行检索装置2的构成要素的说明。

控制部200对检索装置2整体的动作进行控制,与各构成要素连接,交换 控制信号、数据。即,控制部200与存储部210、输入部220及显示部230连 接,灵活运用这些各部的功能,并执行检索处理。

这里,控制部200具备文档确定部201、文档输出部202、基准词判定部 203及近义词输出部204。详细如后所述,检索装置2通过这些各部的功能, 执行如下处理:从文档数据组400(多个文档数据401a~401c等)中确定包 含所希望的检索词的字符串(检索字符串)的文档数据,还使用近义词列表 900同时提示检索词的近义词。

这样的控制部200(文档确定部201、文档输出部202、基准词判定部203、 近义词输出部204)由例如CPU251构成。这里CPU251基本上与生成装置1 中的CPU151相同,通过作为用于转送命令、数据的传送路径的系统总线与各 构成要素相互连接,按照记录在ROM252中的、检索装置2整体的动作控制 所需的计算机程序、各种数据进行动作,还将从ROM252中读出的计算机程 序、数据以及进行其他处理所需的数据暂时存储在RAM253中,且对各种动 作进行控制。这样,通过CPU251与ROM252、RAM253配合,控制部200 对检索装置2整体的动作进行控制。

存储部210由例如检索装置2内所具备的ROM252那样的只读存储介质 构成,存储控制部200进行检索处理所需的各种数据。具体而言,这里,存储 作为检索对象的文档数据组400以及近义词列表900。

该文档数据组400与存储于上述生成装置1的存储部110的文档数据组 400相同,而且,近义词列表900与上述生成装置1根据该文档数据组400生 成的近义词列表900相同。

输入部220由例如键盘255那样的输入装置构成,接收来自用户的输入。 具体而言,这里,接收来自用户的检索词。接收到的检索词供给到控制部200 的文档确定部201和基准词判定部203,被用于检索包含该检索词的文档数据 401的处理以及判定与该检索词一致的基准词是否存在于近义词列表900内的 处理。

显示部230由例如监视器256这样的显示装置构成,向用户显示控制部 200进行处理后得到的结果。具体而言,这里,通过向监视器256输出包含用 户输入的检索词的文档数据401、与检索词相关的近义词,来向该用户进行显 示。由此,作为输出结果用户获得包含有自身所输入的检索词的文档数据401、 近义词,能够进行各种利用。

另外,输入部220和显示部230也可以由触摸面板等的输入装置和显示装 置组合后的装置构成。该情况下,由内置于触摸面板中的触摸传感器等构成的 位置输入装置构成输入部220,由液晶显示器等构成的显示装置构成显示部 230。

以上构成的检索装置2在控制部200的控制下进行检索处理。具体而言, 按照图12的流程图所示的顺序执行处理。

本处理以检索装置2的输入部220接收从用户输入的检索词为契机而开 始。即,通过用户使用键盘255输入所希望的检索词,指示进行检索的意图, 开始本处理。

若从用户接收检索词开始处理,则首先文档确定部201从多个文档数据 401a~401c等中确定出包含检索词的文档数据401(步骤S1201)。即,例如 若用户输入“比赛”这个检索词,则文档确定部201进行多个文档数据401a~ 401c等所包含的字符串的检索,确定出包含“比赛”这个检索词的字符串(检 索字符串)的文档数据401。

此时进行的检索是所谓的全文检索,针对各文档数据401内的词条以及说 明文的字符串进行。即,若在文档数据401内的词条或说明文的任意一个中包 含被输入的检索词的字符串,则确定该文档数据401。确定出的文档数据401 被暂时保持在RAM253中。

另外,此时进行的检索也可以利用任意的公知检索技术进行。即,可以使 用例如依次扫描多个文档数据401a~401c等来找出检索字符串的依次型检索 (grep型检索),或也可以使用为了检索处理的高速化而预先准备索引文件的 索引型(index型)检索。另外,在索引型检索的情况下,例如可以利用所谓 的词素分析的手法生成索引文件,也可以利用所谓的N元模型的手法(N字 符索引法)生成索引文件。

这样,若确定出包含有检索词的文档数据401,则文档输出部202输出确 定出的文档数据401(步骤S1202)。即,文档输出部202通过在监视器256 这样的显示部230显示包含输入的检索词的文档数据401,来向用户输出。由 此,用户能够了解自身输入的检索词包含在哪个文档数据401中。

而且,在检索装置2中,基准词判定部203使用近义词列表900判定是否 存在与检索词一致的基准词(步骤S1203)。即,基准词判定部203访问由生 成装置1预先生成、且存储在存储部210中的近义词列表900,判定该近义词 列表900所具备的基准词中是否存在与输入的检索词一致的词。

若判定不存在与检索词一致的基准词(步骤S1203;NO),则这里不进行 任何处理,保持原样结束检索处理。即,由于输入的检索词在与近义词列表 900内不存在对应的近义词,因此,这里不输出近义词,而仅输出上述确定出 的文档数据401,结束检索处理。

另一方面,若判定存在与检索词一致的基准词(步骤S1203;YES),则 近义词输出部204按照等级(输出优先级)从高到低的顺序输出与该一致的基 准词对应的近义词(步骤S1204),之后结束检索处理。即,近义词输出部204 针对与检索词一致的基准词,从近义词列表900取得对应的全部的近义词,通 过按照基于对每个近义词预先设定的等级值的顺序在监视器256中显示等来 向用户输出。

例如,在用户输入“比赛”这个检索词的情况下,包含该“比赛”这个检 索词的文档数据401作为检索结果而被输出,且在近义词列表900内与该“比 赛”这个基准词对应的3个近义词“胜负”、“竞赛”“竞争”也被输出。其结 果,具体而言,在检索装置2的监视器256中显示图13所示的输出结果。即 如本图所示,作为包含“比赛”这个检索词的文档数据401,“AAA”、“BBB”、 “XXX”、“ZZZ”等的文档数据401显示在监视器256内的检索结果的栏中, 作为针对“比赛”这个基准词的近义词,存储于近义词列表900内的“竞赛”、 “胜负”、“竞争”这3个词语显示在监视器256内的推荐检索词的栏内。

此时作为推荐检索词显示的3个近义词在比较各自的等级值的基础上,按 照该等级从高到低的顺序显示。由于近义词和检索词同时出现的文档数据401 的个数越多,各自的该近义词的等级越被设定成较小的值,因此,按照与检索 词同时出现的文档数据401的个数从少到多的顺序显示。具体而言,如上述图 9所示,由于“胜负”这个近义词的等级被设定成-1,“竞赛”这个近义词的等 级被设定成0,“竞争”这个近义词的等级被设定成-4,因此,如图13的监视 器256所示,按照等级从高到低的顺序排列输出“竞赛”、“胜负”、“竞争”。

而且,此时,就3个近义词而言,设定的等级值越大越以较大的字符显示。 即,以最大的字符显示等级为0的“竞赛”这个近义词,以最小的字符显示等 级为-4的“竞争”这个近义词。由此,由于越是与检索词同时出现的文档数据 401的个数较少的近义词,作为推荐检索词越以用户容易确认的方式显示,因 此,用户能够高效地检索较多种类的文档数据401。

根据以上构成,本实施方式的检索装置2在输入的检索词与近义词列表 900的任意一个基准词一致的情况下,与基于检索词的检索结果一起输出与该 一致的基准词对应的近义词。此时,与检索词同时出现的文档数据401的个数 越少,越以较高的优先级输出近义词。其结果,用户能够高效地检索较多种类 的文档数据401。

特别如本实施方式所示,在检索对象的文档数据401构成词典的情况下, 在同一个文档数据401内存在意思类似的多个词语的情况较多。因此,通过降 低检索重复的文档数据401的近义词的向用户输出的优先级,能够有效地检索 更多种类的文档数据401。

此外,上述实施方式是一个例子,本发明的适用范围不限于此。即,可进 行各种应用,所有的实施方式包含在本发明的范围内。

例如,在上述实施方式中,检索装置2在ROM252这样的存储部210内 存储了文档数据组400等。但不限于此,检索装置2可以具备硬盘等大容量存 储装置、DVD-ROM驱动器,将文档数据组400等存储在硬盘、DVD-ROM等 中。或检索装置2也可以与网络连接,将文档数据组400等存在网络上。

另外,在上述实施方式中,在检索装置2中,用户输入检索词的输入部 220、显示检索结果的显示部230与控制部200、存储部210存在于同一个装 置内。但不限于此,输入部220和显示部230可以在检索装置2的外部。即, 例如图14所示,检索装置2不具备输入部220和显示部230,经由网络150 与具备他们的终端装置3连接,可以作为在线型的电子词典的信息设备而构 成。

此时,检索装置2和终端装置3通过各自所具备的通信部240a、240b, 经由网络150相互进行数据通信。即,终端装置3的用户所输入的检索词被发 送至检索装置2,通过控制部200执行检索处理。之后,作为检索结果的文档 数据401和近义词的信息再次被发送至终端装置3,向终端装置3的用户输出。 通过采用这样的构成,具有如下优点:统一管理检索装置2内的文档数据组 400等,并能够被多个用户利用,而且由于用户侧的终端装置3无需保持文档 数据组400等,因此能够抑制数据大小。

另外,在上述实施方式中,作为检索装置2假设电子词典这样的小型信息 处理装置进行了说明。但不限于此,检索装置2也可以是商用·家用的一般的 计算机装置、移动电话等其他的信息设备。而且,不限于电子词典中的检索, 可以检索各种电子数据的检索。例如,可以在一般的计算机装置中,从存储于 硬盘等大容量存储装置、DVD-ROM等中的电子文件中,检索包含所希望的检 索词的电子文件。或与网络连接,检索存在于网络上的网页。

另外,在生成装置1中,上述实施方式的生成装置1根据存储在硬盘154 这样的存储部110中的近义词数据库300以及文档数据组400生成近义词列表 900,并将该生成的近义词列表900存储到存储部110中。但这些近义词数据 库300、文档数据组400不限于存储于生成装置1内所具备的存储部110中, 可以存在于经由通信部140连接的网络150上,或可以存储在装载于 DVD-ROM驱动器157中的DVD-ROM内。

另外,在上述实施方式中,构成文档数据组400的多个文档数据401由“词 条”和“说明文”构成。但不限于这些,可以由各种要素构成。例如,也可以 具有用于说明“词条”的图、表。或在词典中的检索以外的一般的电子文件等 的检索中,不限于这样的“词条”和“说明文”的构成要素,文档数据401 可以以各种形式具有字符串数据。

另外,上述实施方式的近义词列表900的生成装置1基于同时包含近义词 和对应的基准词的文档数据401的个数,设定了该近义词的输出优先级。即, 若在一个文档数据401内包含各至少一个近义词和对应的基准词,则该近义词 的等级(输出优先级)的值一样降低1。但不限于此,可以基于近义词和对应 的基准词中的至少一方的各种出现状态,设定各种等级。

例如,近义词单独出现的文档数据401的个数、频度越高,可以越使该近 义词的等级上升。是因为能够更多地确定在基准词的检索中不能确定的文档数 据401,而且,其中出现频度高的近义词反映用户的检索意图的可能性较高。

或另外,可以根据近义词在文档数据401中的出现位置,来变动该近义词 设定的等级。例如,越是较多出现在靠近文档数据401的前端位置的近义词, 可以将等级设定得越高,提高输出优先级。并且,越是出现在靠近基准词的位 置的近义词,推测与基准词意思类似的程度越高,可以将等级设定得越高,提 高输出优先级。

另外,在上述实施方式中,不对文档数据401内的“词条”和“说明文” 进行区别,若任意一个中包含基准词和对应的近义词,则同样使该近义词的等 级值降低。但不限于此,可以对“词条”和“说明文”进行区别。例如,可以 根据基准词包含在“词条”中,且近义词包含在“说明文”中的情况、近义词 包含在“词条”中,且基准词包含在“说明文”中的情况等,使该近义词的等 级值变动。

另外,上述实施方式的检索装置2以设定的等级越高越使字符的大小增大 的方式输出近义词。但不限于此,可以基于设定的等级,对方式进行各种变化 来输出近义词。例如,可以以设定的等级越高越以容易观看的颜色显示近义词 的方式进行。或可以以通过设定的等级越高越使显示近义词的亮度提高等来强 调显示的方式进行。由此,由于以越是等级高的近义词越容易被用户确认的方 式显示,因此,用户能够进行基于该等级高的近义词的高效的检索。

另外,上述实施方式的检索装置2输出近义词列表900内的基准词中、与 输入的检索词一致的基准词所对应的近义词。但不仅限于基准词和检索词完全 一致,也可以针对检索词所包含的基准词来输出近义词。例如,在作为检索词 输入“专利权”这个字符串的情况下,也可以输出针对包含在其中的基准词“专 利”的近义词。由此,不仅与检索词本身对应,也能够与检索词所包含的词语 对应,能够针对各种输入的检索词,灵活地输出近义词。

而且此时,可以以用户能够指定检索词的字符串中的输出近义词的字符串 的方式进行。即,不输出针对检索词所包含的全部的基准词的近义词,检索装 置2仅针对与由用户指定的字符串一致的基准词输出近义词。若具体地进行说 明,例如,在输入的检索词是“世界上最大岛屿”这个字符串的情况下,若在 近义词列表900内登记有“世界”、“最大”“岛屿”这些基准词,则若输出针 对检索字符串所包含的这3个基准词的全部的近义词,则想象输出的近义词的 数量会变得过多的情况。因此,通过仅对用户指定的字符串输出近义词,能够 防止输出变得过于繁琐。

或检索装置2可以预先对输出的近义词的个数设置上限值,仅按照设定的 等级较从高到低的顺序输出达到上限值的个数的近义词。由此,能够防止因对 应于和输入的检索词一致或者所包含的基准词的近义词的个数多而输出变得 繁琐的状况。

此外,当然作为预先具备的近义词列表的生成装置以及使用了该近义词列 表的检索装置能够提供用于实现本发明的功能的构成,也能够通过应用程序, 使现有的个人计算机、信息终端设备等作为本发明的生成装置以及检索装置而 发挥功能。即,通过以现有的个人计算机、对信息终端设备等进行控制的CPU 等能够执行的方式,应用用于实现基于上述实施方式中所例示的生成装置1 以及检索装置2的各功能构成的生成程序或者检索程序,能够分别作为本发明 的生成装置1以及检索装置2发挥功能。另外,本发明的近义词列表的生成方 法以及使用了该近义词列表的检索方法分别使用生成装置1以及检索装置2 来实施。

另外,该程序的应用方法任意,例如,除了能够存储在CD-ROM、 DVD-ROM、存储卡片等计算机可读取的存储介质中进行应用外,例如,还能 够经由网络等的通信介质进行应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号