首页> 中国专利> 基于多维语义的可视化网络检索呈现系统及呈现控制方法

基于多维语义的可视化网络检索呈现系统及呈现控制方法

摘要

本发明涉及一种基于多维语义的可视化网络检索呈现系统及呈现控制方法,属于网络检索技术领域。该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元,该方法利用语义匹配与推理模块对关键词进行语义匹配和推理,索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果,以利于在用户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,从而有效区分同一文本信息的不同语义,提高检索效率。

著录项

  • 公开/公告号CN102915381A

    专利类型发明专利

  • 公开/公告日2013-02-06

    原文格式PDF

  • 申请/专利权人 公安部第三研究所;

    申请/专利号CN201210473410.9

  • 发明设计人 李逸;胡传平;梁辰;梅林;齐力;

    申请日2012-11-20

  • 分类号G06F17/30;

  • 代理机构上海智信专利代理有限公司;

  • 代理人王洁

  • 地址 200031 上海市徐汇区岳阳路76号

  • 入库时间 2024-02-19 17:23:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-08-12

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121120

    实质审查的生效

  • 2013-02-06

    公开

    公开

说明书

技术领域

本发明涉及网络检索技术领域,具体网络检索呈现技术领域,具体是指一种基于多维语 义的可视化网络检索呈现系统及呈现控制方法。

背景技术

随着检索技术的飞速发展,国内外涌现出如谷歌(Google)、雅虎(Yahoo)、百度(Baidu) 等各类成熟的搜索引擎。这些搜索引擎主要基于文本的信息检索技术,为用户提供完备性强、 相关性高的信息检索引擎。虽然现有的文本搜索技术能搜索到包含用户的文本查询信息的文 件,但是呈现形式主要是按照搜索结果的相关度进行排序,并将结果按照相关程度的大小, 以链接结果集的形式返回给用户。这种检索技术最大的缺点是,检索关键词的多义性导致搜 索结果集的语义关系千差万别,比如,当用户提交给搜索引擎的搜索关键词为“苹果”时, 搜索引擎无法正确判断“苹果”是指水果“苹果”,还是由Steve Jobs创办的“苹果”公司, 或者是指法国电影“The Apple”。搜索引擎在毫无上下文相关的情况下,无法准确确定出搜 索的“苹果”关键词与哪一种候选内容最相关,所以导致搜索到的结果往往不能满足用户的 需求。

发明内容

本发明的目的是克服了上述现有技术中的缺点,提供一种通过匹配用户的文本查询信息 和文件的索引信息,将检索结果按照语义的逻辑性分层次分维度地呈现给用户,以利于在用 户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,从而有效区分 同一文本的不同语义,提高检索效率,且系统结构简单,成本低廉,方法应用方式简便,应 用范围广泛的基于多维语义的可视化网络检索呈现系统及呈现控制方法。

为了实现上述的目的,本发明的基于多维语义的可视化网络检索呈现系统具有如下构成:

该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规 则单元和多维结果呈现单元。其中,查询服务器用以提供用户搜索关键词输入接口;语义匹 配与推理模块连接所述的查询服务器,根据相关领域内的知识集合对关键词语义进行匹配和 推理;索引数据库分别连接所述的查询服务器和语义匹配与推理模块,用以为搜索关键词提 供对应的搜索结果;语义索引结果集连接所述的索引数据库,用以保存与搜索关键词对应的 索引结果集;分维规则单元分别连接所述的语义索引结果集和语义匹配与推理模块,根据语 义索引结果集中关键词的语义距离,将索引结果集聚类成多个维度上的多个层次数据结果; 多维结果呈现单元则连接所述的分维规则单元,用以向用户呈现所述的多个维度上的多个层 次数据结果。

该基于多维语义的可视化网络检索呈现系统中,所述的语义匹配与推理模块包括标准本 体知识库、语义匹配单元和语义推理单元。其中,标准本体知识库存储有相应领域内的本体 知识集合;语义匹配单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词 的语义匹配规则,并进行语义匹配;语义推理单元连接所述的标准本体知识库,根据所述的 本体知识集合获得关键词的语义推理规则,并进行语义推理。

本发明还提供一种利用所述的系统基于多维语义实现可视化网络检索呈现控制的方法, 该方法包括以下步骤:

(1)所述的查询服务器接收到查询关键词,并判断关键词是否是复杂句,若是,则进入 步骤(2),若否,则进入步骤(3);

(2)所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关 键词字符串,然后进入步骤(3);

(3)所述的语义匹配与推理模块对所述的关键词进行语义匹配和推理,并将语义推理结 果集发送到所述的索引数据库;

(4)所述的索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引,并 将语义匹配和推理结果集的索引结果集发送至所述的分维规则单元;

(5)多维规则单元根据所述的语义索引结果集中关键词的语义距离,将索引结果集聚类 成具有多个维度的数据形式,所述的数据形式在各个维度上聚类多个层次的数据结果;

(6)多维结果呈现单元向用户呈现多个维度上的多个层次数据结果。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的查询服务器进行分词过 滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,具体为:所述的查询服务 器根据关键词的不同语言类型分别进行分词和过滤处理,并输出包含分隔号的关键词字符串。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义匹配与推理模块包 括标准本体知识库、语义匹配单元和语义推理单元,所述的标准本体知识库存储有相应领域 内的本体知识集合;所述的语义匹配单元和所述的语义推理单元均连接所述的标准本体知识 库,所述的步骤(3)具体包括以下步骤:

(31)所述的语义匹配与推理模块接收到查询关键词之后,所述的语义匹配单元根据所 述的标准本体知识库对关键词进行语义匹配处理,并将语义匹配结果集提交给所述的语义推 理单元;

(32)所述的语义推理单元对所述的语义匹配结果集进行语义推理处理,得到语义推理 结果集,并将所述的语义推理结果集发送至所述的索引数据库。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义匹配处理,具体为: 根据本领域特定的关键词集合,将其与查询关键词进行语义相似度计算,实现语义匹配。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义推理处理,具体为: 根据特定领域中的本体知识,得出该领域的推理规则,利用规则对语义匹配结果进行推理, 获得语义推理结果集。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(5)具体包括以下 步骤:

(51)所述的多维规则单元计算所述的语义索引结果集中的关键词之间的语义距离;

(52)所述的多维规则单元根据所述的语义距离将索引结果集聚类成多个维度多个层次 的数据结果。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(51)具体包括以 下步骤:

(51-1)所述的多维规则单元查找所述的语义索引结果集中的多个关键词的最近的公共 祖先节点;

(51-2)所述的多维规则单元计算各个关键词与所述的最近的公共祖先节点之间的距离;

(51-3)所述的多维规则单元将各个关键词与所述的最近的公共祖先节点间的距离之和 作为语义索引结果集中的关键词之间的语义距离。

该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(52)具体包括以 下步骤:

(52-1)所述的多维规则单元根据所述的关键词之间的语义距离,分析检索关键词和语 义距离之间的关系;

(52-2)所述的多维规则单元对多维数据集中的某一维度进行展开,确定检索结果所属 的维度和层次;

(52-3)将各个检索结果集合成为具有多个维度多个层次的数据结果。

采用了该发明的基于多维语义的可视化网络检索呈现系统及呈现控制方法,该系统包括 查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结 果呈现单元,从而能够利用语义匹配与推理模块对所述的关键词进行语义匹配和推理,索引 数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义 索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果;最后由多 维结果呈现单元呈现给用户,以利于在用户在基于多维度的候选检索结果呈现形式中,快速 地定位到检索的目标结果,有效区分同一文本信息的不同语义,提高检索效率,且系统结构 简单,成本低廉,方法应用方式简便,应用范围广泛的基于多维语义的可视化网络检索呈现 系统及呈现控制方法。

附图说明

图1为本发明的基于多维语义的可视化网络检索呈现系统的结构示意图。

图2为本发明的基于多维语义实现可视化网络检索呈现控制的方法的具体实施例的流程 图。

图3为本发明实施例中多维语义空间的检索呈现模块的流程图。

图4为本发明中基于多维语义空间的可视化检索呈现系统实施例的时序图。

具体实施方式

为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。

请参阅图1所示,为本发明的基于多维语义的可视化网络检索呈现系统的结构示意图。

在一种实施方式中,该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义 索引结果集、分维规则单元和多维结果呈现单元。其中,查询服务器用以提供用户搜索关键 词输入接口;语义匹配与推理模块连接所述的查询服务器,根据相关领域内的知识集合对关 键词语义进行匹配和推理;索引数据库分别连接所述的查询服务器和语义匹配与推理模块, 用以为搜索关键词提供对应的搜索结果;语义索引结果集连接所述的索引数据库,用以保存 与搜索关键词对应的索引结果集;分维规则单元分别连接所述的语义索引结果集和语义匹配 与推理模块,根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多个维度上的 多个层次数据结果;多维结果呈现单元则连接所述的分维规则单元,用以向用户呈现所述的 多个维度上的多个层次数据结果。

利用该实施方式所述的系统基于多维语义实现可视化网络检索呈现控制的方法,包括以 下步骤:

(1)所述的查询服务器接收到查询关键词,并判断关键词是否是复杂句,若是,则进入 步骤(2),若否,则进入步骤(3);

(2)所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关 键词字符串,然后进入步骤(3);

(3)所述的语义匹配与推理模块对所述的关键词进行语义匹配和推理,并将语义推理结 果集发送到所述的索引数据库;

(4)所述的索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引,并 将语义匹配和推理结果集的索引结果集发送至所述的分维规则单元;

(5)多维规则单元根据所述的语义索引结果集中关键词的语义距离,将索引结果集聚类 成具有多个维度的数据形式,所述的数据形式在各个维度上聚类多个层次的数据结果;

(6)多维结果呈现单元向用户呈现多个维度上的多个层次数据结果。

其中,步骤(2)中所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包 含分隔号的关键词字符串,具体为:所述的查询服务器根据关键词的不同语言类型分别进行 分词和过滤处理,并输出包含分隔号的关键词字符串。

在一种较优选的实施方式中,所述的语义匹配与推理模块包括标准本体知识库、语义匹 配单元和语义推理单元。其中,标准本体知识库存储有相应领域内的本体知识集合;语义匹 配单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义匹配规则, 并进行语义匹配;语义推理单元连接所述的标准本体知识库,根据所述的本体知识集合获得 关键词的语义推理规则,并进行语义推理。

在利用该较优选的实施方式所述的系统基于多维语义实现可视化网络检索呈现控制的方 法中,所述的步骤(3)具体包括以下步骤:

(31)所述的语义匹配与推理模块接收到查询关键词之后,所述的语义匹配单元根据所 述的标准本体知识库对关键词进行语义匹配处理,并将语义匹配结果集提交给所述的语义推 理单元,所述的语义匹配处理,具体为:根据本领域特定的关键词集合,将其与查询关键词 进行语义相似度计算,实现语义匹配;

(32)所述的语义推理单元对所述的语义匹配结果集进行语义推理处理,得到语义推理 结果集,并将所述的语义推理结果集发送至所述的索引数据库。其中,所述的语义推理处理, 具体为:根据特定领域中的本体知识,得出该领域的推理规则,利用规则对语义匹配结果进 行推理,获得语义推理结果集。

在一种进一步优选的实施方式中,所述的步骤(5)具体包括以下步骤:

(51)所述的多维规则单元计算所述的语义索引结果集中的关键词之间的语义距离;

(52)所述的多维规则单元根据所述的语义距离将索引结果集聚类成多个维度多个层次 的数据结果。

在一种更优选的实施方式中,所述的步骤(51)具体包括以下步骤:

(51-1)所述的多维规则单元查找所述的语义索引结果集中的多个关键词的最近的公共 祖先节点;

(51-2)所述的多维规则单元计算各个关键词与所述的最近的公共祖先节点之间的距离;

(51-3)所述的多维规则单元将各个关键词与所述的最近的公共祖先节点间的距离之和 作为语义索引结果集中的关键词之间的语义距离。

且所述的步骤(52)具体包括以下步骤:

(52-1)所述的多维规则单元根据所述的关键词之间的语义距离,分析检索关键词和语 义距离之间的关系;

(52-2)所述的多维规则单元对多维数据集中的某一维度进行展开,确定检索结果所属 的维度和层次;

(52-3)将各个检索结果集合成为具有多个维度多个层次的数据结果。

在实际应用中,本发明的提供的基于多维语义空间的可视化检索呈现系统中,扩展检索 关键词的语义相似性计算,两个关键词之间的语义距离可以理解成两个结点,两个结点之间 的语义距离指的是两个结点的最近公共祖先结点分别到这两个结点的路径之和。计算两个结 点的最小距离即找到最近的公共祖先结点,然后计算分别到两个结点之间的距离,最后将两 个距离相加即为所求。

语义聚类算法中,采用多维数组计算检索关键词的语义距离,经过分析检索两个关键词 之间的语义关系,可对多维数据集中的某一维度进行展开,进而确定检索结果是在哪几个维 度的哪几个层次上的数据结果。

图1示意了本发明实现的基于多维语义空间的可视化检索呈现系统原理图,包括查询服 务器、标准本体知识库、语义匹配单元、语义推理单元、索引数据库、语义索引结果集、分 维规则和多维结果呈现单元。查询服务器是提供用户搜索关键词的接口;标准本体知识库保 存该领域内的本体知识集合,为语义匹配单元和语义推理单元提供语义匹配和推理规则;索 引数据库为搜索关键词提供对应的搜索结果;语义索引结果集保存了与搜索关键词对应的索 引结果集;分维规则单元根据语义索引结果中关键词的语义距离,将索引结果集聚类成具有 多个维度的数据形式,多个维度上聚类多个层次的数据结果。

图2表示的是本发明的方法的实施例流程图,主要包括如下步骤。

步骤201,接收查询关键词,并判断输入的关键词是否是复杂句,若是,则进行步骤202; 否则,继续进行步骤203,发送到索引数据库。

步骤202,按查询关键词的不同语言类型分别进行不同的分词、过滤处理,输出中文单 词、英文单词和数字串等一系列分隔号的字符串。

步骤203,根据索引数据库的内容,索引得出与查询关键分词相对应的搜索结果集合。

步骤204,语义推理:根据特定领域中的本体知识,得出该领域的推理规则,利用规则 对描述结果进行推理,得出推理结果集;语义匹配:根据推理结果集和本领域特定的关键词 集合进行语义相似度计算和语义匹配。

步骤205,分维规则单元根据语义索引结果中关键词的语义距离,将索引结果集聚类成 具有多个维度的数据形式,多个维度上聚类多个层次的数据结果。

步骤206,结果呈现模块,将搜索结果按照多维的数据形式呈现出来。

图3为本发明实施例中多维语义空间的检索呈现模块的流程图,主要包括如下步骤。

步骤301,根据索引数据库已建立的索引内容,得出与查询关键分词相对应的搜索结果 集合。

步骤302,语义匹配模块,根据推理结果集和本领域特定的关键词集合进行语义相似度 计算和语义匹配。

步骤303,语义推理模块,设定本领域的推理规则,利用该规则对描述结果进行推理, 得到推理结果集。

步骤304,计算两个关键词的语义距离,可以假设待求的两个关键词可以表示为两个结 点(和),它们的公共祖先结点有如下的性质:公共祖先结点本身及其左右子树中必有“和” 结点。于是从头结点开始依次访问它本身、左子树和右子树,其中含有“或”结点,则计数 符号加1。当访问结束后发现标记为2时,则说明当前结点以下同时包含“和”结点,即当 前结点是目标的最近公共结点,则两个关键词的语义距离即“和”结点分别到最近公共结点 的总和。

步骤305,分类、聚类搜索结果,采用多维数组计算检索关键词的语义距离,经过分析 检索关键词和语义距离之间的关系,可对多维数据集中的某一维度进行展开,进而确定检索 结果是在哪几个维度的哪几个层次上的数据结果。

步骤306,分维呈现检索结果,根据语义索引结果中关键词的语义距离,将索引结果集 聚类成具有多个维度的数据形式,多个维度上聚类多个层次的数据结果。

图4为本发明中基于多维语义空间的可视化检索呈现系统实施例的时序图,主要包括如 下步骤。

步骤401,查询服务器向语义扩展模块发出查询请求;

步骤402和步骤403,语义扩展模块根据标准本体知识库对搜索关键词进行扩展,得到 扩展查询请求关键词,并将之发送给索引数据库模块;

步骤404,索引数据库模块,索引得出与查询关键分词相对应的搜索结果集合。

步骤405,索引数据库模块将搜索结果集合发送给分维呈现模块。

步骤406,分维呈现模块计算语义距离,检索关键词的语义相似性计算的方法是,将两 个结点的最近公共祖先结点分别到这两个结点的路径加起来,所以,计算两个结点的最小距 离的关键是要找到最近的公共祖先结点,然后计算分别到两个结点之间的距离,将距离相加 即为所求。

步骤407,分维呈现模块分类、聚类搜索结果,采用多维数组计算检索关键词的语义距 离,经过分析检索关键词和语义距离之间的关系,可对多维数据集中的某一维度进行展开, 进而确定检索结果是在哪几个维度的哪几个层次上的数据结果。

步骤408,分维呈现模块将搜索结果组织成语义的网络关系,并按照多维度的数据形式 显示。

采用了该发明的基于多维语义的可视化网络检索呈现系统及呈现控制方法,该系统包括 查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结 果呈现单元,从而能够利用语义匹配与推理模块对所述的关键词进行语义匹配和推理,索引 数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义 索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果;最后由多 维结果呈现单元呈现给用户,以利于在用户在基于多维度的候选检索结果呈现形式中,快速 地定位到检索的目标结果,有效区分同一文本信息的不同语义,提高检索效率,且系统结构 简单,成本低廉,方法应用方式简便,应用范围广泛的基于多维语义的可视化网络检索呈现 系统及呈现控制方法。

在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种 修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限 制性的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号