首页> 中国专利> 一种基于维基百科构建概念型知识地图的方法

一种基于维基百科构建概念型知识地图的方法

摘要

本发明公开了一种使用维基百科构建概念型知识地图的方法,步骤为:①从维基百科全文数据中抽取知识文档,将抽取的文档分类并存储;②从知识文档中获取知识信息,分析每篇知识文档获取知识信息并存入数据库;③以知识节点格式描述库中的规范为基础,将知识信息转化为相应的概念知识节点和类别知识节点,并以文件格式存储至本地;④建立索引以提供使用关键字对知识信息进行检索的功能,并将检索返回的结果进行显示。利用本发明构建的知识地图不仅可以适用于多个领域,而且其中的知识信息可以和维基百科一起更新,同时知识源的获取容易,知识信息全面,采用可扩展标记语言对知识节点信息进行描述,因此可扩展性强并且可以在多平台上使用。

著录项

  • 公开/公告号CN102609449A

    专利类型发明专利

  • 公开/公告日2012-07-25

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201210006157.6

  • 发明设计人 金海;赵峰;袁平鹏;方飞;

    申请日2012-01-06

  • 分类号G06F17/30;

  • 代理机构华中科技大学专利中心;

  • 代理人曹葆青

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-12-18 06:17:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-05-07

    授权

    授权

  • 2012-09-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120106

    实质审查的生效

  • 2012-07-25

    公开

    公开

说明书

技术领域

本发明属于知识管理领域,具体涉及一种使用维基百科构建概念型知 识地图的方法。

背景技术

20世纪90年代以来,随着现代信息技术的高速发展,人类已进入知 识经济时代,一方面知识总量在快速地增加,知识资源日益丰富,另一方 面随着人类文明的不断进步,知识的价值也随之不断提升。知识管理的出 现正是为了将这些飞速增长的海量知识进行有效组织和管理,发挥出知识 巨大的力量,并使其能够创造出更大价值。

知识管理是将智力资本转化为价值的一系列过程,包括知识的获取、 组织、传递、共享、传播、应用和创新等过程。其目的是在整个知识管理 过程中将最恰当的知识在最恰当的时间传递给最恰当的人,以便其能够利 用这些知识做出最恰当的决策。

随着知识管理研究的兴起,知识地图作为一种组织和管理知识的重要 工具得到了人们的普遍认可,目前正受到越来越多的来自企业和学者的关 注。知识地图是一种智能化的知识管理工具,提供了知识导航的能力,并 且能够在语义层面上描述知识的内在关系,能够根据人们的需要快速有效 地定位知识的位置,提高知识利用率,实现知识的组织、查找、共享和创 新。

知识导航功能是知识地图最根本的作用。知识地图是一个向导,它本身 并不是一个知识的集合,而是关于知识源的知识,知识地图指向的是知识 源。通过对知识信息的分析,知识地图还能有效地揭示知识节点之间的关 系,如相关关系、因果关系、逻辑关系、评价关系等等。知识地图也可以 挖掘隐性知识。隐性知识是很难用语言、文字、符号等表述的知识,它存 在人脑中,知识地图可以帮助使用者找到所需要的隐性知识,在这个过程 中,那些存在于人脑中的隐性知识将被逐渐显性化,并被提炼出来最后转 化成为组织中原本不具备的显性知识,从而有助于知识资源的共享、传播 和创造。根据使用对象的不同,知识地图可以划分为概念型知识地图、流 程型知识地图和能力型知识地图。

虽然知识地图已经成为知识管理的研究热点,但传统的知识地图往往 都是为某一个专门领域中某一特定目的而人工制作的,这类知识地图的适 用范围非常有限,导致对不同的应用领域需要重新开发新的系统,通用性 不强,而且由于知识源的信息也不易获取,使得开发效率很低,同时这些 知识地图中的知识都是静态的,无法反映最新的知识变化,尽管近些年有 一些研究者利用数据挖掘和自然语言处理的算法实现动态知识地图的构建 方法,但因其算法理解的难度和改进的复杂性阻碍了知识地图构建的实现。

发明内容

本发明的目的是提供一种使用维基百科构建概念型知识地图的方法, 该方法能够根据维基百科建立一个概念型的知识地图,知识源的获取容易, 知识信息全面且可以动态扩展,知识内容可以及时更新,同时可适用于多 个领域,具有知识信息全面,可扩展性强,能实时更新以及适用范围广的 特点。

本发明提供的一种基于维基百科构建概念型知识地图的方法,该方法 包括下述步骤:

第1步、抽取知识文档:从维基百科全文数据中抽取出知识文档,然 后将抽取的文档分为概念知识文档和类别知识文档,最后将知识文档存储;

第2步、获取知识信息:分析所有存储的知识文档,获取各知识文档 中所包含的知识信息,包括概念、类别的基本知识信息,概念与类别之间 的关联信息以及概念与概念之间的关联信息,并将所有获取的知识信息存 入数据库;

第3步、知识信息转化为知识节点:以知识节点格式描述库中的规范 为基础,将获取的知识信息按照统一的描述格式转化为知识节点,然后将 知识节点以文件形式存储到本地;

第4步、使用知识信息:对知识节点中的知识信息建立索引,以提供 通过关键词对知识信息进行检索的功能,并将检索结果以概念知识地图的 方式进行显示。

针对传统知识地图适用范围的局限性以及无法反映最新的知识变化的 静态性,本发明提供一种使用维基百科构建概念型知识地图的方法,首先 从维基百科全文数据中抽取知识文档,然后从知识文档中获取知识信息, 接着将获取的知识信息转化为知识节点,最后将这些知识信息供用户使用。 具体而言,本发明的主要特点为:

(1)知识信息全面并且可实时性更新

本发明基于维基百科建立,维基百科上的知识由全世界的人所贡献, 知识覆盖面广,知识信息全面。维基百科的信息每两周更新一次,只要将 维基百科更新的文件处理一次,即可实现知识地图知识信息的实时更新。

(2)可扩展性强

本发明使用可扩展标记语言对知识节点及知识节点之间的知识信息进 行描述,因此从任何资源抽取的知识信息,只要转换成符合本发明知识描 述格式,则均可将相关的知识添加到知识地图中,系统可扩展性强。

(3)通用性强

本发明实现的知识地图不仅包含显性的知识节点信息,还包含知识节 点之间的语义关联信息,所有这些信息能够广泛的应用于知识管理,信息 检索,数据挖掘以及自然语言处理等领域。

附图说明

图1为本发明方法的整体流程图;

图2为本发明抽取维基百科知识文档的流程图;

图3为本发明获取知识信息的流程图;

图4为本发明分析知识文档的流程图;

图5为标题为“Green computing”的概念知识节点;

图6为标题为“Category:Computers and the environment”的类别知识 节点。

具体实施方式

如图1所示,本发明提供的基于维基百科构建概念型知识地图的方法, 主要包括从维基百科全文数据抽取知识文档,从知识文档获取知识信息, 将知识信息转化为知识节点和使用知识信息四个步骤。下面具体说明如下:

第一步、抽取知识文档:从维基百科中抽取出知识文档,然后将知识 文档分为概念型和类别型知识文档,最后将知识文档以文件形式存储至本 地,构成知识文档集。该过程分为两步:抽取知识文档和知识文档分类与 存储。

(a)知识文档抽取,从维基百科的全文数据抽取知识文档,流程图如图 2所示,抽取步骤如下:

(1)首先从维基百科官方网站下载其全文数据文件data.xml;

(2)读取标签,直到data.xml开始标签,接下来以知识文档为单位对 该文件进行解析;

(3)新建知识文档,读取<id>标签内容作为文档编号,<title>标签内 容作为文档标题,<text>标签内容作为文档内容;

(4)以文档编号为文件名保存知识文档。继续读取标签,若当前读取 标签为data.xml结束标签,则执行(5),否则执行(3)。

(5)抽取结束。

(b)知识文档分类与存储:将抽取的知识文档分为概念型和类别型知 识文档,并将知识文档以文件形式存储至本地。维基百科标题是按照一定 规则进行命名的,可以以标题为特征对知识文档进行分类。如果知识文档 标题严格以字符串“Category:”开头,则表明该文档是类别知识文档,否则 就是概念型知识文档,依据文档的分类结果将知识文档分别储存到两个目 录下,使用文档编号作为文件名,以方便直接定位知识文档存储位置,所 有的类别知识文档和概念型知识文档构成知识文档集。

第二步、获取知识信息:使用知识文档分析器分析知识文档集中的所 有知识文档,获取各知识文档中所包含的知识信息,包括概念、类别的基 本知识信息,概念与类别的关联知识信息以及概念与概念的关联知识信息, 最后将所有获取的知识信息存入数据库。

每篇知识文档可以看成是由多个文档片段组成,其中每个文档片段包 含两个属性:文档片段名称和知识概念集。知识文档分析器提取出每个文 档片段的片段名称以及知识概念集,这样就使得后续步骤可以方便地获取 知识文档中指定文档片段中的知识概念。

有了知识文档分析器为基础,获取知识信息和存储的流程图如图3所 示,主要步骤如下:

(1)初始,建立数据库,并从知识文档集中读取一份文档;

建立名称为维基百科wikipedia的数据库,然后在该数据库中建立五个 表,分别用来存储相应的知识信息,具体如下:

概念基本知识信息表:存储概念的基本知识信息,包括概念编号和概 念标题两个字段;概念关联知识信息表:存储概念与概念之间的知识信息, 包括当前概念和关联概念两个字段;类别基本知识信息表:存储类别的基 本知识信息,包括类别编号和类别标题两个字段;类别关联知识信息表: 存储类别与类别之间的关联信息,包括当前类别和子类别两个字段;类别 与概念关联知识信息表:存储类别与概念之间的关联信息,包括类别和类 别概念两个字段。

(2)使用知识文档分析器分析该文档,如果文档是概念知识文档执行 步骤(3),否则转步骤(5)执行;

知识文档分析器的工作流程图如图4,分析步骤如下:

①初始,设置空的集合作为知识概念集,并根据文档编号,查找到对 应的知识文档;

②读取当前行,若到达文件末,则转步骤④;

③如果当前行以字符串“==”开头,则表明新的文档片段开始,此时保 存上一个文档片段的名称和知识概念集,然后从当前行中匹配出下一个文 档片段名称,并清空知识概念集合,再转步骤②执行;如果当前行不以字 符串“==”开头,则从当前行中用正则表达式匹配出知识概念,并将其加入 到知识概念集中,转步骤②执行;

④文档分析结束。

(3)获取概念基本知识信息,以文档标题作为概念名称,文档编号作为 概念编号,存入数据库的概念基本知识信息表中;

(4)获取概念与概念之间的知识信息,将名称为“See also”的文档片段对 应的概念集提取出来作为当前概念的关联概念,存入数据库的概念关联知识 信息表中,然后转步骤(8)执行;

(5)获取类别基本知识信息,以文档标题作为类别名称,文档编号作为 类别编号,存入数据库的类别基本知识信息表中;

(6)获取类别与类别之间的知识信息,将名称为“Subcategories”的文档 片段对应的概念集提取出来作为当前类别的子类别,存入数据库的类别关联 知识信息表中;

(7)获取类别与概念之间的知识信息,将名称为“Pages in category”的文 档片段对应的概念集提取出来作为当前类别的关联概念,存入数据库的类别 与概念关联知识信息表中,然后转步骤(8)执行;

(8)判断知识文档集是否读取完毕,如果是,结束,否则读取下一篇知 识文档,然后转入步骤(2)。

第三步、知识信息转化为知识节点

该步骤主要依据知识节点格式描述库中的描述规范将第二步中存储的 知识信息转化为对应的知识节点,并将每个知识节点以文件形式存储到本 地。该步骤主要包括建立知识节点格式描述库,概念知识节点转化和类别 知识节点转化三个部分。

(a)建立知识节点格式描述库

以可扩展标记语言(XML)为基础,制定一个统一规范的格式对知识节 点及知识节点之间的关系进行描述,这样既提高了系统的可扩展性,也使 得知识信息可以跨平台使用。

知识节点描述中各标签含义如下:

<Item>标签,表示一个知识结点,其子标签都是关于该知识节点的信 息;

<Id>标签,表示知识文档编号,即知识节点编号;

<Title>标签,表示知识文档标题,即知识节点标题;

<Type>标签,表示知识节点类型:取值为1或者2,1表示概念知识节 点,2表示类别知识节点;

<Links>标签,表示知识源链接,知识地图指向的是知识源,该标签的 每个子标签<link>对应一个当前知识节点对应的一个知识源;

<Categories>标签,表示当前概念所属的类别,每个子标签<C>对应一 个类别;

<RelConcepts>标签,概念知识节点专属,表示当前概念知识节点的关 联概念,该标签的每一个子标签<RC>表示一个当前概念的关联概念;

<Subcategories>标签,类别知识节点专属,表示当前类别的子类别,该 标签的每一个子标签<SC>表示一个当前类别的子类别;

<IncludeConcepts>标签,类别知识节点专属,表示当前类别包含的概 念,该标签的每一个子标签<IC>表示当前类别所包含的一个概念。

(b)概念知识节点转化

依据知识节点格式描述库,将第二步中存储的概念知识信息转化为概 念知识节点,并以XML文件格式存储至本地。主要步骤如下:

(1)读取概念基本知识信息表的一条记录,得到概念编号和概念标题;

(2)以概念编号为文件名建立一个新的知识节点XML文件,在该文件 中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>, <Links>,<Categories>,<RelConcepts>;

(3)使用概念编号填充Id标签,概念标题填充Title标签,Type标签内 容为1;

(4)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该概 念的维基百科网站链接,一个指向该概念对应知识文档的本地存储路径;

(5)根据概念的标题从类别与概念关联知识信息表中获取概念所属的 类别集合,对其中的每一个类别,在<Categories>标签下新建一个子标签 <C>,标签内容用类别名称填充;

(6)根据概念的标题从概念关联知识信息表中获取概念的关联概念集 合,对其中的每一个关联概念,在<RelConcepts>标签下新建一个子标签 <RC>,标签内容用概念名称填充;

(7)一个概念知识节点建立完成,将其对应的文件存储至本地。

(c)类别知识节点转化

依据知识节点格式描述库,对第二步中存储的类别知识信息转化为类 别知识节点,并以XML文件格式存储至本地。主要步骤如下:

(1)读取类别基本知识信息表的一条记录,得到类别编号和类别标题;

(2)以类别编号为文件名建立一个新的知识节点XML文件,在该文件 中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>,<Links>, <Categories>,<Subcategories>,<IncludeConcepts>;

(3)使用类别编号填充Id标签,类别标题填充Title标签,Type标签内 容为2;

(4)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该类 别的维基百科网站链接,一个指向该类别对应知识文档的本地存储路径;

(5)从类别关联知识信息表中找到该类别所属的类别集合,对其中每一 个类别,在<Categories>标签下新建一个子标签<C>,标签内容用类别名称 填充;

(6)从类别关联知识信息表中找到该类别的子类别集合,对其中的每一 个类别,在<Subcategories>标签下新建一个子标签<SC>,标签内容用类别 名称填充;

(7)从类别与概念关联知识信息表中找到该类别下的概念集合,对其中 的每一个概念,在<IncludeConcepts>标签下新建一个子标签<IC>,标签内 容用概念名称填充;

(8)一个类别知识节点建立完成,将其对应的文件存储至本地。

第四步、使用知识节点

在知识信息转化为知识节点完成后,接下来对知识节点中的知识信息 建立索引,以提供通过关键词对知识进行检索的功能,并将检索结果以概 念知识地图的方式进行显示。

(a)知识节点的索引与检索

对第三步中存储的知识节点的文件进行索引,遍历所有的知识节点文 件,获取每个知识节点文件的路径以及文件中的<Id>标签中的编号和 <Title>标签中的标题,然后对这三个字段进行索引。

索引建立完成后,可以对知识信息进行检索。首先输入关键字,然后 依据索引中的标题字段检索,通过检索返回结果中的路径字段可以定位到 知识节点文件的存储位置,然后将知识节点文件中的知识信息进行显示。

(b)知识节点的显示

知识地图中,除了显示基本的知识节点信息外,还要显示出知识节点 的关联信息。在显示知识节点的信息时,主要是通过颜色来对概念和类别 知识节点以及知识节点之间的关联信息进行区别,类别的层次信息使用单 向箭头来表示,具体如下:

(1)概念和类别知识节点通过节点颜色来区分,概念知识节点的颜色为 蓝色,类别知识节点的颜色为橙色;

(2)知识节点关联信息通过节点连线颜色进行区分,概念与概念知识节 点之间连线的颜色为蓝色,概念与类别知识节点之间连线的颜色为红色;

(3)类别与类别之间的关系使用单向箭头表示,箭头颜色为橙色,箭头 方向由当前类别指向其子类。

实例:

下面以标题为“Green computing”的概念知识节点和标题为 “Category:Computers and the environment”的类别知识节点的构建过程和 使用为例对本发明的基本步骤作进一步的说明:

第一步,抽取知识文档:从维基百科的全文数据中解析所有知识文档, 标题为“Green computing”的概念知识文档对应的文档编号为189234,存 储到本地目录“D:\wikidocs\concepts”下,存储的文件名为189234,标题 为“Category:Computers and the environment”的类别知识文档对应的文档 编号为721259,存储到本地目录“D:\wikidocs\categories”下,存储的文件 名为721259;

第二步,获取知识信息:通过对知识文档进行分析,从概念知识文档 189234中获取“Green computing”的基本知识信息以及与“Green computing” 概念的关联概念知识信息,如“Desktop virtualization”“Data migration” “Energy Efficient Ethernet”“Power usage effectiveness”等,从类别知识文 档721259中获取类别“Category:Computers and the environment”的基本知 识信息,相关的类别知识信息“Category:Computer recycling”以及与类别 “Category:Computers and the environment”相关的概念知识信息,如“Green  computing”,“The Green Grid”,“PC power management”“IT energy  management”,“PowerTOP”等,然后将所有获取的知识信息存入数据库相 应的表中;

第三步,知识信息转化为知识节点:以知识节点格式描述库中的规范 为基础,将获取的知识信息按照统一的描述格式转化为知识节点,概念 “Green computing”转化后的概念知识节点如图5,将转化后的知识节点存 入目录“D:\wikidocs\konwledge”下,文件名为189234,类别 “Category:Computers and the environment”转化后的类别知识节点如图6, 将转化后的知识节点存入目录“D:\wikidocs\konwledge”下,文件名为 721259;

第四步,使用知识信息:对知识节点中的知识信息建立索引,通过关 键词“Green computing”可以查找到对应的概念知识节点,通过关键词 “Computers and the environment”可以找到对应的类别知识节点,找到相 应的知识节点后,然后将知识节点中的信息进行显示。

本发明不仅仅局限于上述具体实施方式,本领域一般技术人员根据本 发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡 是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落 入本发明保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号