中文维基百科的结构化信息抽取及词语相关度计算

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了提高计算机的智能化程度，在自然语言处理的过程中，加入语义知识的理解是非常必要的。随着日益增长的信息处理需求，如何从海量的语料资源中自动地获取丰富的语义知识，以及如何有效地利用这些语义知识来实现对文本语义的理解，已成为一个重要的研究课题。
　　维基百科作为一个以开放和用户协作编辑为特点的Web2.0知识系统，具有知识面覆盖度广，结构化程度高，信息更新速度快等优点，其中蕴涵有丰富的语义知识，是目前众多学者进行语义知识抽取所青睐的语料数据资源。然而，维基百科的官方仅提供一些半结构化的基本数据文件的备份，很多有用的结构化信息和数据，并不能直接地获取和使用。
　　为此，本文首先从这些半结构化的基本数据中抽取整理出多种结构化信息;接着，对维基百科的知识组织形式进行了抽象架构，实现了一套开放的API接口，减轻了用户从中获取结构化信息的难度;最后，利用这些信息数据，本文提出了一种新的计算词语间语义相关度的算法。因此，本文的主要工作包含以下几个方面:
　　第一，结构化信息的抽取。首先从维基百科官方网站下载了所需的备份数据资源;接着，先把备份数据文本中的繁体字全部转换为简体，再从中抽取整理出条目间内链接信息，分类系统，锚文本数据等多种结构化信息;然后，把这些信息全部存储到数据库中，并对重要的字段建立了索引。
　　第二，对维基百科知识组织形式的抽象架构。首先分析了维基百科中条目的不同作用，进而把所有的条目分为六种类型;然后，针对每种类型的条目，总结并实现了获取其相应的结构化信息的方法;最终，实现了一套开放的API接口，方便了用户更直观地了解和使用这些结构化信息。
　　第三，提出了一种新的计算词语间语义相关度的算法。在对比总结人工语义知识库与维基百科异同点的基础上，借鉴传统算法的优点，结合中文维基百科数据的自身特点，提出了一种新的计算词语间语义相关度的算法，该算法综合利用条目间内链接，锚文本和分类系统三种结构化信息，并通过核函数的思想，融合了分类间的语义知识。在实验部分，本文在不同的数据集上对比了本文算法与其他经典算法的计算结果，最终证明了本文算法的有效性。

著录项

作者
张红春;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名何婷婷;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
语料数据资源; 信息处理; 结构化程度; 词语相关度; 计算机智能化; 中文维基百科;

相似文献

中文文献
外文文献
专利

1. 中文维基百科的结构化信息抽取及词语相关度计算方法 [J] . 涂新辉 ,张红春 ,周琨峰 . 中文信息学报 . 2012,第003期
2. 基于中文维基百科的词语语义相关度计算 [J] . 万富强 ,吴云芳 . 中文信息学报 . 2013,第006期
3. 基于中文维基百科的词语相关度计算 [J] . 谌志群 ,高飞 ,曾智军 . 情报学报 . 2012,第012期
4. 一种基于维基百科的中文词语相关度学习算法 [J] . 黄岚 ,杜友福 . 中文信息学报 . 2016,第003期
5. 维基百科的中文语义相关词获取及相关度分析计算 [J] . 李赟 ,黄开妍 ,任福继 . 北京邮电大学学报 . 2009,第3期
6. 中文维基百科的结构化信息抽取及词语相关度计算 [C] . Zhang Hong-chun ,张红春 ,He Ting-ting . 第十一届全国计算语言学学术会议 . 2011
7. 基于维基百科的汉语词语及短文本相关度计算方法研究 [A] . 高飞 . 2012

中文维基百科的结构化信息抽取及词语相关度计算

摘要

著录项

相似文献

相关主题

期刊订阅