首页> 中文学位 >微博实体与百科条目链接的多策略研究
【6h】

微博实体与百科条目链接的多策略研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 论文研究背景

1.2 论文选题来源

1.3 国内外研究现状

1.3.1 微博短文本研究现状

1.3.2 命名实体研究现状

1.3.3 实体链接研究现状

1.4 本文研究内容

1.4.1 本文主要工作

1.4.2 本文难点介绍

1.5 论文组织结构

第2章 相关基础理论知识

2.1 中文微博

2.1.1 中文微博的概念

2.1.2 中文微博的语言特点

2.2 网络百科

2.3 中文分词

2.3.1 中文分词的概念及工具

2.3.2 本文中文分词应用

2.4 网络爬虫

2.5 主题模式-狄利克雷分布

2.6 文本特征值表示

2.7 快速纽曼聚类算法

第3章 中文微博实体链接多策略方法

3.1 方法整体框架

3.2 基于主题模式的人名实体消歧算法

3.3 基于实体映射表的匹配消歧算法

3.3.1 规范化命名实体

3.3.2 映射表的建立

3.3.3 人名实体库和地名实体库的构建

3.4 基于实体义项标签的消歧算法

3.4.1 实体标签相似度说明

3.4.2 标签消歧算法的具体实现步骤

3.5 基于TF-IDF的实体义项特征消歧算法

3.5.1 构建待消歧实体百科文本词频统计库

3.5.2 TF-IDF模型计算词语权重

3.5.3 利用空间向量进行命名实体消歧

3.6 基于Fast-Newman聚类模型实体消歧算法

3.6.1 Fast-Newman模型中预处理

3.6.2 模型的主要流程

3.6.3 根据Jaccard相似度计算待测实体与义项相似性

第4章 实验数据分析

4.1 数据说明

4.2 评价标准

4.3 评测成绩说明

4.4 算法改进实验结果

4.4.1 数据成分分析

4.4.2 基于LDA的人名消歧算法实验分析

4.4.3 基于实体义项标签的消歧算法实验分析

4.4.4 组合算法实验分析

第5章 基于中文微博实体与百科条目的链接的系统实现

5.1 系统整体说明

5.2 百科条目知识库系统

5.2.1 网络百科资源梳理

5.2.2 系统构建步骤

5.2.3 知识库功能演示

5.3 中文微博实体识别系统

5.3.1 中文微博识别系统架构

5.3.2 识别系统功能演示

第6章 总结与展望

6.1 全文工作总结

6.2 未来工作展望

参考文献

致谢

硕士期间发表的论文和参与的课题

展开▼

摘要

近年来,随着WEB2.0技术及互联网产业的兴起,社交网络空前发展,衍生出的一种新型社交网络平台,微博,其用户规模和产生的数据量急剧增长。另一方面,WEB2.0技术也带来了网络百科的迅速发展,如何利用社交媒体及网络内容进行知识库的构建与扩展成为当今研究热点。其中,待拓展实体条目的歧义问题成为该研究领域的重点难点,实体链接技术是解决该问题的重要方法。本文针对中文微博内容简短、语言随意不规范等特性,提出了中文微博实体链接消歧的多策略方法。
  中文微博实体与百科条目的链接,即对微博内容中出现的待测命名实体与百科知识库中的条目进行匹配,要求将微博中出现的实体与百科条目准确链接。中文微博实体与百科条目的链接研究从属于命名实体识别(Named Entity Recognition,NER)下命名实体消歧(NED,Named Entity Disambiguation)研究课题,是自然语言处理(NLP,Natural Language Processing)研究领域中的一项热点研究,在自然语言处理的研究领域中起重要作用,是不可缺少的研究基础。提升中文微博实体链接消歧的准确性,可以更好地构建与扩展网络百科知识库,体现自然语言处理系统的通用性高与性能好的特点。
  本文以参加的中国计算机学会(CCF, China Computer Federation)主办的自然语言处理与中文计算会议(NLP&CC,CCF Conference on Natural Language Processing&Chinese Computing)的评测任务为主要研究内容。编写网页爬虫程序,获取微博内容及网络百科页面信息,构建百科实体映射表及梳理百科条目知识库。使用LDA模型,基于主题模型的消歧算法对人名实体进行消歧。集合基于实体映射表的匹配消歧算法、基于TF-IDF的实体义项特征消歧算法、基于实体义项标签的消歧算法和基于Fast-Newman聚类模型实体消歧算法对中文微博实体进行消歧,本文主要贡献包括:
  (1)构建和梳理百科条目知识库及实体映射表。
  (2)提出基于主题模型的人名消歧算法。
  (3)提出多层级、多策略的实体消歧算法。
  (4)编写中文微博实体识别系统和百科知识库程序,并申请软件著作权。
  本文数据来源于第二届和第三届自然语言处理与中文计算会议(NLP&CC2013、2014)中的中文微博实体链接任务,其中在2013年评测中,知识库实体数为44492个,待测实体数为1274个。在2014年评测中,知识库实体数为378207个,待测实体数为607个。评测成绩2013年准确率为84.99%,在全国提交的18组结果中排名第6和第7,队伍成绩排名第3。2014年准确率为84.02%,队伍排名第3。经过后续总结改进,采用本文的模型和算法,准确率达91.40%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号