微博实体与百科条目链接的多策略研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着WEB2.0技术及互联网产业的兴起，社交网络空前发展，衍生出的一种新型社交网络平台，微博，其用户规模和产生的数据量急剧增长。另一方面，WEB2.0技术也带来了网络百科的迅速发展，如何利用社交媒体及网络内容进行知识库的构建与扩展成为当今研究热点。其中，待拓展实体条目的歧义问题成为该研究领域的重点难点，实体链接技术是解决该问题的重要方法。本文针对中文微博内容简短、语言随意不规范等特性，提出了中文微博实体链接消歧的多策略方法。
　　中文微博实体与百科条目的链接，即对微博内容中出现的待测命名实体与百科知识库中的条目进行匹配，要求将微博中出现的实体与百科条目准确链接。中文微博实体与百科条目的链接研究从属于命名实体识别(Named Entity Recognition，NER)下命名实体消歧(NED，Named Entity Disambiguation)研究课题，是自然语言处理(NLP，Natural Language Processing)研究领域中的一项热点研究，在自然语言处理的研究领域中起重要作用，是不可缺少的研究基础。提升中文微博实体链接消歧的准确性，可以更好地构建与扩展网络百科知识库，体现自然语言处理系统的通用性高与性能好的特点。
　　本文以参加的中国计算机学会(CCF, China Computer Federation)主办的自然语言处理与中文计算会议(NLP&CC，CCF Conference on Natural Language Processing&Chinese Computing)的评测任务为主要研究内容。编写网页爬虫程序，获取微博内容及网络百科页面信息，构建百科实体映射表及梳理百科条目知识库。使用LDA模型，基于主题模型的消歧算法对人名实体进行消歧。集合基于实体映射表的匹配消歧算法、基于TF-IDF的实体义项特征消歧算法、基于实体义项标签的消歧算法和基于Fast-Newman聚类模型实体消歧算法对中文微博实体进行消歧，本文主要贡献包括:
　　(1)构建和梳理百科条目知识库及实体映射表。
　　(2)提出基于主题模型的人名消歧算法。
　　(3)提出多层级、多策略的实体消歧算法。
　　(4)编写中文微博实体识别系统和百科知识库程序，并申请软件著作权。
　　本文数据来源于第二届和第三届自然语言处理与中文计算会议(NLP&CC2013、2014)中的中文微博实体链接任务，其中在2013年评测中，知识库实体数为44492个，待测实体数为1274个。在2014年评测中，知识库实体数为378207个，待测实体数为607个。评测成绩2013年准确率为84.99％，在全国提交的18组结果中排名第6和第7，队伍成绩排名第3。2014年准确率为84.02％，队伍排名第3。经过后续总结改进，采用本文的模型和算法，准确率达91.40％。

著录项

作者
郭云龙;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机应用技术
授予学位硕士
导师姓名李莉;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
中文微博; 实体链接; 消歧算法; 多策略方法;

相似文献

中文文献
外文文献
专利

1. 多策略中文微博实体词消歧及实体链接 [J] . 向宇 ,郭云龙 ,徐潇 . 计算机应用与软件 . 2016,第008期
2. 多策略候选集构建与实体链接 [J] . 杨紫怡 ,盛晨 ,孔芳 . 计算机工程与科学 . 2018,第012期
3. 中文微博实体链接研究 [J] . 朱敏 ,贾真 ,左玲 . 北京大学学报：自然科学版 . 2014,第1期
4. 基于词向量的中文微博实体链接方法 [J] . 毛二松 ,王波 ,唐永旺 . 计算机应用与软件 . 2017,第004期
5. 一种基于用户兴趣的微博实体链接方法 [J] . 宋俊 ,李禹恒 ,黄宇 . 计算机应用研究 . 2016,第007期
6. 从百科全书的条目性质来看年鉴的条目性质 [C] . 许之标 . 中国地方志学会年鉴工作专业委员会第二届学术研讨会 . 2012
7. 基于维基百科的实体链接方法的研究与实现 [A] . 张佐亮 . 2018

微博实体与百科条目链接的多策略研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅