声明
摘要
第1章 绪论
1.1 论文研究背景
1.2 论文选题来源
1.3 国内外研究现状
1.3.1 微博短文本研究现状
1.3.2 命名实体研究现状
1.3.3 实体链接研究现状
1.4 本文研究内容
1.4.1 本文主要工作
1.4.2 本文难点介绍
1.5 论文组织结构
第2章 相关基础理论知识
2.1 中文微博
2.1.1 中文微博的概念
2.1.2 中文微博的语言特点
2.2 网络百科
2.3 中文分词
2.3.1 中文分词的概念及工具
2.3.2 本文中文分词应用
2.4 网络爬虫
2.5 主题模式-狄利克雷分布
2.6 文本特征值表示
2.7 快速纽曼聚类算法
第3章 中文微博实体链接多策略方法
3.1 方法整体框架
3.2 基于主题模式的人名实体消歧算法
3.3 基于实体映射表的匹配消歧算法
3.3.1 规范化命名实体
3.3.2 映射表的建立
3.3.3 人名实体库和地名实体库的构建
3.4 基于实体义项标签的消歧算法
3.4.1 实体标签相似度说明
3.4.2 标签消歧算法的具体实现步骤
3.5 基于TF-IDF的实体义项特征消歧算法
3.5.1 构建待消歧实体百科文本词频统计库
3.5.2 TF-IDF模型计算词语权重
3.5.3 利用空间向量进行命名实体消歧
3.6 基于Fast-Newman聚类模型实体消歧算法
3.6.1 Fast-Newman模型中预处理
3.6.2 模型的主要流程
3.6.3 根据Jaccard相似度计算待测实体与义项相似性
第4章 实验数据分析
4.1 数据说明
4.2 评价标准
4.3 评测成绩说明
4.4 算法改进实验结果
4.4.1 数据成分分析
4.4.2 基于LDA的人名消歧算法实验分析
4.4.3 基于实体义项标签的消歧算法实验分析
4.4.4 组合算法实验分析
第5章 基于中文微博实体与百科条目的链接的系统实现
5.1 系统整体说明
5.2 百科条目知识库系统
5.2.1 网络百科资源梳理
5.2.2 系统构建步骤
5.2.3 知识库功能演示
5.3 中文微博实体识别系统
5.3.1 中文微博识别系统架构
5.3.2 识别系统功能演示
第6章 总结与展望
6.1 全文工作总结
6.2 未来工作展望
参考文献
致谢
硕士期间发表的论文和参与的课题