声明
摘要
第1章 绪论
1.1 研究背景
1.2 相关技术
1.2.1 多文档的关键词抽取
1.2.2 文档相似度计算
1.3 本文工作和论文结构
第2章 系统功能和总体设计
2.1 主题的表示
2.2 系统功能介绍
2.3 总体设计
2.3.1 关键词抽取模块
2.3.2 网络爬虫模块
2.3.3 主题相关文档过滤模块
2.4 本章小结
第3章 网页采集
3.1 网络爬虫定义
3.2 网络爬虫的原理
3.2.1 工作流程
3.2.2 网页搜索策略
3.2.3 网页分析算法
3.3 主题爬虫
3.4 网页采集模块的设计
3.4.1 网页采集模块总体设计
3.4.2 网页正文提取
3.4.3 URL提取与过滤
3.5 本章小结
第4章 主题关键词抽取
4.1 关键词定义
4.2 关键词抽取的应用
4.3 关键词抽取的分类
4.3.1 关键词抽取
4.3.2 关键词串的抽取
4.4 关键词抽取方法
4.5 关键词的特征
4.6 多文档关键词的抽取
4.6.1 任务描述
4.6.2 相关的预处理
4.6.3 常用的关键词抽取方法
4.6.4 改进的关键词抽取方法
4.7 实验
4.7.1 实验语料与资源
4.7.2 评价方法
4.7.3 实验结果
4.7.4 实验结果分析
4.8 本章小结
第5章 主题文档过滤
5.1 文本相似度定义
5.2 文本表示
5.2.1 文本表示模型
5.2.2 中文文本特征的分类
5.2.3 特征降维
5.2.4 特征权重计算
5.3 基于向量空间模型的文本相似度计算方法
5.4 文档相似度计算
5.4.1 基于向量空间TF-IDF方法
5.4.2 基于主题向量空间的相似度计算方法
5.4.3 改进的基于向量空间TF-IDF方法
5.4.4 基于HowNet词义相似度的文档相似度计算方法
5.5 实验
5.5.1 实验语料及资源
5.5.2 评价方法
5.5.3 实验结果
5.5.4 实验结果分析
5.6 本章小结
第6章 总结与展望
6.1 本文总结
6.1.1 多文档关键词抽取技术
6.1.2 文档相似度计算
6.2 未来工作
参考文献
致谢
攻读硕士学位期间参加的科研项目
东北大学;