首页> 中文学位 >基于主题的文本数据采集系统的研究与实现
【6h】

基于主题的文本数据采集系统的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 相关技术

1.2.1 多文档的关键词抽取

1.2.2 文档相似度计算

1.3 本文工作和论文结构

第2章 系统功能和总体设计

2.1 主题的表示

2.2 系统功能介绍

2.3 总体设计

2.3.1 关键词抽取模块

2.3.2 网络爬虫模块

2.3.3 主题相关文档过滤模块

2.4 本章小结

第3章 网页采集

3.1 网络爬虫定义

3.2 网络爬虫的原理

3.2.1 工作流程

3.2.2 网页搜索策略

3.2.3 网页分析算法

3.3 主题爬虫

3.4 网页采集模块的设计

3.4.1 网页采集模块总体设计

3.4.2 网页正文提取

3.4.3 URL提取与过滤

3.5 本章小结

第4章 主题关键词抽取

4.1 关键词定义

4.2 关键词抽取的应用

4.3 关键词抽取的分类

4.3.1 关键词抽取

4.3.2 关键词串的抽取

4.4 关键词抽取方法

4.5 关键词的特征

4.6 多文档关键词的抽取

4.6.1 任务描述

4.6.2 相关的预处理

4.6.3 常用的关键词抽取方法

4.6.4 改进的关键词抽取方法

4.7 实验

4.7.1 实验语料与资源

4.7.2 评价方法

4.7.3 实验结果

4.7.4 实验结果分析

4.8 本章小结

第5章 主题文档过滤

5.1 文本相似度定义

5.2 文本表示

5.2.1 文本表示模型

5.2.2 中文文本特征的分类

5.2.3 特征降维

5.2.4 特征权重计算

5.3 基于向量空间模型的文本相似度计算方法

5.4 文档相似度计算

5.4.1 基于向量空间TF-IDF方法

5.4.2 基于主题向量空间的相似度计算方法

5.4.3 改进的基于向量空间TF-IDF方法

5.4.4 基于HowNet词义相似度的文档相似度计算方法

5.5 实验

5.5.1 实验语料及资源

5.5.2 评价方法

5.5.3 实验结果

5.5.4 实验结果分析

5.6 本章小结

第6章 总结与展望

6.1 本文总结

6.1.1 多文档关键词抽取技术

6.1.2 文档相似度计算

6.2 未来工作

参考文献

致谢

攻读硕士学位期间参加的科研项目

展开▼

摘要

近年来,竞争情报分析系统得到了飞速的发展。对于一个企业来说只有建立独立的竞争情报分析系统,才能增强自身的竞争能力。能否快速准确地采集用户需要的数据信息已经成为该系统必须解决的首要问题。于是基于主题的数据采集成为研究的热点。本文以基于主题的文本数据采集系统的设计和实现为研究课题,重点研究了基于同一主题的多文档关键词抽取技术和文档的相似度计算方法。
  在基于主题的文本数据采集系统中,首先由用户提供反映某一主题的相关文档集合,系统从中抽取出能代表主题的关键词,并将主题关键词送入网络爬虫中,利用这些关键词对网页上的链接进行初步过滤。然后从过滤后的网页上抽取的正文文本,系统通过计算文档相似度的方法,过滤掉与主题无关的文档。系统最终将得到大量与主题相关的结构化文档。
  在基于同一主题的多文档关键词抽取中,本文用四种方法实现了基于统计的关键词抽取。在实验中发现抽取的关键词的正确率并不是很高。经过对结果的分析,发现抽取的关键词中出现了很多高频词。为此,本文在国家863分类评测语料上统计了关键词的文档频数。当关键词文档频数大于一定的阈值时,将其直接过滤掉;否则,利用统计值对获得的关键词的权重进行修正。实验证明,这种改进取得了很好的效果。
  文档相似度计算中,最常用的文本表示方法是基于TF-IDF权重的向量空间模型。在文本表示中,主题关键词应该被赋予更高的权重。本文提出将文档映射到由主题关键词组成的主题向量空间中,然后计算文本相似度。通过实验发现系统的性能有所下降。性能下降的主要原因是主题关键词抽取的正确率和召回率太低。基于以上分析,本文又提出了利用主题关键词抽取过程中的权重乘以其在文档向量中的权重,对文本向量进行修改,然后进行相似度计算。实验表明系统的性能有明显提高。前三种计算方法都是基于文档特征词之间的绝对匹配,但是很多词语之间存在同义匹配或近义匹配等关系,这些关系对于文档相似度计算有很重要的作用。为此,本文提出了一种基于知网词语语义相似度的文本相似度计算方法。实验表明系统性能有了明显的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号