基于主题的文本数据采集系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，竞争情报分析系统得到了飞速的发展。对于一个企业来说只有建立独立的竞争情报分析系统，才能增强自身的竞争能力。能否快速准确地采集用户需要的数据信息已经成为该系统必须解决的首要问题。于是基于主题的数据采集成为研究的热点。本文以基于主题的文本数据采集系统的设计和实现为研究课题，重点研究了基于同一主题的多文档关键词抽取技术和文档的相似度计算方法。
　　在基于主题的文本数据采集系统中，首先由用户提供反映某一主题的相关文档集合，系统从中抽取出能代表主题的关键词，并将主题关键词送入网络爬虫中，利用这些关键词对网页上的链接进行初步过滤。然后从过滤后的网页上抽取的正文文本，系统通过计算文档相似度的方法，过滤掉与主题无关的文档。系统最终将得到大量与主题相关的结构化文档。
　　在基于同一主题的多文档关键词抽取中，本文用四种方法实现了基于统计的关键词抽取。在实验中发现抽取的关键词的正确率并不是很高。经过对结果的分析，发现抽取的关键词中出现了很多高频词。为此，本文在国家863分类评测语料上统计了关键词的文档频数。当关键词文档频数大于一定的阈值时，将其直接过滤掉;否则，利用统计值对获得的关键词的权重进行修正。实验证明，这种改进取得了很好的效果。
　　文档相似度计算中，最常用的文本表示方法是基于TF-IDF权重的向量空间模型。在文本表示中，主题关键词应该被赋予更高的权重。本文提出将文档映射到由主题关键词组成的主题向量空间中，然后计算文本相似度。通过实验发现系统的性能有所下降。性能下降的主要原因是主题关键词抽取的正确率和召回率太低。基于以上分析，本文又提出了利用主题关键词抽取过程中的权重乘以其在文档向量中的权重，对文本向量进行修改，然后进行相似度计算。实验表明系统的性能有明显提高。前三种计算方法都是基于文档特征词之间的绝对匹配，但是很多词语之间存在同义匹配或近义匹配等关系，这些关系对于文档相似度计算有很重要的作用。为此，本文提出了一种基于知网词语语义相似度的文本相似度计算方法。实验表明系统性能有了明显的提高。

著录项

作者
张大虎;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名胡明涵;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类情报资料的分析和研究;信息处理（信息加工）;
关键词
情报分析; 数据采集; 关键词抽取; 相似度计算; 网络爬虫;

相似文献

中文文献
外文文献
专利

1. 多主题文本摘要抽取的研究与实现 [J] . 廖涛 ,刘宗田 ,王利 . 计算机工程 . 2011,第006期
2. 文本主题的自动提取方法研究与实现 [J] . 张其文 ,李明 . 计算机工程与设计 . 2006,第015期
3. 基于蓝牙的环境数据采集系统研究与实现 [J] . 李佳 ,周峰 . 江苏科技信息 . 2020,第004期
4. 基于Flume和HDFS的大数据采集系统的研究与实现 [J] . 方中纯 ,赵江鹏 . 内蒙古科技大学学报 . 2018,第003期
5. 基于IEEE1588的机载网络化数据采集系统研究与实现 [J] . 孙科 . 中国科技信息 . 2017,第003期
6. 基于百度百科与文本分类的网络文本语义主题抽取方法 [C] . Chen Yewang ,陈叶旺 ,Chen Chaoyang . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于主题模型的短文本分类方法研究与实现 [A] . 汪涵潇 . 2020

基于主题的文本数据采集系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅