首页> 中文学位 >web舆情信息自动化采集系统的设计与实现
【6h】

web舆情信息自动化采集系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究的背景及意义

1.2 国内外研究现状

1.3 本课题主要的研究内容

1.4 论文组织

第二章 web舆情信息自动化采集技术总结

2.1 web标准概述

2.2 舆情相关概述

2.3 互联网舆情信息采集技术

2.4 web舆情信息自动化采集模型

2.5 web舆情信息自动化采集算法

2.6 本章小结

第三章 自动化舆情采集系统需求分析

3.1 需求描述

3.2 功能性需求分析

3.3 非功能性需求分析

3.4系统开发环境

3.5 本章小结

第四章 web舆情采集系统总体设计

4.1 系统处理流程

4.2系统总体架构

4.3 系统部署

4.4 系统模块设计

4.5 本章小结

第五章 web舆情采集系统详细设计与实现

5.1 web舆情信息采集模板详细设计

5.2 可视化的模版生成器

5.3 网页下载模块

5.4 内容提取

5.5 内容分析

5.6 舆情查看

5.7本章小结

第六章 测试分析

6.1 测试与分析

6.2 本章小结

第七章 总结与展望

7.1 小结

7.2 不足与展望

致谢

参考文献

展开▼

摘要

舆情作为群众对于社会中存在的某些事件的观点和态度的集合,对政府维护社会的稳定、了解社会存在的问题,提高政府公信力有积极的作用。同时,舆情对公司准确及时掌握客户对公司产品和服务的看法和建议,提升产品和服务的质量,增强公司的综合竞争力有深远的战略意义。Web2.0的兴起,为Web舆情信息的自动化采集带来了重大发展机遇,同时也对采集技术提出了新的挑战。Web信息作为舆情信息的主要载体,因此,解决该类信息的采集问题,显得更加迫切。从现有的研究成果来看,Web舆情采集需要解决海量数据挖掘,数据实时分析以及数据分析的准确性等问题。
  本文首先对现有的Web信息抽取技术的国内外研究现状做了概要的总结,然后对目前已有的研究成果进行了详细的分析。结合实际项目的需要,提出了自己的web舆情信息采集方法。主要研究内容如下:
  1.研究已有的信息采集模型和采集算法,并对它们的功能和优缺点进行了对比和分析。采集模型主要包括理解模型、对象模型和视觉模型,采集算法包括本体论算法、马尔可夫算法等,总结比较全面。
  2.研究并提出了可视化信息采集模板生成技术,将用户操作行为(包括点击下一页超链接或者按钮、点击网页某个元素、下拉列表等)转化为采集模板,降低了模板的制作难度,并提高了模板的制作效率。
  3.实现了基于DOM树和行块分布函数的网页正文提取子系统,应用了xpath和正则表达式等相关技术,系统综合采用了统计与规则相结合的方法来解决系统的通用性问题。
  4.实现了对采集到的web信息进行聚类分析等数据处理过程,最终为用户提供了舆情浏览、热点话题发现等综合舆情服务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号