首页> 中文学位 >面向企业竞争情报的主题网络蜘蛛的研究与实现
【6h】

面向企业竞争情报的主题网络蜘蛛的研究与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题背景

1.2 研究现状

1.3 本文的研究内容

1.4 本文的组织结构

第二章 企业竞争情报主题和网络蜘蛛综述

2.1 企业竞争情报内涵

2.1.1 企业竞争情报的概念

2.1.2 企业竞争情报主要来源

2.1.3 企业竞争情报质量评价

2.2 搜索引擎技术简介

2.2.1 搜索引擎的基本原理

2.2.2 搜索引擎的分类

2.3 通用网络蜘蛛简述

2.3.1 通用网络蜘蛛工作原理

2.3.2 通用网络蜘蛛的缺点

2.4 主题网络蜘蛛简述

2.4.1 主题网络蜘蛛简介

2.4.2 主题网络蜘蛛设计目标

2.4.3 主题网络蜘蛛原理

2.5 本章小结

第三章 网页解析及文本处理

3.1 HTML文档解析

3.1.1 HTML文档的格式特点

3.1.2 HTML树形结构

3.1.3 HTML文档的解析

3.1.4 编码的处理

3.2 特征向量提取

3.2.1 中文分词技术

3.2.2 文本特征向量权重计算

3.2.3 改进的特征向量权重算法

3.2.4 FAT算法实验分析

3.3 超链接主题相关度算法(LTC算法)

3.3.1 主题网页在Web上的分布特征

3.3.2 主题相关度计算模型

3.3.3 LTC算法原理

3.3.4 LTC算法的实验分析

3.4 文本分类算法

3.4.1 Web文本分类概述

3.4.2 朴素贝叶斯分类算法

3.4.3 KNN算法

3.5 本章小结

第四章 主题网络蜘蛛搜索算法

4.1 基本搜索算法

4.1.1 广度优先搜索

4.1.2 深度优先搜索

4.2 基于内容评价的搜索算法

4.3 非贪婪遗传搜索算法(NGGS算法)

4.3.1 非贪婪选择策略

4.3.2 网络搜索遗传算法

4.3.3 非贪婪遗传搜索算法

4.3.4 实验结果比较

4.4 本章小结

第五章 主题网络蜘蛛的设计与实现

5.1 企业竞争情报系统

5.2 主题网络蜘蛛系统设计

5.2.1 BlueSpider系统设计原则

5.2.2 BlueSpider系统的总体架构

5.3 网页下载模块

5.4 网页解析模块

5.4.1 网页的结构修正

5.4.2 网页内容解析

5.5 主题相关度评价模块

5.6 超链接调度模块

5.6.1 URL的分类

5.6.2 URL的管理

5.6.3 类图的设计

5.7 数据存储模块

5.7.1 数据类型

5.7.2 数据存储设计

5.7.3 类图的设计

5.8 线程管理模块

5.8.1 线程工作流程

5.8.2 线程同步

5.8.3 多线程类图设计

5.9 检索模块

5.10 系统运行界面

5.11 本章小结

第六章 总结与展望

6.1 工作总结

6.2 进一步工作

致谢

参考文献

展开▼

摘要

企业竞争情报系统日益成为现代企业必不可少的工具,Internet成了企业获取情报信息的重要途径,但是Web信息分散地遍布于世界的每个角落,如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成信息搜集领域一个新的问题。近年来,面向主题的网络蜘蛛应运而生,已经成为解决主题搜索的重要工具。
  本文在对国内外主题网络蜘蛛关键技术研究的基础上,在网页解析、文本特征向量提取、主题相关度计算和网络搜索算法方面做了相关工作。本文将网页解析为对应的文档树,并通过遍历树的方式获取网页文本和超链接。获取文本后对文本进行中文分词,根据Web文档的特点,改进了特征词权重的计算方法TF-IDF算法,提出了一种基于词频和标签的特征权重计算算法(FIAT算法)。在文本特征向量的基础上,结合锚文本以及所超链接所处的网页环境,提出了一种链接主题相关度计算算法(LTC算法),保证了主题网络蜘蛛更多地下载与主题相关的页面。在网络搜索算法方面,引入非贪婪选择策略和遗传搜索策略,提出了一种非贪婪遗传搜索算法小GGS算法),扩大了搜索空间,避免了搜索的局部最优问题。
  在以上研究内容的基础上,设计实现了一个主题网络蜘蛛系统(BlueSpider系统),通过大量的图片、设计类图、流程图及表格深入地描述了BlueSpider系统的设计实现细节。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号