文摘
英文文摘
第一章 绪论
1.1 课题背景
1.2 研究现状
1.3 本文的研究内容
1.4 本文的组织结构
第二章 企业竞争情报主题和网络蜘蛛综述
2.1 企业竞争情报内涵
2.1.1 企业竞争情报的概念
2.1.2 企业竞争情报主要来源
2.1.3 企业竞争情报质量评价
2.2 搜索引擎技术简介
2.2.1 搜索引擎的基本原理
2.2.2 搜索引擎的分类
2.3 通用网络蜘蛛简述
2.3.1 通用网络蜘蛛工作原理
2.3.2 通用网络蜘蛛的缺点
2.4 主题网络蜘蛛简述
2.4.1 主题网络蜘蛛简介
2.4.2 主题网络蜘蛛设计目标
2.4.3 主题网络蜘蛛原理
2.5 本章小结
第三章 网页解析及文本处理
3.1 HTML文档解析
3.1.1 HTML文档的格式特点
3.1.2 HTML树形结构
3.1.3 HTML文档的解析
3.1.4 编码的处理
3.2 特征向量提取
3.2.1 中文分词技术
3.2.2 文本特征向量权重计算
3.2.3 改进的特征向量权重算法
3.2.4 FAT算法实验分析
3.3 超链接主题相关度算法(LTC算法)
3.3.1 主题网页在Web上的分布特征
3.3.2 主题相关度计算模型
3.3.3 LTC算法原理
3.3.4 LTC算法的实验分析
3.4 文本分类算法
3.4.1 Web文本分类概述
3.4.2 朴素贝叶斯分类算法
3.4.3 KNN算法
3.5 本章小结
第四章 主题网络蜘蛛搜索算法
4.1 基本搜索算法
4.1.1 广度优先搜索
4.1.2 深度优先搜索
4.2 基于内容评价的搜索算法
4.3 非贪婪遗传搜索算法(NGGS算法)
4.3.1 非贪婪选择策略
4.3.2 网络搜索遗传算法
4.3.3 非贪婪遗传搜索算法
4.3.4 实验结果比较
4.4 本章小结
第五章 主题网络蜘蛛的设计与实现
5.1 企业竞争情报系统
5.2 主题网络蜘蛛系统设计
5.2.1 BlueSpider系统设计原则
5.2.2 BlueSpider系统的总体架构
5.3 网页下载模块
5.4 网页解析模块
5.4.1 网页的结构修正
5.4.2 网页内容解析
5.5 主题相关度评价模块
5.6 超链接调度模块
5.6.1 URL的分类
5.6.2 URL的管理
5.6.3 类图的设计
5.7 数据存储模块
5.7.1 数据类型
5.7.2 数据存储设计
5.7.3 类图的设计
5.8 线程管理模块
5.8.1 线程工作流程
5.8.2 线程同步
5.8.3 多线程类图设计
5.9 检索模块
5.10 系统运行界面
5.11 本章小结
第六章 总结与展望
6.1 工作总结
6.2 进一步工作
致谢
参考文献