声明
摘要
第1章 绪论
1.1 课题背景及研究意义
1.2 国内外研究现状
1.2.1 传统网页分类方法
1.2.2 传统网页去噪技术
1.3 论文的提出
1.4 课题研究内容以及组织结构
1.4.1 研究内容
1.4.2 组织结构
1.5 本章小结
第2章 基于多特征的网页分类
2.1 WEB网页的结构和处理方法
2.1.1 WEB网页的结构特点
2.1.2 DOM树
2.2 WEB网页分类和特点分析
2.2.1 目录型网页
2.2.2 主题型网页
2.2.3 图片型网页
2.3 基于多特征的网页分类
2.3.1 主题特征的发现
2.3.2 主题特征的量化
2.3.3 网页分类算法的设计
2.4 基于多特征的网页分类的实现
2.4.1 实验环境
2.4.2 开源类库的使用
2.4.3 基于多特征网页分类算法中函数方法设计
2.5 实验结果及分析
2.6 本章小结
第3章 基于分块的网页净化
3.1 网页净化综述
3.2 网页分块的构建
3.3 基于分块的网页净化算法的设计
3.4 基于分块的网页净化算法的实现
3.5 实验结果及分析
3.6 本章小结
第4章 基于文本相似性比较的网页净化
4.1 文本相似度比较方法的选取
4.1.1 向量空间模型
4.1.2 字符串相似度
4.1.3 向量空间模型的选取
4.2 关键词权值的选取
4.3 基于文本间相似度的网页净化算法的设计
4.4 基于文本间相似度的网页净化算法的实现
4.5 实验结果与分析
4.6 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献