文摘
英文文摘
声明
第1章绪论
1.1选题背景
1.2研究意义
1.3国内外研究现状
1.3.1国外研究现状
1.3.2国内研究现状
1.4论文主要工作
1.5论文的组织结构
第2章大规模类别体系和网页分类的相关技术概述
2.1大规模类别体系概述
2.2网页分类技术
2.2.1获取文档数据集
2.2.2建立文本表示模型
2.2.3特征选择
2.2.4文本分类方法
2.2.5性能评估模型
2.3层次分类
2.4本章小结
第3章基于大规模类别体系的网络爬虫技术研究
3.1问题描述
3.2网络爬虫技术概述
3.2.1主题爬虫概述
3.2.2主题爬虫爬行目标
3.2.3主题爬虫工作原理
3.3基于类别分布的采集策略
3.3.1分类目录网站的逻辑结构
3.3.2目标链接提取框架
3.3.3淘宝网商品主题爬虫
3.3.4实验及分析
3.4本章小结
第4章基于跨文档关系的网页层次分类研究
4.1问题描述
4.2相关研究工作
4.2.1跨文档关系研究
4.2.2层次分类器研究
4.3理论分析
4.4实验分析
4.4.1层次策略实验
4.4.2实验结论
4.5本章小结
第5章基于层次类别的商品分类应用研究
5.1问题描述
5.2商品主题词研究
5.2.1主题词特征提取
5.2.2重要性排序
5.2.3主题词提取
5.3应用方案
5.3.1商品数据中的层次类别表示
5.3.2 “区分式”的商品分类研究
5.4应用分析
5.4.1数据集处理
5.4.2评价标准
5.4.3实验结果
5.5本章小结
第6章总结与展望
6.1本文工作总结
6.2未来工作展望
参考文献
致谢
攻读硕士学位期间发表的学术论文目录