文摘
英文文摘
声明
第一章引言
第一节研究背景及意义
第二节本文主要研究工作
第三节论文的内容组织
第二章XML文档挖掘的相关研究
第一节XML文档相关技术
2.1.1XML概述
2.1.2XML特点
2.1.3XML文档的结构
2.1.4XML DTD和XML Schema
2.1.5 DoM和SAx
2.1.6 XSL
2.1.7 XPath
第二节XML文档挖掘技术
2.2.1数据挖掘综述
2.2.2XML文档挖掘分类
第三节XML文档聚类技术研究
第三章基于结构向量空间模型的第一阶段聚类
第一节向量空间模型
3.1.1基本概念
3.1.2向量空间模型
第二节结构向量空间模型
3.2.1 XML文档结构向量空间模型
3.2.2改进的结构向量空间模型
3.2.3第一阶段聚类中结构向量的实现
第三节第一阶段聚类算法
3.3.1结构向量的相似度计算
3.3.2 K-means算法
3.3.3第一阶段聚类中K-neans算法实现
第四章基于树路径模型的第二阶段聚类
第一节树路径模型
4.1.1树路径模型描述
4.1.2XML文档预处理
4.1.3文档结构相似度计算
第二节树路径模型改进
4.2.1路径选择和权重
4.2.2改进路径相似度计算
4.2.3文档结构相似度计算
第三节第二阶段聚类算法
第五章实验结果与分析
第一节实验模块设计
5.1.1开发环境
5.1.2总体设计
5.1.3关键问题处理
第二节实验程序实现
5.2.1实验步骤
5.2.2两阶段聚类程序流程
5.2.3实验程序界面和代码
第三节实验结果分析
5.3.1测试结果衡量指标
5.3.2聚类准确性测试
5.3.3时间开销测试
第六章总结与展望
第一节总结
第二节展望
参考文献
致谢
附录
个人简历