首页> 中文学位 >基于结构向量空间和树路径模型的XML文档聚类技术研究
【6h】

基于结构向量空间和树路径模型的XML文档聚类技术研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

第一节研究背景及意义

第二节本文主要研究工作

第三节论文的内容组织

第二章XML文档挖掘的相关研究

第一节XML文档相关技术

2.1.1XML概述

2.1.2XML特点

2.1.3XML文档的结构

2.1.4XML DTD和XML Schema

2.1.5 DoM和SAx

2.1.6 XSL

2.1.7 XPath

第二节XML文档挖掘技术

2.2.1数据挖掘综述

2.2.2XML文档挖掘分类

第三节XML文档聚类技术研究

第三章基于结构向量空间模型的第一阶段聚类

第一节向量空间模型

3.1.1基本概念

3.1.2向量空间模型

第二节结构向量空间模型

3.2.1 XML文档结构向量空间模型

3.2.2改进的结构向量空间模型

3.2.3第一阶段聚类中结构向量的实现

第三节第一阶段聚类算法

3.3.1结构向量的相似度计算

3.3.2 K-means算法

3.3.3第一阶段聚类中K-neans算法实现

第四章基于树路径模型的第二阶段聚类

第一节树路径模型

4.1.1树路径模型描述

4.1.2XML文档预处理

4.1.3文档结构相似度计算

第二节树路径模型改进

4.2.1路径选择和权重

4.2.2改进路径相似度计算

4.2.3文档结构相似度计算

第三节第二阶段聚类算法

第五章实验结果与分析

第一节实验模块设计

5.1.1开发环境

5.1.2总体设计

5.1.3关键问题处理

第二节实验程序实现

5.2.1实验步骤

5.2.2两阶段聚类程序流程

5.2.3实验程序界面和代码

第三节实验结果分析

5.3.1测试结果衡量指标

5.3.2聚类准确性测试

5.3.3时间开销测试

第六章总结与展望

第一节总结

第二节展望

参考文献

致谢

附录

个人简历

展开▼

摘要

XML(eXtensible Markup Language)是可扩展置标语言,在网络和其他领域的数据表示与交换方面显示出强大的数据表达能力。现在,越来越多的数据以XML文档进行存储,XML文档的数据挖掘技术在理论与实践方面成为研究的热点。由于XML文档具有复杂性、异构性、半结构化的特点,传统的面向关系型数据的挖掘技术无法直接应用,探索有效的XML数据挖掘技术成为数据挖掘领域的一项重要研究课题。 目前,国内外XML文档数据挖掘技术主要分为文档内容挖掘和文档结构挖掘。XML内容挖掘本质上是对标记值的挖掘,可以对单个或群组XML文档进行挖掘。XML的元素标记和嵌套关系表示XML文档的结构,结构挖掘实际操作是将XML文档的结构看作一棵标记树,在此基础上对树的挖掘。 本文主要研究XML文档结构的聚类技术。通过研究发现,传统相似度计算方法不能满足嵌套结构的语义要求,树路径模型的聚类算法存在忽略兄弟节点之间关系和未考虑路径权重以及路径匹配方法等问题。为解决上述问题,本文设计了一个新的XML文档聚类方法:XML文档两阶段聚类方法(TPCM:Two Phase Clustering Method of XML Documents),主要研究成果如下: 1、采用XSLT生成XML文档结构框架的简化树,改进XML文档结构向量定义和XML文档结构相似度计算公式,对XML文档集合进行第一阶段聚类。 2、针对树路径模型的相似度算法存在的问题,提出改进的XML文档树路径模型,改进了路径之间相似度计算,使XML文档结构相似度计算结果更合理。在第一阶段文档集聚类结果基础上,按重聚类标准再进行第二阶段聚类,得出最后聚类结果。 3、对于每个阶段,分别对处理方法和程序流程进行了详细说明,并编程实现,得出了部分测试结果和性能分析。最后实验结果显示,使用TPCM方法对XML文档集合进行聚类,较大地提高了聚类准确率,减少了时间开销。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号