基于结构向量空间和树路径模型的XML文档聚类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

XML(eXtensible Markup Language)是可扩展置标语言,在网络和其他领域的数据表示与交换方面显示出强大的数据表达能力。现在,越来越多的数据以XML文档进行存储,XML文档的数据挖掘技术在理论与实践方面成为研究的热点。由于XML文档具有复杂性、异构性、半结构化的特点,传统的面向关系型数据的挖掘技术无法直接应用,探索有效的XML数据挖掘技术成为数据挖掘领域的一项重要研究课题。目前,国内外XML文档数据挖掘技术主要分为文档内容挖掘和文档结构挖掘。XML内容挖掘本质上是对标记值的挖掘,可以对单个或群组XML文档进行挖掘。XML的元素标记和嵌套关系表示XML文档的结构,结构挖掘实际操作是将XML文档的结构看作一棵标记树,在此基础上对树的挖掘。本文主要研究XML文档结构的聚类技术。通过研究发现,传统相似度计算方法不能满足嵌套结构的语义要求,树路径模型的聚类算法存在忽略兄弟节点之间关系和未考虑路径权重以及路径匹配方法等问题。为解决上述问题,本文设计了一个新的XML文档聚类方法:XML文档两阶段聚类方法(TPCM：Two Phase Clustering Method of XML Documents),主要研究成果如下： 1、采用XSLT生成XML文档结构框架的简化树,改进XML文档结构向量定义和XML文档结构相似度计算公式,对XML文档集合进行第一阶段聚类。 2、针对树路径模型的相似度算法存在的问题,提出改进的XML文档树路径模型,改进了路径之间相似度计算,使XML文档结构相似度计算结果更合理。在第一阶段文档集聚类结果基础上,按重聚类标准再进行第二阶段聚类,得出最后聚类结果。 3、对于每个阶段,分别对处理方法和程序流程进行了详细说明,并编程实现,得出了部分测试结果和性能分析。最后实验结果显示,使用TPCM方法对XML文档集合进行聚类,较大地提高了聚类准确率,减少了时间开销。

著录项

作者
朱春磊;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机应用技术
授予学位硕士
导师姓名袁晓洁;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序设计、软件工程;
关键词
XML; 数据挖掘; 文档聚类; 文档结构; 结构向量空间; 树路径; 相似度;

相似文献

中文文献
外文文献
专利

1. 一种基于结构信息总结树的XML文档聚类方法 [J] . 梁作鹏 ,吴文明 ,董逸生 . 应用科学学报 . 2005,第001期
2. 基于跨语言广义向量空间模型的跨语言文档聚类方法 [J] . 唐国瑜 ,夏云庆 ,张民 . 中文信息学报 . 2012,第002期
3. 基于向量空间模型的文档聚类研究 [J] . 许伟佳 . 电脑知识与技术 . 2009,第025期
4. 基于向量空间模型的文档聚类研究 [J] . 许伟佳 . 电脑知识与技术：学术交流 . 2009,第009期
5. 一种基于向量空间模型的文档聚类算法研究 [J] . 原福永 ,杨治秋 ,王海霞 . 信号处理 . 2005,第0z1期
6. 基于跨语言广义向量空间模型的跨语言文档聚类方法 [C] . Tang Guoyu ,唐国瑜 ,Xia Yunqing . 第十一届全国计算语言学学术会议 . 2011
7. 基于语义标记树的XML文档聚类研究 [A] . 滕海明 . 2011

基于结构向量空间和树路径模型的XML文档聚类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅