首页> 中文学位 >基于语义标记树的XML文档聚类研究
【6h】

基于语义标记树的XML文档聚类研究

代理获取

目录

文摘

英文文摘

图目录

表目录

1 绪论

1.1 研究背景与意义

1.2 本文组织结构及其创新

1.2.1 本文组织结构

1.2.2 本文创新

2 XML文档聚类相关技术

2.1 XML概述

2.1.1 XML介绍

2.1.2 XML特点

2.1.3 XML应用领域

2.1.4 XML解析

2.2 聚类概述与聚类质量评价

2.2.1 聚类概述

2.2.2 聚类质量的评价

2.3 XML文档聚类算法

2.3.1 基于划分的聚类算法

2.3.2 层次聚类算法

2.3.3 基于遗传算法的聚类算法

3 基于语义标记树的XML文档相似度度量

3.1 常用XML文档相似度度量方法

3.1.1 基于结构的XML文档相似度度量

3.1.2 基于结构和内容的XML文档相似度度量

3.2 语义消歧

3.2.1 WordNet简介

3.2.2 基于WordNet的语义消歧

3.2.3 XML文档中标记的语义消歧

3.3 语义相似度计算

3.3.1 基于WordNet的语义相似度计算

3.3.2 XML文档中标记的语义相似度计算

3.4 XML文档相似度的计算

3.5 小结

4 XML文档聚类

4.1 XML文档解析

4.1.1 XML文档类的方法

4.1.2 元素类的方法

4.2 XML文档相似度计算

4.3 文档聚类

4.3.1 相似度矩阵

4.3.2 最近邻聚类算法

5 实验与评价

5.1 系统设计与开发

5.2 聚类实验与评价

5.3 小结

6 总结

参考文献

附录一 :传统路径计算XML文档相似度源程序

附录二 :基于语义标记树计算XML文档相似度源程序

附录三 :最近邻聚类算法源程序

致谢

展开▼

摘要

XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。
   本文在对XML相关技术以及XML文档聚类算法进行介绍的基础上,梳理了近几年XML文档相似度计算方法的研究进展,针对这些相似度度量方法依靠的多是文档中字符串的简单比对,未涉及文档语义信息的情况,本文提出了一种基于语义标记树的XML文档相似度度量方法,此方法以传统路径法基础,从文档结构特征和标记的语义信息考察文档的相似度。首先利用基于WordNet的语义消歧模块对XML文档间相同的标记进行语义消歧,然后利用语义相似度计算方法对XML文档中不相同的标记进行语义相关度计算,将文档中相同的标记以及标记间的语义相关度共同作为文档的特征来衡量文档的相似度,最后在实验数据集上利用层次聚类算法中的最近邻聚类算法进行分类,证实其确实是一种比较有效的XML文档聚类方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号