基于语义标记树的XML文档聚类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。
　　本文在对XML相关技术以及XML文档聚类算法进行介绍的基础上,梳理了近几年XML文档相似度计算方法的研究进展,针对这些相似度度量方法依靠的多是文档中字符串的简单比对,未涉及文档语义信息的情况,本文提出了一种基于语义标记树的XML文档相似度度量方法,此方法以传统路径法基础,从文档结构特征和标记的语义信息考察文档的相似度。首先利用基于WordNet的语义消歧模块对XML文档间相同的标记进行语义消歧,然后利用语义相似度计算方法对XML文档中不相同的标记进行语义相关度计算,将文档中相同的标记以及标记间的语义相关度共同作为文档的特征来衡量文档的相似度,最后在实验数据集上利用层次聚类算法中的最近邻聚类算法进行分类,证实其确实是一种比较有效的XML文档聚类方法。

著录项

作者
滕海明;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科管理学(情报学)
授予学位硕士
导师姓名潘有能;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
语义标记树; XML文档; 聚类算法; 数据挖掘; 语义相似度;

相似文献

中文文献
外文文献
专利

1. 基于语义标记树的XML文档聚类研究 [J] . 潘有能 ,滕海明 . 情报学报 . 2012,第005期
2. XML文档聚类中基于语义的特征词权重计算方法 [J] . 龙鹏飞 ,石奇 . 长沙理工大学学报（自然科学版） . 2015,第002期
3. 一种基于结构信息总结树的XML文档聚类方法 [J] . 梁作鹏 ,吴文明 ,董逸生 . 应用科学学报 . 2005,第001期
4. 基于多标记有向树模型的XML文档片段相似度量方法研究 [J] . 宋荣 ,李霞婷 . 电子技术与软件工程 . 2013,第010期
5. 基于标记树的XML文档自动分类研究 [J] . 潘有能 ,丁楠 . 情报学报 . 2007,第003期
6. 基于独立分量的XML文档聚类方法 [C] . 王桐 ,刘大昕 . 全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 . 2006
7. 基于结构向量空间和树路径模型的XML文档聚类技术研究 [A] . 朱春磊 . 2008

基于语义标记树的XML文档聚类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅