XML数据流上关键字查询的研究与实现

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前,应用于股票交易、电子邮件监测、网络信息订阅与发布等领域的以流形式存在的XML数据越来越多,对其进行关键字查询是XML数据查询的一个研究热点。XML数据流上的关键字查询不同于Xpath&Xquery等结构语言查询,用户不需掌握复杂的结构化查询语言和XML的结构信息,只需提交查询的关键字即可获得感兴趣的信息。但XML数据流的大容量、到达无序且不受控制、仅被访问一次,这些特性给关键字查询带来了新的挑战。基于此,本文对XML数据流上的关键字查询做了细致的研究。
　　本文在综述和分析现有XML数据流上的关键字查询相关技术的基础上,着重分析了XML数据流上的关键字查询技术。首先针对现有算法的优缺点,给出了完备性结果集——全部最小最近公共祖先ASLCA(AllSmallestLowestCommonAncestor)和最大包含序列MCS(MaxContainSequence)的定义,并提出和实现了XML数据流上的关键字查询算法——XAMM算法(XML-slcaMax-contain-sequenceMinus),该算法解决了Dewey编码浪费内存空间,克服了Xpath&Xquery等结构化查询操作不友好的缺陷。接着设计了XML数据流上关键字查询原型系统,该系统在综合考虑用户的查询意图和查询数据集的精确性的基础上,从用户操作、关键字分类、关键字语义扩展、数据集粗糙过滤和查询执行五个模块对该系统进行设计。在查询执行前,为准确捕获用户的查询意图,对用户提交的关键字表达式进行语法规定,根据关键字在查询中充当的角色,将关键字分为用于查询的条件关键字和用于显示结果的结果关键字,并利用WordNet语义词典对关键字语义进行扩展:同时对XML,文档数据集利用布隆过滤器进行数字签名,匹配关键字语义扩展结果,以此将无关的文档集过滤掉,通过对数据集的粗糙过滤,可在查询前精简数据集,为精确化查询作准备。在执行查询时,执行XAMM算法,同时为将满足用户意图的查询结果返回给用户,在分析现有基于WordNet的经典语义相似度计算方法均忽略概念间层次关系的基础上,提出了概念非对称性语义相似度计算方法-NASSC方法(basedonNotionAsymmetricSemanticSimilarityCalculation)。用NASSC方法计算候选查询结果和关键字同义词词集的语义相似度,将相似度高的结果返回给用户,完成查询。
　　最后通过对比实验,证明了XAMM算法优于现有的算法,XAMM算法的结果集比SRCT和SLCA结果集更完备,并具有较好的查询性能。并通过将NASSC方法与经典的语义相似度计算方法进行对比实验,证明了NASSC方法计算的相似度有较高的准确率。同时实现了XML数据流上的关键字查询原型系统,通过系统演示证明该系统对用户是操作友好的。

著录项

作者
冯静;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机软件与理论
授予学位硕士
导师姓名余建桥;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
XML数据流; 关键字查询; 完备结果集; 语义相似度;

相似文献

中文文献
外文文献
专利

1. XML数据流上Top-K关键字查询处理 [J] . 黎玲利 ,王宏志 ,高宏 . 软件学报 . 2012,第006期
2. XML流上的关键字查询算法 [J] . 李波 ,杨卫东 . 计算机工程 . 2009,第004期
3. 寻找XLCA的XML数据流TOP-K关键字查询算法 [J] . 冯静 ,余建桥 ,李雪娇 . 计算机技术与发展 . 2011,第009期
4. 基于Hole-Filler模型的XML数据流上的SLCA算法 [J] . 霍欢 ,王国仁 ,陈庆奎 . 计算机研究与发展 . 2010,第005期
5. 使用DTD优化XML数据流上的XPath查询 [J] . 王兰野 ,洪晓光 . 计算机科学与探索 . 2010,第009期
6. XML数据流上的TOP-K关键字查询处理 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. XML数据流上的TOP-K关键字查询处理 [A] . 黎玲利 . 2010

XML数据流上关键字查询的研究与实现

摘要

著录项

相似文献

相关主题

期刊订阅