首页> 中文学位 >XML数据流上关键字查询的研究与实现
【6h】

XML数据流上关键字查询的研究与实现

代理获取

摘要

当前,应用于股票交易、电子邮件监测、网络信息订阅与发布等领域的以流形式存在的XML数据越来越多,对其进行关键字查询是XML数据查询的一个研究热点。XML数据流上的关键字查询不同于Xpath&Xquery等结构语言查询,用户不需掌握复杂的结构化查询语言和XML的结构信息,只需提交查询的关键字即可获得感兴趣的信息。但XML数据流的大容量、到达无序且不受控制、仅被访问一次,这些特性给关键字查询带来了新的挑战。基于此,本文对XML数据流上的关键字查询做了细致的研究。
   本文在综述和分析现有XML数据流上的关键字查询相关技术的基础上,着重分析了XML数据流上的关键字查询技术。首先针对现有算法的优缺点,给出了完备性结果集——全部最小最近公共祖先ASLCA(AllSmallestLowestCommonAncestor)和最大包含序列MCS(MaxContainSequence)的定义,并提出和实现了XML数据流上的关键字查询算法——XAMM算法(XML-slcaMax-contain-sequenceMinus),该算法解决了Dewey编码浪费内存空间,克服了Xpath&Xquery等结构化查询操作不友好的缺陷。接着设计了XML数据流上关键字查询原型系统,该系统在综合考虑用户的查询意图和查询数据集的精确性的基础上,从用户操作、关键字分类、关键字语义扩展、数据集粗糙过滤和查询执行五个模块对该系统进行设计。在查询执行前,为准确捕获用户的查询意图,对用户提交的关键字表达式进行语法规定,根据关键字在查询中充当的角色,将关键字分为用于查询的条件关键字和用于显示结果的结果关键字,并利用WordNet语义词典对关键字语义进行扩展:同时对XML,文档数据集利用布隆过滤器进行数字签名,匹配关键字语义扩展结果,以此将无关的文档集过滤掉,通过对数据集的粗糙过滤,可在查询前精简数据集,为精确化查询作准备。在执行查询时,执行XAMM算法,同时为将满足用户意图的查询结果返回给用户,在分析现有基于WordNet的经典语义相似度计算方法均忽略概念间层次关系的基础上,提出了概念非对称性语义相似度计算方法-NASSC方法(basedonNotionAsymmetricSemanticSimilarityCalculation)。用NASSC方法计算候选查询结果和关键字同义词词集的语义相似度,将相似度高的结果返回给用户,完成查询。
   最后通过对比实验,证明了XAMM算法优于现有的算法,XAMM算法的结果集比SRCT和SLCA结果集更完备,并具有较好的查询性能。并通过将NASSC方法与经典的语义相似度计算方法进行对比实验,证明了NASSC方法计算的相似度有较高的准确率。同时实现了XML数据流上的关键字查询原型系统,通过系统演示证明该系统对用户是操作友好的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号