首页> 中文学位 >基于数据社区的领域数据图信息发现算法研究
【6h】

基于数据社区的领域数据图信息发现算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及研究意义

1.2 国内外研究现状

1.2.1 信息发现研究现状

1.2.2 数据社区发现研究现状

1.2.3 基于数据社区的信息发现研究现状

1.3 主要研究内容

1.4 论文章节安排

第2章 信息发现与数据社区相关理论

2.1 信息发现相关理论

2.1.1 信息发现相关定义

2.1.2 信息发现原理

2.2 数据社区相关理论

2.2.1 基于网络结构特征的社区发现

2.2.2 基于节点内容属性的社区发现

2.3 基于数据社区的信息发现

2.4 本章小结

第3章 领域数据图信息发现算法设计

3.1 数据社区的发现

3.1.1 基于结构和主题的相似计算

3.1.2 基于结构和主题的数据社区发现算法设计

3.1.3 社区发现算法性能分析

3.2 基于数据社区信息发现模型的构建

3.2.1 基于数据社区信息发现的总体框架

3.2.2 基于数据社区信息发现的数据模型

3.2.3 基于数据社区信息发现的查询处理机制

3.2.4 基于数据社区信息发现结果的定义

3.3 基于数据社区信息发现算法的设计

3.3.1 基于数据社区信息发现算法设计基本思路和原则

3.3.2 数据社区相关性计算

3.3.3 基于数据社区信息发现算法设计

3.4 信息发现结果排序策略的设计

3.5 本章小结

第4章 原型系统设计与实现

4.1 系统分析与设计

4.1.1 系统总体设计与分析

4.1.2 系统模块设计

4.2 系统实现

4.2.1 开发环境的配置

4.2.2 系统实现

4.3 实验结果与分析

4.3.1 实验数据

4.3.2 评估方法

4.3.3 实验结果分析

4.4 本章小结

第5章 总结与展望

5.1 论文总结

5.2 工作展望

参考文献

致谢

展开▼

摘要

随着互联网的发展,各种类型的网络数据也越来越庞大,并且由相关数据构成的领域数据图的结构也越来越复杂。基于领域数据图的信息检索往往会产生大量的检索结果,并且用户难以发现有用的信息。目前的改进方法主要集中在用户查询和检索结果的理解与分析(如查询扩展、相关性反馈)上,而较少关注领域数据木身,因此改进效果还不是很理想。因为不仅用户查询具有歧义性,检索结果具有多样性,领域数据更具有实体联系复杂性、语义丰富性、不确定性和多样性等。
  信息发现是介于信息检索和知识发现之间的一种技术,它要求比信息检索做更多的预处理工作,例如信息集成、信息抽取和索引、信息聚类。数据社区是高内聚、低耦合的相关子图,其规模比传统的领域数据图的规模要小。领域数据图上的社区发现为信息发现做了更多的预处理工作。
  本文首先介绍了信息发现和数据社区的相关理论,并且分析和比较了目前几种有代表性的数据社区发现算法;然后提出了基于数据社区的信息发现模型;最后在这个信息发现模型的基础上设计了基于结构和主题相关的数据社区发现算法STBCD和基于数据社区的信息发现算法CBSTAR。STBCD算法依据网络结构特征和节点内容属性相似性把大的领域数据图划分成若干小的数据社区。CBSTAR算法首先查询检索和信息发现关键词相关的Top k个数据社区,然后只把相关的数据社区加载到内存中,在这些数据社区上查询发现候选结果集。在信息发现结果排序时,首先合并各个数据社区中查询发现的候选结果集,充分考虑数据社区和信息发现关键词的相关性以及包含关键词的节点和不包含关键词的节点对整个排序结果的影响,设计了更合理的排序策略。
  本文用上述方法实现了一个基于数据社区的领域数据图信息发现原型系统,利用DBLP数据集验证了原型系统的发现效果和效率。论文采用P@K评价指标对实验结果进行评价,对比和分析了不同的实验结果。最终的实验结果表明,本文的算法在保证信息发现效果的前提下大大提高了发现效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号