首页> 中文学位 >基于属性权重和标记记录的实体解析技术
【6h】

基于属性权重和标记记录的实体解析技术

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 选题依据

1.3 本文研究的内容和贡献点

1.4 本文的组织结构

第2章 相关工作

2.1 传统数据结构的实体解析

2.2 复杂数据结构的实体解析

2.3 基于语义信息的实体解析

2.4 实体解析的优化策略

2.5 本章小结

第3章 背景知识和相关定义

3.1 相关定义

3.2 基于属性权重方法的分析

3.3 基于标记记录方法的分析

3.4 本章小结

第4章 基于属性权重的实体识别方法

4.1 属性权重的分配

4.1.1 信息增益方法

4.1.2 概率统计方法

4.2 最佳匹配属性的选择

4.2.1 top-k方法

4.2.3 阈值方法

4.3 相似度计算

4.4 基于Blocking技术的优化策略

4.5 本章小结

第5章 基于标记记录的合并方法

5.1 挑战

5.2 基于标记记录的合并算法

5.2.1 父子关联关系

5.2.2 合并算法

5.3 算法的性能分析

5.3.1 存在的合并算法性能分析

5.3.2 M-Swoosh算法的性能分析

5.4 本章小结

第6章 实验结果与分析

6.1 实验环境和评测标准

6.2 基于属性权重的实验分析

6.2.1 解析结果的评价

6.2.2 解析时间的优化

6.3 基于标记记录的实验分析

6.3.1 记录比较次数的对比

6.3.2 运行时间的对比

6.4 本章小结

第7章 结论

7.1 工作总结

7.2 工作展望

参考文献

致谢

攻硕期间参加的项目及发表的论文

展开▼

摘要

随着互联网技术的发展,数据增长的速度越来越快,实体解析的重要性也变得尤为突出。实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程。因为数据在存储的过程中可能存在拼写或者排版错误,也可能相同实体存在不同的表达形式,而数据又没有唯一的标识符,所以实体解析的作用不可轻视。
  如何高效而准确的将指向同一实体的记录识别出来一直是研究人员不懈追求的目标。在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且认为各个属性的权重都是一样的,然而这样不能体现关键属性的重要性,容易造成实体解析的错误;识别出匹配记录之后,很多研究都不对这些匹配记录进行处理,容易造成记录比较的冗余,使得实体解析的速度减慢。因此,本文提出了基于属性权重和标记记录的实体解析技术来提高实体解析的准确率和效率。
  首先,主要针对关系数据库中实体解析准确性的问题,本文提出了基于属性权重的实体识别方法,主要采用信息增益的方法和概率统计的方法来计算记录属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的。并且在此基础上采用top-k技术,选择出最佳匹配属性集合,减少匹配属性的个数,从而加快了实体解析的速度。
  其次,针对提高实体解析的效率问题,本文还提出了基于标记记录的合并算法,是指将识别出来的指向同一实体的多条记录进行合并,并且对参与合并操作的记录进行标记,这样避免相关标记的记录再次比较,可以减少记录比较的次数,从而提高了实体解析的效率。
  最后,通过对真实数据进行大量实验,实验结果验证了本文提出的方法的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号