基于属性权重和标记记录的实体解析技术

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的发展，数据增长的速度越来越快，实体解析的重要性也变得尤为突出。实体解析是将在同一个数据源或者不同数据源中，指向现实世界同一实体的元组识别出来并合并的过程。因为数据在存储的过程中可能存在拼写或者排版错误，也可能相同实体存在不同的表达形式，而数据又没有唯一的标识符，所以实体解析的作用不可轻视。
　　如何高效而准确的将指向同一实体的记录识别出来一直是研究人员不懈追求的目标。在基于规则的匹配算法中，大多数算法是将所有的属性都作为匹配属性进行计算，并且认为各个属性的权重都是一样的，然而这样不能体现关键属性的重要性，容易造成实体解析的错误;识别出匹配记录之后，很多研究都不对这些匹配记录进行处理，容易造成记录比较的冗余，使得实体解析的速度减慢。因此，本文提出了基于属性权重和标记记录的实体解析技术来提高实体解析的准确率和效率。
　　首先，主要针对关系数据库中实体解析准确性的问题，本文提出了基于属性权重的实体识别方法，主要采用信息增益的方法和概率统计的方法来计算记录属性的权重，用来代表该属性在记录中的重要性，达到提高实体解析准确度的目的。并且在此基础上采用top-k技术，选择出最佳匹配属性集合，减少匹配属性的个数，从而加快了实体解析的速度。
　　其次，针对提高实体解析的效率问题，本文还提出了基于标记记录的合并算法，是指将识别出来的指向同一实体的多条记录进行合并，并且对参与合并操作的记录进行标记，这样避免相关标记的记录再次比较，可以减少记录比较的次数，从而提高了实体解析的效率。
　　最后，通过对真实数据进行大量实验，实验结果验证了本文提出的方法的可行性和有效性。

著录项

作者
甄灵敏;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨晓春;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.132.3;
关键词
关系数据库; 实体解析; 属性权重; 标记记录; 信息增益; 概率统计;

相似文献

中文文献
外文文献
专利

1. 基于属性权重的实体解析技术探讨 [J] . 张旻 ,李继云 . 无线互联科技 . 2018,第005期
2. 基于属性权重的实体解析技术 [J] . 甄灵敏 ,杨晓春 ,王斌 . 计算机研究与发展 . 2013,第0z1期
3. 基于模式感知元分块技术的Web实体解析算法 [J] . 韦海浪 ,李贵 ,李征宇 . 数据挖掘 . 2020,第001期
4. 基于自然语言处理技术的医学命名实体解析研究 [J] . 易应萍 ,张志强 ,王强 . 中国数字医学 . 2018,第012期
5. 基于Gmap.NET的水下声源爆炸标记与记录系统设计与实现 [J] . 王富海1 ,李伟峰1 . 软件工程 . 2017,第006期
6. 基于属性权重的实体解析技术 [C] . Zhen Lingmin ,甄灵敏 ,Yang Xiaochun . 第30届中国数据库学术会议 . 2013
7. 数据集成中基于语义的实体解析技术的研究 [A] . 张成远 . 2012

基于属性权重和标记记录的实体解析技术

目录

摘要

著录项

相似文献

相关主题

期刊订阅