首页> 中文会议>NDBC2009第26届中国数据库学术会议 >一种基于二分图最优匹配的重复记录检测算法

一种基于二分图最优匹配的重复记录检测算法

摘要

信息集成系统中存在重复记录,重复记录的存在为数据处理和分析带来了困难.重复记录检测已经成为当前数据库研究中的热点问题之一.目前的方法主要集中在计算具有同样数据类型属性的相似性上,而现实系统中存在大量具有不同数据类型、不同模式的记录.针对具有多种类型不同模式数据的重复记录检测问题,提出了一种基于二分图的最优匹配的记录相似度计算方法,并基于这种记录相似性提出了重复记录检测算法.理论分析和实验结果都表明了方法的正确性和有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号