首页> 中文期刊>计算机技术与发展 >相似重复数据检测的数据清洗算法优化

相似重复数据检测的数据清洗算法优化

     

摘要

数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高数据质量的热门技术手段,而其中相似重复数据检测更是数据清洗中的重要方面,比如堤防工程的数据存在很多地名、经纬度、砖孔数据等等,录入到数据库时相似重复度很高。目前针对重复数据检测应用最多的是SNM(基本邻近有序法)算法,主要是先将原有的数据集进行排序,再比较排序后相邻数据的相识度。但这种算法的时间复杂度很高。文中对SNM算法进行优化,首先将数据库记录的属性值进行分类,并结合三区间排序算法进行排序来减少比对范围,最后通过设定属性的权重并求和,根据记录相似度的结果来判断。实验结果证明了该算法的正确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号