首页> 外文期刊>Przeglad Elektrotechniczny >A Similar Duplicate Data Detection Method Based on Fuzzy Clustering for Topology Formation
【24h】

A Similar Duplicate Data Detection Method Based on Fuzzy Clustering for Topology Formation

机译:基于模糊聚类的相似重复数据检测方法

获取原文
获取原文并翻译 | 示例
           

摘要

The changing information technology makes data increase exponentially in all areas, the quality of the huge amounts of data is the core problems. Data cleaning is an effective technology to solve data quality problems. This paper focuses on the duplicate data cleaning techniques. It studies the quality of the data from the architectural level, the instance-level problems, the multi-source single-source problems, duplicated records cleaning application platform and the evaluation criteria. In these studies, a improved novel detection method adopts the fuzzy clustering algorithm with the Levenshtein distance combination to data cleaning .It can accurately and quickly detect and remove duplicate raw data. The improved method includes a similar duplicate records detection process, the major system framework design, system function modules of the implementation process and results analysis in the paper. The precision and recall rates are higher than several other data cleaning methods. These comparisons confirm the validity of the method. The experimental results exhibit that the proposed method is effective in data detection and cleaning process.%Artykuł proponuje nowe metody czyszczenia danych z uwzględnieniem liczby przypadków, wielu źródeł, podwójnych rekordów i innych kryteriów oceny. Ulepszona metoda detekcji wykorzystuje algorytm rozmytego klastrowania w dystansem Levenshteina. W ten sposób szybko wykrywane są i usuwane podwójne wiersze danych.
机译:不断变化的信息技术使数据在所有领域都呈指数级增长,海量数据的质量是核心问题。数据清理是解决数据质量问题的有效技术。本文重点介绍重复数据清除技术。它从体系结构级别,实例级别的问题,多源单源问题,重复记录清理应用程序平台和评估标准等方面研究数据的质量。在这些研究中,一种改进的新颖检测方法是采用带有Levenshtein距离组合的模糊聚类算法进行数据清理,可以准确,快速地检测和删除重复的原始数据。改进后的方法包括类似的重复记录检测过程,主要的系统框架设计,实现过程的系统功能模块以及结果分析。精度和召回率高于其他几种数据清除方法。这些比较证实了该方法的有效性。实验结果表明,所提方法在数据检测和清除过程中是有效的。 Ulepszona metoda detekcji wykorzystuje algorytm rozmytego klastrowania w dystansem Levenshteina。 W十sposóbszybko wykrywanesąi usuwanepodwójnewiersze danych。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号