首页> 中国专利> 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

摘要

本申请实施例提供了一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置,充分考虑了交通大数据存在的质量问题,建立了针对相似重复数据、缺失数据以及异常数据的数据清洗规则库,在进行数据清洗时只需要通过调用数据清洗规则库中相应的清洗配置文件便可进行数据清洗,解决了现有技术采用聚类的方法获取到相似特征数据,仅对缺失数据进行了补全,针对异常和错误数据选择了简单粗暴的进行更新和剔除,存在的数据清洗不实用,清洗规则不健全的技术问题。

著录项

  • 公开/公告号CN110502509A

    专利类型发明专利

  • 公开/公告日2019-11-26

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN201910798395.7

  • 发明设计人 张绪升;谢侃;谢胜利;

    申请日2019-08-27

  • 分类号

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人黄忠

  • 地址 510060 广东省广州市越秀区东风东路729号大院

  • 入库时间 2024-02-19 15:35:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-20

    实质审查的生效 IPC(主分类):G06F16/215 申请日:20190827

    实质审查的生效

  • 2019-11-26

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号