首页> 中文学位 >基于规则库的可扩展的数据质量分析框架研究与实现
【6h】

基于规则库的可扩展的数据质量分析框架研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文研究内容

1.4 本文的组织架构

第二章 数据质量概述

2.1 数据质量产生原因

2.1.1 源数据获取

2.1.2 数据传输

2.1.3 数据存储

2.1.4 数据集成

2.1.5 数据仓库

2.1.6 数据应用

2.2 数据质量问题定义及分类

2.2.1 单数据源问题

2.2.2 多数据源问题

2.3 数据质量评估

2.4 数据质量分析方法和工具

2.4.1 数据汇总

2.4.2 缺失数据的处理

2.4.3 异常数据检测

2.4.4 重复数据检测

2.4.5 函数依赖发现

2.4.6 不一致数据处理

2.4.7 数据质量分析工具

2.5 小结

第三章 数据质量分析方法论

3.1 数据质量分析规范

3.1.1 概述

3.1.2 数据分类

3.1.3 数据质量分析级别定义

3.2 数据质量生命周期

3.3 数据质量分析基本流程

3.4 小结

第四章 JESS规则引擎及其在数据质量分析中的应用

4.1 规则引擎原理

4.2 Jess规则引擎

4.2.1 Jess事实

4.2.2 Jess规则

4.2.3 Jess推理机

4.2.4 Jess的可扩展性

4.3 Jess规则引擎在数据质量分析中的应用

4.3.1 事实库

4.3.2 规则库

4.3.3 基于Jess规则的数据质量分析

4.3.4 数据质量分析中的业务规则示例

4.4 小结

第五章 基于规则库的可扩展的数据质量分析框架

5.1 基本框架

5.2 基于RBDQA框架的数据质量分析流程

5.3 RBDQA系统实现

5.3.1 系统实现主要目标和技术

5.3.2 系统总体设计

5.3.3 系统实现的主要功能

5.4 案例应用

5.4.1 数据来源

5.4.2 数据质量分析步骤

5.4.3 数据质量分析结果

5.4.4 实验结论

5.5 小结

结 论

参考文献

攻读硕士学位期间取得的研究成果

致 谢

展开▼

摘要

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。然而由于各种原因,如人工操作的误输入、网络传输错误等,各个业务系统内部的数据本身存在着一些问题,如数据丢失、数据不一致等。另一方面,对这些业务系统数据进行整合以构建数据仓库时,由于各个系统间数据结构、模式的差异,又会产生新的数据质量问题。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,质量差的数据对企业的决策是毫无意义的。因此在构建数据仓库之前如何进行有效的数据质量分析以尽快发现潜在的问题并加以解决已成为构建数据仓库成败的关键。
   目前数据质量分析在理论研究上取得了很多成果,也涌现出了很多优秀的数据质量分析工具。在实际应用中,数据质量分析通常依赖于特定的业务规则,如何有效的表述这些规则以辅助数据分析是当前的数据质量分析工具研究中需要解决的一个问题;可扩展性也是当前多数的数据质量分析工具所缺乏的一个重要特性。针对这些问题,本文对数据质量分析的应用做了一定的研究,主要工作和创新点如下:
   1、研究了数据质量的相关理论,分析总结了数据质量分析方法论。
   2、将Jess规则引擎引入到数据质量分析中,能够有效地对业务规则进行结构化表示,并自动完成数据质量分析。
   3、针对现有数据质量分析工具不易扩展的问题,本文提出了一个新的基于规则库的可扩展的数据质量分析框架。用户可设计各种数据质量分析方法,并加入到框架中;一些通用的数据质量分析方法、业务规则可以得到很好的复用,从而达到知识积累的目的。结合该框架,本文对基本的数据质量分析流程进行了扩展完善。
   4、设计并实现了一个基于该框架的系统原型。整个系统基于Eclipse RCP进行构建,用户可充分利用Eclipse插件技术来定制特定的数据质量分析方法,并有机地融入到系统中,实现系统的可扩展性。系统实现了数据汇总分析和基于Jess规则的数据质量分析两个主要功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号