首页> 中文学位 >数据流中基于优化的FP-tree的频繁模式挖掘方法研究
【6h】

数据流中基于优化的FP-tree的频繁模式挖掘方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 数据流挖掘技术

1.2 数据流挖掘的研究现状

1.3 课题研究内容

1.4 本文的结构安排

第2章 数据流中挖掘频繁模式技术分析

2.1 问题提出

2.2 概要数据结构和技术

2.3 数据流中频繁项集的挖掘

2.4 本章小结

第3章 基于衰减因子的数据流中频繁模式的挖掘方法

3.1 引言

3.2 问题定义

3.3 衰减因子的思想

3.4 频繁项集挖掘算法的设计

3.5 算法分析与实例

3.6 本章小结

第4章 一种数据流上最大频繁项集的挖掘算法

4.1 引言

4.2 问题定义与描述

4.3 DSMFI_tree的构造和增量更新

4.4 最大频繁项集挖掘算法DSMFI-Miner的设计

4.5 算法实例分析

4.6 本章小结

第5章 算法实现及实验分析

5.1 引言

5.2 DS-FPM算法的实验

5.3 DSMFI-Miner算法的实验

5.4 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

在现实世界和工程实践中,可以产生大量的数据流,它不同于传统的静态数据。如何快速、高效地挖掘数据流中的频繁模式是数据流挖掘的重要问题。本文将研究重点放在数据流中基于优化的FP-tree的频繁模式挖掘算法设计上,其研究成果对于电子商务、商业智能以及市场决策等领域具有重要意义。
  首先,为了改善数据流中频繁模式的挖掘效果,提出了基于衰减因子的数据流中频繁模式的挖掘方法DS-FPM。构造了一种数据结构DSFP-tree用于压缩存储数据流中的潜在频繁项集。为了使挖掘结果既保留历史细节,又节省算法的存储空间,本算法引进衰减因子将算法所需要的内存空间控制在一定的规模之内。算法采用数据分段的思想,先对上一个分段得到的DSFP-tree用衰减因子λ进行选样,再得到最新的数据分段的临界频繁项集,然后将两者都插入到新的DSFP-tree中,最后挖掘出DSFP-tree中的频繁项集。
  其次,为了减少保存数据流中项集信息所需要的内存空间,构造了一种存储潜在最大频繁项集的结构DSMFI_tree,基于DSMFI_tree结构提出了一种数据流最大频繁项集挖掘算法DSMFI-Miner。算法同样采用数据分段的思想,以数据分段为更新单位,动态更新全局DSMFI_tree,通过遍历DSMFI_tree,快速挖掘出数据流中的所有最大频繁项集。
  最后,本文使用C语言对上述算法进行实现,实验数据集选择采用IBM test data generator生成的数据集,对提出的DS-FPM算法和DSMFI-Miner算法进行了实验测试。

著录项

  • 作者

    何辉玲;

  • 作者单位

    燕山大学;

  • 授予单位 燕山大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 任家东;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据流; 频繁模式; 数据挖掘; FP-tree算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号