首页> 中文学位 >基于近邻决策树的文件访问行为预测方法研究
【6h】

基于近邻决策树的文件访问行为预测方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3研究目标和主要工作

1.4论文的组织

1.5本章小结

2 相关的研究工作

2.1海量存储系统中文件元数据的特征

2.2元数据与访问行为

2.3数据分类相关理论

2.4本章小结

3 文件访问分类预测系统设计

3.1系统总体框架结构

3.2系统设计思想

3.3基于决策树的K近邻算法设计

3.4本章小结

4 文件访问分类预测系统实现

4.1数据预处理模块的实现

4.2数据分类模块的实现

4.3结果预测与测试模块

4.4本章小结

5 性能测试与分析

5.1测试环境

5.2测试结果与分析

5.3本章小结

6 全文总结

致谢

参考文献

附录 攻读学位期间申请的计算机软件著作权

展开▼

摘要

数据的快速增长导致存储需求的规模不断上升,存储系统中文件数目不断增多,文件类型千差万别,文件管理日趋复杂,同时各种新型存储介质不断加入到存储系统,系统中各种介质混合使用,文件分类存储管理需求不断增长。而文件管理的一个重要前提就是如何对文件未来的访问行为也就是访问频率做出准确预测,现有的存储系统不能有效地提供文件访问行为预测的功能,很难满足文件分类存储管理的需求。
  设计并实现了一种新型的文件访问分类预测方法,它提供对文件未来访问行为分类预测的功能,并能找出与任一文件最相似的K个文件,这能帮助存储系统预知文件未来的访问行为,优化文件物理布局,同时给文件缓存等提供决策支持。
  文件访问分类预测系统的主要思想是利用文件的静态元数据和早期的访问记录来建立分类预测模型预知文件未来访问行为。它首先利用元数据建立决策分割树,然后在树的叶子节点建立K近邻分类模型,然后利用这个混合模型来预测文件未来的访问行为。决策分割树是一个高度平衡的多叉树,它的主要作用是利用文件的元数据对原始的训练集合做智能划分,这样不仅可以去除噪音数据而且能节省后续的分类时间,而新来的文件通过决策分割树,会被分到对应的子集中去,之后通过在子集中利用最大堆扫描找到与它最相似的K个文件,通过这K个文件来投票决定它未来的访问行为。
  实验结果表明,通过真实文件系统的记录文件提取数据,所设计的文件访问分类预测系统能准确预测文件未来的访问频率,准确率高达90%,而且其分类所消耗的时间对比传统的KNN算法缩短了近20倍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号