论文部分内容阅读
数据的快速增长导致存储需求的规模不断上升,存储系统中文件数目不断增多,文件类型千差万别,文件管理日趋复杂,同时各种新型存储介质不断加入到存储系统,系统中各种介质混合使用,文件分类存储管理需求不断增长。而文件管理的一个重要前提就是如何对文件未来的访问行为也就是访问频率做出准确预测,现有的存储系统不能有效地提供文件访问行为预测的功能,很难满足文件分类存储管理的需求。设计并实现了一种新型的文件访问分类预测方法,它提供对文件未来访问行为分类预测的功能,并能找出与任一文件最相似的K个文件,这能帮助存储系统预知文件未来的访问行为,优化文件物理布局,同时给文件缓存等提供决策支持。文件访问分类预测系统的主要思想是利用文件的静态元数据和早期的访问记录来建立分类预测模型预知文件未来访问行为。它首先利用元数据建立决策分割树,然后在树的叶子节点建立K近邻分类模型,然后利用这个混合模型来预测文件未来的访问行为。决策分割树是一个高度平衡的多叉树,它的主要作用是利用文件的元数据对原始的训练集合做智能划分,这样不仅可以去除噪音数据而且能节省后续的分类时间,而新来的文件通过决策分割树,会被分到对应的子集中去,之后通过在子集中利用最大堆扫描找到与它最相似的K个文件,通过这K个文件来投票决定它未来的访问行为。实验结果表明,通过真实文件系统的记录文件提取数据,所设计的文件访问分类预测系统能准确预测文件未来的访问频率,准确率高达90%,而且其分类所消耗的时间对比传统的KNN算法缩短了近20倍。