基于近邻决策树的文件访问行为预测方法研究

被引量 : 0次 | 上传用户:diyuyanluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的快速增长导致存储需求的规模不断上升,存储系统中文件数目不断增多,文件类型千差万别,文件管理日趋复杂,同时各种新型存储介质不断加入到存储系统,系统中各种介质混合使用,文件分类存储管理需求不断增长。而文件管理的一个重要前提就是如何对文件未来的访问行为也就是访问频率做出准确预测,现有的存储系统不能有效地提供文件访问行为预测的功能,很难满足文件分类存储管理的需求。设计并实现了一种新型的文件访问分类预测方法,它提供对文件未来访问行为分类预测的功能,并能找出与任一文件最相似的K个文件,这能帮助存储系统预知文件未来的访问行为,优化文件物理布局,同时给文件缓存等提供决策支持。文件访问分类预测系统的主要思想是利用文件的静态元数据和早期的访问记录来建立分类预测模型预知文件未来访问行为。它首先利用元数据建立决策分割树,然后在树的叶子节点建立K近邻分类模型,然后利用这个混合模型来预测文件未来的访问行为。决策分割树是一个高度平衡的多叉树,它的主要作用是利用文件的元数据对原始的训练集合做智能划分,这样不仅可以去除噪音数据而且能节省后续的分类时间,而新来的文件通过决策分割树,会被分到对应的子集中去,之后通过在子集中利用最大堆扫描找到与它最相似的K个文件,通过这K个文件来投票决定它未来的访问行为。实验结果表明,通过真实文件系统的记录文件提取数据,所设计的文件访问分类预测系统能准确预测文件未来的访问频率,准确率高达90%,而且其分类所消耗的时间对比传统的KNN算法缩短了近20倍。
其他文献
目的:观察不同浓度棕榈酸(palmiticacid,PA)对大鼠胰岛INS-1细胞的脂毒性作用,探讨线粒体途径是否介导PA诱导的胰岛β细胞INS-1凋亡及其可能机制。方法:以大鼠INS-1胰岛β细胞株
<正> 几个世纪以来,欧美许多国家都一直用榅桲作为西洋梨的矮化砧木。在我国,即使1935年云南从法国引进榅桲作砧木,嫁接的也是西洋梨品种。为了探讨榅桲应用于中国梨的可能性
语言可以传递信息,表征客观世界,也可以表达情感、态度、立场等内心世界。马丁、怀特等学者在二十世纪九十年代提出的评价理论扩展了人际元功能,发展了系统功能语言学,广泛应
在能源短缺及价格飙升的现状下,最大限度强化传热以及节能环保的问题逐渐备受关注。蒸发冷凝式传热过程是一种相变传热过程,往往较无相变过程的传热效率更高,由于表面蒸发式空气
本文主要是对家庭教育类图书广告语言进行了语言学的应用分析,主要采用的是谱系分析研究理论和广告语言研究的跟踪方法,并且综合了详尽的图书广告语言案例分析和一个网上问卷调
春秋晚期的晋卿赵鞅墓车马坑马骨历经2500年的埋藏,本身已有腐朽;由于易地保护,马骨被切割,损伤十分严重;多次搬迁,造成箱内切块严重开裂破碎;后又长期裸露存放,造成马骨严重风化。对
新时期新阶段,我国经济社会发展取得了辉煌成就,中华民族伟大复兴呈现光明前景。中华民族伟大复兴必然伴随着中华文化繁荣兴盛。如何充分发挥人民在文化建设中的主体作用,调动广
青年教师年富力强,积极上进,工作热情高,经过一定时间的磨练,开始积累有效的工作经验,初步呈现出教学风格。同时,也暴露出一些缺点:缺乏深度钻研教材的耐心,缺乏研究教育教法
简要地介绍了开源路由系统OpenWrt平台下的小型项目开发。该项目采用OpenWrt路由器为硬件平台,通过opkg软件包系统安装WEB服务器、php解析器、mysql数据库、NTP客户端、MP3播