基于数据挖掘的文件元数据预取研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zhxsmg88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模的文件存储系统中,元数据访问性能的优化对文件系统的整体性能提高有着非常重要的影响。为了使元数据服务的性能达到最优,建立一种基于元数据预取有效的、正确的模型显得尤其重要。然而,目前存在的缓存预取算法大多是设计来应用在文件数据的存取访问中,没有考虑到元数据访问的特征与元数据本身尺寸较小的特点。若将适用于文件数据的缓存预取算法应用于元数据的预取操作中显然不具有针对性,反而可能导致访问效率低下。针对这种情况,本文提出一种利用存储系统中的元数据操作日志文件对用户未来可能要操作的元数据进行成组预取的模型,并设计了充分体现元数据特点的缓存和预取的新算法。通过对n-gram预测模型的分析,考虑到元数据之间的长距离信息的重要性,引入数据挖掘技术来辅助n-gram模型来实现元数据成组预取。通过评估不同参数值n对模型的影响,本文选用3-gram模型作为预测模型;并综合运用3-gram预测模型和数据挖掘相结合的方法来实现元数据的成组预取,提高元数据访问的缓存命中率,缩短元数据访问请求的平均响应时间,从而提高元数据的访问效率。模拟实验证明,对于不同用户的文件元数据操作日志序列,新元数据预取模型的Cache(缓存)命中率与NEXUS算法相比平均提高了3.9%,与LRU算法比较平均提高了16%。但是新元数据预取算法的空间复杂度较高,不利于其应用于真实的文件系统。为将元数据预取算法应用于文件系统中,文中实现了在线元数据预取改进算法。该在线改进算法支持增量的频繁闭项集挖掘,且不保留中间挖掘信息,很大程度上减少了挖掘的空间复杂度。模拟实验表明,该算法所占用的平均内存空间明显低于新元数据预取算法所占用的空间,仅为其的24%。综合来看,在线元数据预取算法所消耗的时间也有相应的缩短。故在线元数据预取算法是非常有效的,极大地改进了新元数据预取算法在内存空间上占用过多所造成的不足,同时加快了算法的执行速度,对于元数据预取算法成功的应用于真实的文件系统提供了极大可能性与可行性。
其他文献
随着后PC时代的到来以及Internet的不断发展,人们对嵌入式产品的需求不断增加,嵌入式系统已经成为研究的热点。开发一个采用国产嵌入式微处理器的教学实验平台不仅可以帮助开
互联网技术的快速发展,大大地加快了信息传播的速度和广度。以好友圈的方式进行信息传播的社交媒介,例如微博、Twitter、Facebook、微信等,具有信息发布门槛低、信息交互便捷
随着我国经济的发展,对电力行业提供服务的质量提出了越来越高的要求。同时,电力网中非线性电力电子器件和装置在现代社会中得到了广泛的应用,随之而来的是电网中电能质量的恶化,特别是低压电力网段,已经成了威胁整个电网安全高效运行的主要部分。由于原有的电力运行自动化系统在低压段电网的投入不足,从高压段进行的电能质量优化已经不能从根本上解决低压段电力网电能质量恶化带来的诸多问题。本文在针对低压电力环境运行监控
日新月异的科技发展,不断地推动着社会的发展,也正在快速地影响着人们的生活。医疗技术的进步延长了人们的平均寿命,而生活的巨大压力使得生育率不断下降,中国的人口老龄化问
目前,传统Web服务(Web Services)和语义Web服务(Semantic Web Services)均存在“服务静态绑定”问题,即在应用开发和部署时,服务提供者与服务使用者之间的关联关系通常不会改
国家对动漫市场的重视促使动漫渲染技术迅速发展,动漫产品越来越要求精细的图片展示效果,这意味着所需要的计算量越来越庞大。如何根据动漫设计人员所提交的渲染任务在最短的
无线自组织网络(WirelessAdhocNetwork)是由一组带有无线收发装置的移动终端组成的一个多跳、无固定基础设施的、分布式的自治系统。它可以独立组网,也可以以末端子网的形式接入
Ad Hoc网络是指由一组带有无线通信收发装置的移动节点组成的一个多跳、自组织、无中心网络。20世纪90年代末期以来,在无线通信领域Ad Hoc网络技术迅速发展,并且很快从军事通信
随着信息化技术的不断发展,各类信息迅速的增长速度,似乎已经超出人们可以对其进行掌控和利用的能力。科学技术是第一生产力,是推动国家各行各业发展的原动力。改革开放三十
随着数字IC设计规模的增大和功能复杂性的提高,设计验证成为IC设计流程中越来越重要的方面。传统的模拟验证方法无法满足复杂IC设计带来的巨大的验证需求。基于此,形式验证方