论文部分内容阅读
文件系统语义是指文件系统在其生命周期内产生的一系列信息所表现出来的含义。相较于只能提供简单数据块语义的存储设备,文件系统能够提供更加丰富的语义知识来描述上层应用的复杂行为。因此,近年来,文件系统语义已经成为学术界和产业界日益关注的研究和发展的方向。不过,现有依赖定性描述型信息的语义分析方法却面临着巨大的挑战:众多类型不同的变量要素会影响文件系统语义知识的发现过程。更糟糕的是,由于这些影响要素本身之间也可能具有相依性,使得该类方法变得日益复杂且效果很难保证。在上述事实的背景下,本文所作的工作从定量的角度研究文件系统语义,提出了一系列文件相关性量化分析模型,这些模型能够综合地考虑不同类型要素对文件系统语义分析的影响,从而更加精确地挖掘隐藏在数据背后的重要文件语义信息—尤其是文件相关性信息。具体的,本文内容包括以下几个方面:提出了一种文件相关性量化模型——FARMER。该模型将文件视为由若干语义要素组成的多次元向量空间,空间中的每个项元表示该文件的具体要素特征值。模型假设:文件之间相互关系的程度(或简称为文件关联度),可以经由计算每个文件(语义向量)之间的夹角偏差程度(相似度)而反映。这样,文件语义就被转换成了计算机可以处理和计算的结构化数据,文件之间的相关性问题也就转变成了向量空间之间的相似性问题。FARMER文件相关性量化模型是进一步运用各种定量分析方法研究复杂文件系统语义的重要基础。实验结果表明,根据FARMER模型评估的文件关联度能够准确地反映现实系统中文件相关性。紧接着提出了一种文件相关性回归分析模型——CoMiner。该模型根据文件系统活动中观测到的兴趣现象样本数据建立回归方程来研究相关现象的数量变动关系。模型重点从两个方面分析文件相关现象:首先是在其他变量要素保持不变的情况下,某一种要素的变化对兴趣现象(如文件关联度)的影响;其次是运用多种样条或非样条回归模型将复杂的文件相关现象拟合成为函数关系,从而帮助更好的理解文件相关现象的关系形式。进一步的,CoMiner提供多种回归方程对现实世界的文件相关关系进行拟合,使其能够在给定合理代价前提下做出准确的预测。将CoMiner模型评估的关系强度结果应用到改进后FARMER文件相关性量化模型可以有效地提升后者的模型准确度:实验表明最大能够提升达到20%左右。进一步提出了一种文件自相关性时间序列分析模型—TiMiner。该模型在文件系统语义挖掘过程中引入时间维度,运用时间序列分析方法研究文件系统现象随时间发生的变化。根据实际运行情况,总结了五条文件系统时间序列数据特征,分别是趋势性、周期性、异常观测值、条件异方差以及非线性特征,并针对这些特征分别采用不同时间序列分析方法进行分析。研究发现某一时刻的文件系统缓存命中率状态可以分解成为三个部分:之前时刻系统缓存状态的自相关部分、时间间隔内文件请求到达随机分布部分和相邻时刻状态的差分部分。实验结果表明,TiMiner文件系统缓存命中率预取模型能够比较好的匹配历史数据并有效地预测未来一段时间内的状态趋势。为了论证述三种模型的有效性,设计和实现了一个实际的大规模分布式智能对象存储系统Cappella,该系统集成了一系列基于文件语义挖掘的服务优化模块来提高整体性能。本文同时讨论和展望了其他一些潜在的文件语义挖掘的应用,诸如:文件感知、可靠性和一致性等方面的问题,以及今后可能有更进一步研究潜力的方向和方法。此外,从若干典型的分布式文件系统的Trace中抽取出一些常用的文件变量要素并将这些要素集成到Cappella系统的实验测试环境中。实验结果表明,本文提出的一系列文件相关性分析模型能够有效的提升Cappella系统服务的性能。特别的,CoMiner模型最高能够提升系统缓存命中率达到45%左右,提升系统聚合输出带宽达10%左右。