论文部分内容阅读
Web缓存技术是提高Web性能的一种有效方法。Web缓存管理是Web缓存技术的核心问题,研究Web访问特征的数学模型是有效进行Web缓存管理的基础。通过对Web用户的行为跟踪,对Web对象访问特征的深入研究分析,发现Web对象访问具有以下几个共同特征:(1)web对象流行度满足Zipf定律;(2)Web对象大小服从重尾分布;(3)Web对象访问具有局部性特征等。访问局部性特征对缓存和预取系统的性能和设计方面有很大的影响。网络访问的局部性特征包括时间局部性和空间局部性,利用数学建模方法研究局部性特征对于缓存和预取系统的设计及性能提高具有重要的作用。通过分析和讨论,本文利用信息熵和变异系数建立了网络流量局部性特征新的度量方法,信息熵比Zipf定律更能反映访问流的时间局部性,变异系数则解决了访问流的相同文档间的空间局部性建模问题。实验和分析表明这些参数能较好地描述网络访问流的局部性特征,而且易于使用。Web日志生成模拟器可以按用户指定的Web访问特征生成模拟日志,为研究Web缓存系统性能提供了理论基础。本文通过分析Web对象访问特征,采用数学模拟方法分别模拟了Web对象流行度特征、Web对象大小重尾分布特征以及Web访问的时间局部性特征,设计并实现了一个Web流量特征模拟生成器WebSimGen,并通过实验验证了这个模拟器的有效性。基于两层代理缓存结构,利用模拟生成的日志,用ADF模型(Aggregation、Disaggregation和Filtering)对模拟Web流量的访问特征和性能进行测试,实验结果表明模拟日志具有和真实日志类似的特性。本文还利用WebSimGen模拟器生成的访问日志以及真实的访问日志对常用的Web缓存替换算法(LRU,LFU,GDSF)进行了细致的性能评估,通过实验进一步证明:在两层代理缓存结构中,当低一级缓存用LRU或LFU替换算法时,高一级的缓存用GDSF替换算法能达到比较高的命中率。由于该流量模拟器具有较大的灵活性,其为进一步提高Web缓存性能和预取技术的研究提供了重要依据。