论文部分内容阅读
Web应用是Internet上的主要应用。Web应用具有信息量多、结构复杂、负载重等特点。研究表明,Web已经成为Internet应用的瓶颈。研究Web加速具有重要意义。Web加速技术,包括Web缓存和Web预取,是实现网络加速的重要技术。
本文重点研究Web加速关键技术,并据此设计了一种分布式Web加速器。本文对Web加速关键技术的研究,始终以减轻服务器负载、降低网络拥塞、减少访问延迟为主线,以Web加速技术和应用为主要内容,深入讨论了Web缓存和Web预取技术的现状和存在的问题,详细分析了Web业务和Web对象访问特征。从微观算法与宏观体系结构的角度对Web加速技术和应用进行研究。
目前,基于Web加速技术存在着各种不同的问题。首先,现有的缓存结构存在命中率较低、访问延迟较大等缺陷;缓存间的副本保存方法、通信协议、替换策略、对象定位、负载平衡等效率不高。其次,现有的预取算法和预测模型还不能很好的解决既减少访问延迟,又要控制网络流量增加的矛盾;大部分Web挖掘算法性能低,挖掘结果的质量差且缺乏语义。再次,传统DNS存在解析时间长,来回折返次数多、查询流量大等问题。以上这些问题都很大程度地影响了Web应用的质量和性能。
本文针对当前基于Web加速技术中存在的问题,在宏观上,设计了一个组件化的多层次的树型分布式Web加速体系结构框架,设计并实现了树型加速器的逻辑模型、物理分布模型和树型分层实现模型,以及DNS查询加速器系统;提出了基于剪枝技术的PPM预取模型、基于多规则集校正的预测模型。并在此之上,从微观算法的角度提出了针对不同模型的对象定位、负载平衡、层次缓存优化、查询过滤、文件替换、文件分布、预取、DNS查询加速等方面的算法。为网上用户提供比现有Web服务更高的加速服务。
本文在上述几个方面展开研究,主要工作和创新点如下:
1.在宏观上,通过树型FuseGrid网格和协同缓存技术的有机融合,提出了树型分布式Web加速器体系结构,给出了树型加速器的逻辑模型、物理分布模型和树型分层实现模型。形式化描述了加速器节点和接口规范。根据FuseGrid的特点,将树型加速系统分为垂直系统和水平系统,垂直系统反映了父子之间的上下层次关系,提供存储和转发请求功能;水平系统反映了兄弟之间的对等关系,承担着重要的缓存和网络负载。它将地域上分布的多个代理缓存服务器组成树型加速系统,充分利用缓存资源,协同工作,它以树结构来组织加速器节点和集成各种资源,实现了自底向上、多级、面向需求的资源抽象和多种资源融合。它实现了加速器系统的层次化管理,减轻了中心节点的负载并实现大规模应用的负载平衡,提高了资源查找效率。该网络加速器为日益增长的网格应用提供了新的解决方案。
2.基于垂直系统提出了放大查询范围减少访问延迟,增强层次连接提高容错性,使用动态双亲实现负载平衡等关键技术,实现了层次缓存元算法改善垂直系统缓存性能。基于水平系统利用ICP查询过滤器减少水平系统网络流量。从微观算法的角度,提出了采用BloomFilters快速定位目标文件;提出了LRU-MAX算法,实现高效的文件替换,并与LRU-MIN算法进行了比较分析。
3.通过分析文献[135]提出的基于缓存生存期的文件分布算法(简称EA算法),指出它的优点和存在的缺陷,提出了适合本文加速器体系的改进的树型结构EA算法,接着定量分析了EA模式和传统模式。然后,在树型加速器中基于两种模式进行了试验和结果分析,实验证明,EA模式在累积命中率、累积字节命中率和平均延迟方面要好于现有的传统模式。说明EA文件分布模式可提高整个加速系统的缓存空间利用率、增加文件命中率,减少访问延迟。
4.从DNS进一步加强Web加速,提出了基于失效TTL再生策略的DNS查询加速算法,可提高查询速度,实现快速域名解析。所设计的DNS查询加速器相比于传统DNS服务器,通过对具体网站进行性能测试,在缓存命中率、网络流量、CPU负载和DNS查询响应时间等方面都具有很优异的性能,达到了良好的加速效果。
5.基于Web浏览特征提出了基于剪枝技术的PPM预测模型。模型在构造过程中,利用描述用户浏览深度特征的逆高斯分布及Web流行度特征,对噪声页面及过期数据进行动态移除,分别从纵向和横向上对PPM预测模型规模进行控制。实验表明,模型对噪声数据的影响有较大的改善,能较好地动态预测用户的Web浏览特征,在一定程度上,不仅提高了预测准确率、降低了存储复杂度,而且有效控制了由预取引起的网络流量。
6.现有的基于关联规则的WEB日志挖掘方法的主要问题就在于只能处理连续的序列形式,即预测结果仅仅依赖于相邻的访问序列,而且这些序列必需是连续的,中间不允许出现间隔,在一定程度上影响了预测的精度。将R_Apriori算法应用于Web日志挖掘中关联规则提取和关联规则校正上,该方法能够处理非连续序列的预测问题,提出了基于多规则集校正的实时预测模型,应用预测模型对用户的访问行为进行预测。实验证明,该模型具有较高的预测精度。