Web加速关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:Johnnywang03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web应用是Internet上的主要应用。Web应用具有信息量多、结构复杂、负载重等特点。研究表明,Web已经成为Internet应用的瓶颈。研究Web加速具有重要意义。Web加速技术,包括Web缓存和Web预取,是实现网络加速的重要技术。 本文重点研究Web加速关键技术,并据此设计了一种分布式Web加速器。本文对Web加速关键技术的研究,始终以减轻服务器负载、降低网络拥塞、减少访问延迟为主线,以Web加速技术和应用为主要内容,深入讨论了Web缓存和Web预取技术的现状和存在的问题,详细分析了Web业务和Web对象访问特征。从微观算法与宏观体系结构的角度对Web加速技术和应用进行研究。 目前,基于Web加速技术存在着各种不同的问题。首先,现有的缓存结构存在命中率较低、访问延迟较大等缺陷;缓存间的副本保存方法、通信协议、替换策略、对象定位、负载平衡等效率不高。其次,现有的预取算法和预测模型还不能很好的解决既减少访问延迟,又要控制网络流量增加的矛盾;大部分Web挖掘算法性能低,挖掘结果的质量差且缺乏语义。再次,传统DNS存在解析时间长,来回折返次数多、查询流量大等问题。以上这些问题都很大程度地影响了Web应用的质量和性能。 本文针对当前基于Web加速技术中存在的问题,在宏观上,设计了一个组件化的多层次的树型分布式Web加速体系结构框架,设计并实现了树型加速器的逻辑模型、物理分布模型和树型分层实现模型,以及DNS查询加速器系统;提出了基于剪枝技术的PPM预取模型、基于多规则集校正的预测模型。并在此之上,从微观算法的角度提出了针对不同模型的对象定位、负载平衡、层次缓存优化、查询过滤、文件替换、文件分布、预取、DNS查询加速等方面的算法。为网上用户提供比现有Web服务更高的加速服务。 本文在上述几个方面展开研究,主要工作和创新点如下: 1.在宏观上,通过树型FuseGrid网格和协同缓存技术的有机融合,提出了树型分布式Web加速器体系结构,给出了树型加速器的逻辑模型、物理分布模型和树型分层实现模型。形式化描述了加速器节点和接口规范。根据FuseGrid的特点,将树型加速系统分为垂直系统和水平系统,垂直系统反映了父子之间的上下层次关系,提供存储和转发请求功能;水平系统反映了兄弟之间的对等关系,承担着重要的缓存和网络负载。它将地域上分布的多个代理缓存服务器组成树型加速系统,充分利用缓存资源,协同工作,它以树结构来组织加速器节点和集成各种资源,实现了自底向上、多级、面向需求的资源抽象和多种资源融合。它实现了加速器系统的层次化管理,减轻了中心节点的负载并实现大规模应用的负载平衡,提高了资源查找效率。该网络加速器为日益增长的网格应用提供了新的解决方案。 2.基于垂直系统提出了放大查询范围减少访问延迟,增强层次连接提高容错性,使用动态双亲实现负载平衡等关键技术,实现了层次缓存元算法改善垂直系统缓存性能。基于水平系统利用ICP查询过滤器减少水平系统网络流量。从微观算法的角度,提出了采用BloomFilters快速定位目标文件;提出了LRU-MAX算法,实现高效的文件替换,并与LRU-MIN算法进行了比较分析。 3.通过分析文献[135]提出的基于缓存生存期的文件分布算法(简称EA算法),指出它的优点和存在的缺陷,提出了适合本文加速器体系的改进的树型结构EA算法,接着定量分析了EA模式和传统模式。然后,在树型加速器中基于两种模式进行了试验和结果分析,实验证明,EA模式在累积命中率、累积字节命中率和平均延迟方面要好于现有的传统模式。说明EA文件分布模式可提高整个加速系统的缓存空间利用率、增加文件命中率,减少访问延迟。 4.从DNS进一步加强Web加速,提出了基于失效TTL再生策略的DNS查询加速算法,可提高查询速度,实现快速域名解析。所设计的DNS查询加速器相比于传统DNS服务器,通过对具体网站进行性能测试,在缓存命中率、网络流量、CPU负载和DNS查询响应时间等方面都具有很优异的性能,达到了良好的加速效果。 5.基于Web浏览特征提出了基于剪枝技术的PPM预测模型。模型在构造过程中,利用描述用户浏览深度特征的逆高斯分布及Web流行度特征,对噪声页面及过期数据进行动态移除,分别从纵向和横向上对PPM预测模型规模进行控制。实验表明,模型对噪声数据的影响有较大的改善,能较好地动态预测用户的Web浏览特征,在一定程度上,不仅提高了预测准确率、降低了存储复杂度,而且有效控制了由预取引起的网络流量。 6.现有的基于关联规则的WEB日志挖掘方法的主要问题就在于只能处理连续的序列形式,即预测结果仅仅依赖于相邻的访问序列,而且这些序列必需是连续的,中间不允许出现间隔,在一定程度上影响了预测的精度。将R_Apriori算法应用于Web日志挖掘中关联规则提取和关联规则校正上,该方法能够处理非连续序列的预测问题,提出了基于多规则集校正的实时预测模型,应用预测模型对用户的访问行为进行预测。实验证明,该模型具有较高的预测精度。
其他文献
一致性的数据是指客观世界同一事物状态的数据,不管出现在何时何处都是一致的,正确的,完整的。对于备份系统,备份数据能否具有一致性或者说是高可用性是备份系统设计成功与否的关
三层交换技术将传统的二层转发和路由技术结合起来,特别适合汇聚层的需要。它拥有二层交换的高速数据处理能力,交换带宽可达30Gbps以上,同时能像路由器那样处理三层报文。虽
随着互联网行业和嵌入式行业的迅猛发展,Linux的安全问题也显得日益重要。Linux系统上的rootkits技术的研究也显得日趋紧迫,因为它比用户级rootkits杀伤力更强,隐蔽性更高,技
学位
随着科学技术高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,在知识工程的研究领域中占有极其重要地位与作用。 如何从大量相关信
随着航天技术的飞速发展,合成孔径雷达(SAR)的应用越来越广泛,SAR图像的分析处理也备受关注。但由于SAR成像复杂、数据量大、及乘性噪声的干扰,SAR图像处理比常规图像处理更加困
地籍管理是土地管理的核心,是国家行政管理措施之一,是强化土地管理的基础性工作。地籍信息管理系统是土地信息系统的重要组成部分,是地理信息系统技术在地籍管理中的应用。地籍
学位
随着图像信息的日益普及,图像在很多领域都有非常重要的作用。然而在对图像信息进行处理的过程中,由于种种原因,其质量有可能受到损害,噪声就是其中之一。因此为了后续更高层次的
目前电信行业竞争的日益加剧,基础网建设的竞争优势逐渐减弱,运营商更多的关注如何利用现有的资源,通过提高管理水平、运营能力,对用户提供灵活、可靠的业务。近年来,随着网
随着信息时代的到来,数据之多使人如坠茫茫数据之海,有用、无用、正常、异常的数据常常掺杂在一起,真伪难辨。企业在发展过程中,也积累了大量的纷繁复杂数据,如何利用这些数据来指