On Manipulating Dynamic Fluctuation Drawbacks in a Virtualized Environment

来源 :青岛大学 | 被引量 : 0次 | 上传用户:x1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
即使在进行云迁移时存在许多大的挑战(例如:安全性和可靠性),但是实用的云计算解决方案已经成为IT领域不容忽视的事实;同时,许多研究者正在接受这些挑战。云计算是一种信息处理模式,在这个信息处理模式中,中央管理的计算能力被作为服务进行交付,根据需要,通过网络传递给各种面向用户的设备。这些服务以基础设施服务的形式、平台服务的形式、软件服务的形式或者网络服务的形式推出。   事实上,云计算已经超出了现有的提供了异构资源访问能力的网格计算技术;当资源提供者不能满足用户的各种要求时,用户通常需要一个能满足他们的特殊要求的环境。而云计算已经被认可为是一种能满足用户各种需求的解决方案,这就使得它在需求满足方面优于网格计算。云计算能满足这些功能需要感谢的,既不是PC零件组成的大型数据中心和网络服务,也不是自动平衡工作量的能力,而是虚拟化。   虚拟化的最简单的形式是通过软件将一个物理设备细分为相同的几个离散的物理设备。虽然它们共享一台服务器的硬件资源,但是他们的工作相互独立没有冲突;结果,这样就减少使用中的硬件数量,提高资源的利用率,提高了不同应用之间的故障和性能的隔离,缓解了虚拟机从一个主机移动到另一个主机的实时或脱机迁移,从而实现对硬件异构性和软件异构性的支持。   Ⅰ.问题陈述   由于云计算的可用性和可扩展性,众多领域都将他们的业务导向了云系统;然而,云系统以快速的负载交换著称,而快速的负载交换导致资源管理进程的失效,在运行一些变化无常的应用程序时尤为明显(即社会网络,网络托管,内容分发)。原始的云提供商,如亚马逊,升阳,谷歌,Salesforce,微软和IBM已经建立了强大的云数据中心用于提供现实世界中的云计算应用服务,如社交网络,游戏门户网站,业务应用(如SalesForce.com),媒体内容交付和科学工作流程。虽然用于数据中心的设备的技术含量较高,但是这样的应用服务于世界各地数以百万计的用户,并定期更新新功能和插件;因此,工作量有时会迅速波动从而产生不利情况,例如,当负载不平衡时,一些云服务器超载而其他服务器则欠载,产生这种情况是因为任务都已经完成或者是因为每个服务器上的剩余资源阻止了来自虚拟机的任何进一步的安排。另外一种情况是在许多情形下出现了热点服务器,是由于某种资源的总利用率(处理器,网络带宽或内存)超过了预定阈值。而且,随着时间的推移,一些用户可能会要求扩大指定的服务,而此时的托管服务器已达到最大负荷。   Ⅱ.可行的解决方案   这个问题可以在两个层次上得到解决,第一个是在每个虚拟服务器上,而另外一个范围很广,可以利用所有的系统节点。   A.内部层次   最近许多研究小组正在积极致力于开发监测和控制的工具,用于跟踪像内存,磁盘和CPU等物理资源,这些方法可以提供大量的虚拟化系统的反馈信息,从而使得系统管理员能够重新调整和配置调度机制以处理不同情况下的工作负荷。   实际上管理程序可以使用许多的监测工具。例如Xen管理程序可以使用Oprofile,XenOprof, Xenmon监测工具;OpenVZ管理程序,如Beanmonitor,Yyabeda,可以使用一个监测工具的集合;然而,使用这些工具来静态甚至动态适应动态变化时,仍然有一些缺陷,因为增加工作负荷时平均轮候时间的增加或减少工作负荷时设备利用率的减少都会导致这些工具的监测性能的退化,直到监测工具的反馈信息与一个预先为CPU或者内存配置的最小/最大启发式值相匹配而触发警报时,这种缺陷才会得到弥补。   管理程序或虚拟机管理器是允许多个操作系统同时运行的虚拟操作平台,被称为允许共享的虚拟机。现在已经有许多商业的和免费的带有不同虚拟化系统开发技术的管理程序,如OpenVZ,z/VM,VMware,VirtualBox和Hyper-V。这些虚拟层次不同的系统在两个方向存在着不同,其中一个方向与运行的虚拟机之间在性能消耗方面的隔离度有关,例如虚拟化和半虚拟化技术,另一个相反方向与操作系统层面的技术性能有关。然而,所有的虚拟化技术之间的共同规则是成功地管理虚拟机之间的资源。此外,这些虚拟化技术有不同;例如,全虚拟化技术需要一个支持虚拟化的处理单元,如英特尔(R)VT或AMD-V处理器,而半虚拟化技术则不需要。   在目前的管理程序中,特别在研究领域,一个共同的管理程序是Xen。它通过虚拟化同一物理机上不同的资源从而为托管多个虚拟机的实现提供了一个功能强大的开源解决方案。此外,它提供了全面的虚拟化技术和半虚拟化技术。在Xen系统中,Xen管理程序是面向物理层的软件层,它负责一个或多个客户操作系统之间的物理资源共享。第一客户操作系统,称为域0(dom0的),当管理程序启动时它也自动启动,它接受特殊管理权限并能在默认情况下直接访问所有的物理硬件,来管理其他附加的客户操作系统,这些客户操作系统在Xen术语中被称为用户领域。   Xen管理程序受到了一些技术限制,如动态资源分配,动态资源分配就是在重新启动机器之前进行资源的静态分配,这些分配在Xen云平台上进行操作,Xen云平台是一个开源的服务器虚拟化和云计算平台,提供能对服务器工作负荷进行整合的Xen管理程序,并能节省电力,冷却和管理方面的成本,从而促进环境可持续发展计算,它有着适应不断变化的IT环境的能力,是一种使用现有硬件的优化,也是一种IT可靠性水平的提高。   显然,这样的模型能帮助克服应用程序的动态变化;然而,当应用阶段的行为非常动态时(如社会网络),反应系统会表现不佳,可能出现罕见的高峰负荷,这种负荷会导致资源平均利用率较低。幸运的是,预测全局模式的行为预测模型是解决此问题可能的解决方案,因此,我们应用这些技术提出令人满意的解决方案。   B.外部层次   迁移代表应对动态变化的一个可采取的解决方案,通过将虚拟机从一台服务器移动到另一台服务器的方式来减轻工作负荷。同时,正如许多研究所提出的,它也可以用来释放卸载的服务器,以节省功耗。实际上,迁移过程通常考虑在数据中心的一个预定义的阈值或在运行的应用程序中的一套SLA的条款,并尝试以贪婪算法处理问题来决定从超载数据中心到负载不足的数据中心的一系列移动或交换的迁移虚拟机的过程,直到匹配的预定义阈值。详细来讲,虚拟机根据其工作量而执行命令,同样的,服务器根据其负载状态执行命令,然后该算法在执行时考虑容量最大的服务器上负载量最大的虚拟机,并考虑这个虚拟机是否能被安置在容量最低(负载量最低)的物理服务器上。   事实上迁移是一个解决工作负载问题的直接解决方案,然而,在迁移过程中,还有其他一些重要因素需要考虑,例如:利用资源来防止虚拟机的调度分配失衡,并且迁移成本基本上取决于虚拟机的大小和传输速率;此外,由于还有其他源自高功率消耗不足或冷却系统故障的重要问题,耗电量成为了另一个重要因素,因为这些问题会导致资源过热,从而降低了系统的可靠性、缩减了设备的寿命。   Ⅲ.我们在内部层次的贡献   VMs资源适配可以是水平收缩(添加新服务器复制和负载平衡器来分配所有可用的复制品之间的负载),也可以是垂直收缩(正运行的实例上资源的即时改变)。实际上,通用的操作系统并不支持在可用处理器或内存中实行即时(没有重启)改变,所以不支持“垂直收缩”。   dvfs技术可以在一定的限制下实现垂直收缩;然而,这需要使用特殊的昂贵的服务器设备和技术,这违背使用商品建设云的趋势。因此,应用程序的行为预测技术可以是一个更好的选择。   A.第一阶段   我们提出一个基于应用行为预测技术的主动模型来预测在云主机上执行的虚拟机(VMs)的未来工作量行为。在提高利用率和降低功耗方面,预测的信息可以帮助系统的动态、积极主动地适应和满足供应商的要求;能根据服务质量(QoS)的要求和动态变化的需求加强和改善服务性能。用CloudSim模拟器测试该模型,实验表明,我们的模型能够避免由动态变化引起的不良的情况,如(高峰负荷,低利用),可以减少能量消耗、过热的损失,资源消耗量平均高达45%。下面列出我们的贡献。   值得一提的是,还有其他类似技术来预测软件的行为,比如最后数值预测和基于表格的预测;然而,我们系统选择应用SMM因为它能同时对基于表和历史因素预测等有效;第一,它能对应用行为的长期全局模式进行建模;其次,预测器可以响应可变长度的模式;第三,它是小波动弹性的观察模式。最后,SMM预测器有自适应能力。这些特点适合云中的多变环境。   大多数现实世界的云计算的应用服务如社会网络,游戏门户网站,商务应用程序(如SalesForce.com),媒体内容交付,科学的工作流,表明工作量的动态变化与使用者在每天,每周,每季度的使用行为密切相关。虽然工作量变动快,这些变化以序列形式重复,可以进行记录与处理,就跟在语言建模中语句的类似处理。不同于语言建模,SMM模型中的样本是实际值。因此,在应用SMM之前,需要对数值进行量化。我们用50位量化二进制代表负荷量增加比例。SMM模型历史在三个历史结构的位置上处理,第一个结构记录(Pattern-Next-Frequency)形式记录不同长度的模式,第二个结构用于记录独一的样品(量化二进制),第三结构计数已被记录的样本。   一个新的样本记录模型有两个步骤,首先用最后记录的数值更新历史,进而预测未来。   实验与结果分析:我们使用CloudSim工具包做了广泛的模拟实验。选择该模拟器理由如下:第一,它不允许实验中出现大量节点。其次,CloudSim支持大多数的云系统架构组件如数据中心,虚拟机;此外,它支持自定义Java接口,易于扩展;此外,最重要的特点,该系统为不同系统构件(如云数据中心)监测和提供信息(利用率,能耗)提供可能性。   实验在E6700奔腾双核CPU,3.19GHz主频,2M二级缓存和2GB内存的机器上进行,机器上运行Windows XP SP3和JDK1.6。   测试模拟环境安装内容包括“PowerDataCenter”“DataCenterBroker;“PowerDataCenter”是一个CloudSim数据中心组件,能利用另外的方法监测电力消耗;“DataCenterBroker“能调度数据中心的主机/服务器上的cloud-lets。   模拟主机的数量接近15000台服务器,每个服务器配置不同大小的内存和不同速度的CPU;此外,根据Xen的安装指导,每一个服务器运行不同数量的Xen虚拟机,不超过32个。   考虑到不同云运行不同的应用有不同的要求及不同负荷的行为,为完成实验我们面临的挑战是如何找到一个模型来模拟现实的工作量分配。   在这项工作中,云工作量分析的目的是以类似于语言建模的方式找到一个带有负载分配变化的云系统;换句话说,对由每天、每周、每季影响的事件重复序列进行负载分配如社交网络、媒体内容网站。   RUPiS(莱斯大学招标系统)是继ebay.com建模的拍卖网站原型,用来评估程序设计模式和应用服务器的性能可扩展性,参考RUPiS,我们成功地在RUPiS客户端仿真器交互方法的基础上建立理想的不同规则的工作量,所有基准测试程序平均分别在7秒和15分钟时产生负指数分布。可以通过改变客户的数量的和主要范围来实现负载的改变。因此,建立了两个可承受的工作量序列来完成实验。具有高重复模式称为序列A,较少重复模式的称为序列B。   对主动模型进行了性能研究并将结果与监测模型进行比较。为此,我们测试了两个基准测试程序。第一,ActiveVmLoadBalancer保持目前分配给每个虚拟机的所有虚拟机和请求数量信息,利用主动监测方法收集,该方法通过CloudSim中的一套监测器完成。   第二个基准是,在检测后,ActiveVmLoadBalaneer保持由主动模型操纵的信息。每个基准运行大约35个小时,序列A在两个基准测试中用作工作量请求。   从结果中,我们有两点发现。第一点,在长期运行的基准测试程序,主动模型的所有报告结果都优于监测模型。第二点,在最初的第三个实验时间,监测模型的性能优于或接近表现积极的模式,这可以直接解释为积极的模式在开始预测前需要一个学习时期。   总之,结果表明,云模拟系统中预测下一个单个样品的负载量,可以避免6310个高峰负载的发生,降低能耗,过热和资源浪费损失高达45。   B.第二个阶段   我们的实验尽可能地在更实际的环境中进行。复制相同的方法,创造一个积极的虚拟环境资源的工作量管理模型,分析虚拟机工作行为,采取适当的调度方案和资源分配,以提高系统的利用率,吞吐量和响应时间。   许多研究强调虚拟环境下的不同应用的性能退化,如数据库应用程序,mapreduce,并行应用,这种退化基于应用程序本身和运行环境。   据我们所知,大多数研究通过加强不同的资源调度方法试图找到解决方案,而有些利用当前硬件技术的力量试图找到其他解决方案;相反,仅有少量的研究致力于预测技术,这里将总结一些相关的研究工作。   在动态应用行为的情况下,基于检测工具的反应系统表现不佳,可能导致罕见的高峰负荷驱动,降低了资源的平均利用率。   一些管理程序试图通过不同的调度技术减轻这种行为的负面影响,如Xen团队设计的称为信用计划的调度器,尽量减少时间的浪费。这是一个“连续工作”计划,因为无论何时有工作要做,它都试图确保处理器工作。结果是,如果有比 domUs更现实的CPU,所有domUs能获得所有CPU想要的。当domUs想要比实际存在域中调度仲裁的CPU时,就会发生争议。然而这并不能解决问题,因为资源直接互相影响,如果一个虚拟机提供电源和内存不足,该问题仍然存在。   我们的目标是建立一个积极的工作量管理原型来观察VMs工作量行为,如CPU工作量,内存工作量,I/O点击率,并记录不同长度执行模式的动态变化,然后用Statistical Metric Modeling(SMM)分析记录的模式。这有助于早期采取正确的决定,根据分析结果调整虚拟资源。下面列出我们的贡献:   1.用积极监测管理工作量方法,研究由处理工作量的变化造成的性能退化。   2.提出了一种新的虚拟机主动管理工作量模型,分析长期工作行为和执行基于预合适的资源管理规划的动态调整,而不是一套启发式规则,其有两个关键优势:1)在需要前调整资源,确保能永远表示适当性能。2)在影响运行操作前发现任何业务问题,从而可以采取替代措施处理情况。   3.比较主动监测模式与主动模式的系统性能。   4.通过Xen管理程序的一套基准测试程序进行广泛实验来评估提出的模型   实验结果分析:我们创造不同的实验,按以下顺序:   1.找出最适SMM参数的值。   2.主动模式与监控模式的性能比较。   3.研究VMs之间的资源共享对模型性能的影响。   实验在2.13 GHz Intel Xeon e55068芯片,8MB三级高速缓存,和8G DDR3内存上运行,1.1版Xen云平台,打包版的Linux CentOS5(Linux内核v2.6.32),结合3.4.2版Xen,和XenAPIweb服务,为Xen组件提供管理API,Xen组件被多种管理工具所使用。   基于VM的环境中,部署了三个运行rhe15.5与核2.6.18的虚拟机,都安装在半虚拟化基础之上,每个虚拟机以指定的目标模式配置2 GB。考虑到基准测试程序,再次采用RUBiS,建立两个序列来代表工作量序列。   在模拟部分,我们使用的模型如之前描述的一样。通过修改现有的管理程序和评估不同基准的代表,实现了提出的模型。评估显示,该模型可以减少29%的平均等待时间。   Ⅳ.我们在外层的贡献   虚拟机迁移是一种克服动态波动缺点很有前途的解决方案,是基于单目标的算法,通常服务水平协议(SLA)用作直接迁移;反之,在迁移进程中(即负载量,功耗和资源的浪费)存在不同的互相冲突的目标。   许多研究利用虚拟机迁移来提高单一目标的效率,如收缩资源,节省电力消耗,提高资源的利用率。与之相反,较少研究致力于多目标实现的方法。除此之外,他们的工作中还存在一些缺陷。   在这项研究中,将迁移过程视为一个多目标问题,且目标不可相互比较。因此,我们提出一个新的由多目标优化策略巩固的迁移策略,来评估不同的目标,包括迁移成本,提供足够的灵活性来实施的不同情形。此外,使用CloudSim模拟器进行一套密集的实验验证该策略,迁移目标调整到适当的情形,控制系统的统计数据,结果确保了的政策效率,这项工作的贡献归纳如下:   1.据我们所知,这是第一次同时考虑同时云环境中的动态波动工作量,尤其是大规模的云数据中心和迁移成本。因此,该模型可以最大限度地减少迁移开销使其适用于实践。   2.我们研究了使用不同的单目标的效率,表示出使用多目标评价的影响,找到一个最佳的解决方案,可用于控制和处理不同的情况。   3.我们提出了一种新颖的基于SBG MOGA算法的多目标优化策略和增强,由加权切比雪夫法(AWTP)完成,为不同的目标调整迁移过程选择提供了灵活的方式,有助于对不同的工作量情形找到适当的迁移决策。   4.使用CloudSim仿真包进行一套密集的实验来评估该模型。   模型说明:假设所有VM是一套可能的迁移过程的一部分,由遭受工作量情况(过热,即工作量热点,或增加资源浪费)之一的源节点托管。在模型中,决定选择一个或多个VM的子集迁移到其他目的地节点取决于两个阶段的评价。   第一阶段:在基于SBG-MOGA可用的VM中,找到一个不受支配的最优迁移的VM集合,然后用AWTP公式对最佳集合进行排列同时选择在以下目标值中具有最佳排名的VM:一,负载量。二,功耗。三,热状态,第四,资源浪费,五,迁移成本。   第二阶段:评估迁移背后的主要目标。在这方面,我们考虑CPU使用率和内存使用情况,这反映在源节点的资源使用效率,功率效率和温度效率。   如果选定的虚拟机的迁移满足目标,程序终止,否则,程序将选定的VM移到迁移名单,更新VM行列,选择另一个VM,重复以上动作,直到满足目标。   SBG-MOGA是一种基于静态Bayesian博弈策略的新型MOGA。在SBG-MOGA中,每一代的进化被视为一场比赛,每个要优化的目标视为一个球员。球员足够聪明地知道如何选择一个合适的策略,在游戏中得到的最大收入。该算法包含一系列回合,在每一轮中的球员相互玩,这将提供有拉力的人,将他们拉向真正的Pareto前沿;此外,采用精英教育机制,见算法。   值得一提的是,在我们的情况中,问题方面所有运行的虚拟机将被视为初始化的种群,代表迁移问题决策空间。选择SBG-MOGA是因为它优于所有现有的多目标优化算法,通过6个基准函数将它与具有代表性的算法做一个比较就可以得出。   实验结果分析:我们使用相同的系统的配置,其在内层解决方案的第一阶段实验前已描述过。   测试模拟环境安装内容包括“PowerDataCenter”CloudSim数据中心组件,提供额外的方法来监测电力消耗,和“DataCenterBroker“来调度数据中心的主机/服务器上的cloud-lets。模拟主机的数量接近60,000台服务器,每个服务器配置不同大小的内存和CPU速度;此外,根据Xen的安装指导,每一个服务器运行不同数量的Xen虚拟机,不超过32个。   实验的目的是测试基于不同的个人目标选择迁移进程的影响,并将结果与基于多目标评价比较,表现出所提出的迁移政策的效率,控制迁移后云系统统计数据到理想水平   为了完成模拟,产生一个高达60万GB的迁移虚拟机的集合。迁移进程是评价在各个不同的单一目标的地方,如功耗,负载量,热状态,资源浪费,迁移成本评估过程;接着,用多目标的策略(MOP)来评估这个迁移过程,然后记录每个案例的统计数据。   初看,结果表明最有效的评价目标分别是资源浪费,负载量和MOP。与选择其他的目标,基于资源浪费的虚拟机迁移最小化目标总数百分比。然而,这对有些标准却是很有欺骗性的,如取决于内存的负载量,网络和CPU利用率,同时资源浪费取决于使用的内存,网络和CPU之间的差异。因此,资源浪费尺寸之间的最小差异可能导致在这些方面中之一的不良增加,结果也同样提高了负载量。   另一方面,模型迁移的统计结果似乎对选定的目标服务器的统计信息不是最具有效影响,如果在MOP数据计算过程中设置Utopia/desired的内存利用率为75%,其效果会更明显。减少整个系统的资源浪费,而不是超出选定目标的资源浪费,避免选择低内存利用率的主机,终止和释放运行中的主机,以节省更多能源。   结果表明,基于我们的算法的模型能通过预定义的Utopia/desired值,为所选择的目标服务器在各个目标中获得最小距离换句话说,我们所提出的模型提供了很大的控制,选择最理想的迁移过程,同时考虑所有的客观标准。   此外,为了检查迁移量对结果的影响,就不同数量的迁移虚拟机进行实验。首先,对迁移后的统计数据,根据一些标准,如LV,RW和AWTP进行地选择记录了较少迁移量的增加,相反,PC和MC记录较少的统计数据。
其他文献
随着数据业务和多媒体业务在社会生活中应用的日益频繁,基于位置的服务(Location-Based Services,LBS)在人们的需求中呈现出明显的上升趋势。尤其是在地下停车场、机场大厅、
数据挖掘是对观测数据集的分析,以便找到对应模型并且用新的更容易理解和使用的方式总结数据。以时间顺序抵达的数据,在许多其他的领域都有出现,如物理学,金融学,医学和音乐等。时
近些年,人脸识别技术已成为了模式识别领域中的一个热点,其试图赋予计算机根据人物面孔去辨别其身份的能力,该研究具有重要的理论价值和广阔的应用前景。人脸是人类最重要的生物
DTN网络(Delay/Disruption Tolerant Network)是一种新型网络。相比于传统的基于TCP/IP协议的网络(如Internet), DTN网络中节点移动无规律、节点间连接间断,使得网络的消息传
近年来,为保障国内制造业的可持续发展,进一步优化资源配置,云制造的概念被提出,它将云计算的先进理念同信息技术、物联网和制造业有机结合了起来,为用户提供按需使用的高效、廉价
粗糙集理论作为智能信息处理的一种重要方法,由波兰科学家Pawlak首先提出,引起大量学者关注并对其开展研究。在研究过程中,学者们为了打破粗糙集应用场景的局限性,提出了一系
图像分割是图像处理和计算机视觉研究领域中的一个经典问题,是图像处理过程中一个极为重要的环节。也是实现图像处理到图像分析之间的关键步骤。目前,图像分割技术已被广泛应用
随着中国移动网络规模不断发展,已经形成完备的基础无线城市网络结构,伴随WLAN用户数量不断扩大,智能手机的普及,运营商大数据流量时代已经来临。在此过程中,网络技术也在不断更新
随着道路基础设施建设速度满足不了机动车增长速度的矛盾日益突出,交通信息化建设成为缓解该矛盾的关键。交通流量是实现交通信息化的基础,实时、准确的短时交通流预测信息对实
RFID(RadioFrequencyIdentification)技术是基于电磁信号检测的无线电通信技术,利用无线射频方式进行非接触的双向通信,以达到识别移动物体的目的。RFID标签具有体积小、容量大