论文部分内容阅读
摘要:本文对于近几年新兴的计算方式——云计算做了详细的介绍,以及对基于这种计算方式下的分布存在有怎样的关键技术。同时阐述了随着计算机的发展此项技术已经应用于各项领域,并为各个领域的发展起到了越来越多的良性影响。
关键词:云计算;分布存储;影响
中图分类号:TP333 文献标识码:A 文章编号:1007-9599 (2012) 23-0000-02
近些年来,计算机的发展对各个行业的影响给人们的生活带来了日新月异的变化,越来越多的通过计算机带给大家的影响已经植入到大家生活的各个角落。今天我们重点来说一下基于云计算下的分布存储关键技术都有哪些。首先来看一下什么是云计算。
1 概述
所谓云计算指的是为了适应当今大量数据需要存储和计算而且现金的通信技术飞速的发展而产生的一种全新的可以共同去分享基本的资源的一种用来计算的模型,它被业内人士赞誉为具有革命性里程碑的一个计算模型。云计算依托于互联网,将互联网做为中心,摒弃了之前的以个人计算机为中心的原始方式,去建立若干个个人计算题同大量网络设备相连所形成的一个非常庞大的数据中心,数据中心用来存储整个系统的把大量数据,这个数据中心的作用是上一层的应用以及服务去提供出既可靠又安全同时便捷和快速、透明的在计算上的服务以及实现各种数据的准确存储。整个云计算的重要基础我们可以看出来是数据中心,使用此系统各个企业通过操作数据中心来实现各种业务上的操作,我们来看一下各个机构的作用都是那些,首先服务提供商:盈利是依赖的是通过数据中心来获取各种服务。内容提供商:盈利是依赖的是通过数据中心来获取内容;
对这些存储在由若干个个人计算题同大量网络设备相连所形成庞大数据中心的大量数据是如何去进行组织、存储并进行管理,以达到可以向上一层应用提供出符合可靠、安全、高效、可扩展的等等诸多要求的各种数据存储服务就是本文题目所说的云计算环境下的分布存储技术,想要实现此服务建立一个稳定的网络中心是一个必要的条件,同时好的硬件设施也是一个前提条件。
2 基于云计算环境下的分布存储技术产生的背景
在今天各种依托这计算机技术而高速发展的信息处理技术、通信类技术也以前所未见的速度进行发展。这样大量的数据单单存放于独立的计算机上已经无法满足大量数据需要进行存储和处理的要求,所以基于云计算环境下的分布存储技术应运而生。通过运用此技术各类的用户节省了大量硬件存储费用。仅仅是租赁和购买互联网上的数据存储空间来实现自己的数据存储。企业通过分析自己的需求来访问互联网上计算机及存储系统已经实现了。
我们来看一下大量的数据是如何被存储于互联网上的,在整个云计算的条件下,数据中心具有不同的节点,大量的数据存储于各式的节点上,也可以是不在同一数据中心上,数据中心会将数据组织方式和位置提供给客户,服务商会提供给用户一套非常容易操作的使用接口,通过使用接口可以向数据中心去执行存取数据。提供商所要负责的是数据整个体系的可用性和可靠性。云计算的最大优点就是用户没有必要再去构建一个独立的数据中心,这样用户节省了很多成本,用户只是根据企业的需求去付费,就可以非常方便地把自己所要使用数据存储在所租用的数据中心中。在有需要的时候通过向数据中心提交申请和输入自己的口令,便可以得到自己之前存储在数据中心中的数据。
3 基于云计算环境下的分布存储技术的关键技术
3.1 容易产生错误
一些之前经常被使用的高性能服务器、用来专门提供存储的设备还有具有raid技术等等可以纠正错误的方法需要支付大量的费用,这样云计算的提供商就无法在利润上得到满足,同时整个数据中心具有相当大的节点规模这都使数据的失效概率在一定程度上提供了。所以在云计算这样环境下,失效也会经常出现。我们来看一个报告,在一个企业的数据中心当中,平均每一个工作任务在运行的过程中就会有4个节点会失效,在这个工作任务的数据中心中拥有有3200个节点,平均经过5个小时一个磁盘就失效了。整个问题不仅会让云服务提供商在信用上受到损失同时用户也会收到巨大的损失。这样的容易产生错误的行为已经成为了云计算环境下分布存储所要必须解决的一个问题。在整个云计算的环境下要想要提高整个数据系统的准确性和稳定性,不仅仅只是解决各个数据节点之间的关系,来将数据节点的物理拓扑结构容易产生错误的几率降低同时还要对存储在数据节点上的数据的管理和组织进行研究,来达到使数据提高稳定性的目的。
3.2 可扩展性
在之前的以个人计算机为主的数据存储方式提高其可扩展性的方式大部分都是通过一个冗余的预留磁盘来达到可扩展的目的,这种传统的方式在之前的数据量上是能够确保可以有充足存储空间的。然而,云计算下的数据中心的数据规模是非常大的,通常会有上几万或许达到几十万,这事实上都是存在的;除此之外,在数据中心中数据的存储计量都是以PB甚至EB去计量,数据中心的规模和整个存储的数据规模必然会随着应用的拓展而不断的增大。所以,无论是哪一个提供商的数据中心没有办法通过传统的方式在建立的时候就进行预留。举个简单的例子,某公司现在全世界的数据中心有40个,仅是一个数据中心数据节点就可以达到几百万个在本世纪的上个年代在美国的一个城市建立了世界上规模最大的模块化数据中心,服务器的数量一年零两个月就会翻倍增长,这样的速度已经超过了之前的摩尔定律的增长速度。具有如此大的规模同时还在不断、快速增长的速度对整个存储系统的可扩展性的要求提出个非常高的要求,通过上面的论述我们可以看到用户对数据中心的存储硬件要求要有非常好可扩展性,同时对数据的组织结构也具有同样的要求,只有这样磁能不断的适应这个数据存储的要求,最后达到客户的要求。
3.3 在成本上的控制
在以个人计算机为主进行数据存储的时代,由于分布存储的数据规模较小节点数量也相当较少,所以没有过多的考虑能耗的问题,同时各个企业都是非常重视效率以及可靠性方面的问题,所以在这个问题上都不会吝啬成本的。基于云计算下的分布存储的规模实在是太大了,而且随着应用的范围越来越大规模也巨大,也就是说在能耗上的开销更大。在设备运转的时候会产生大量的热能,所以还要增加制冷设备的开支。比如在计算机发展的比较快的美国,在本世纪初的五年当中,数据中心的在能量上的消耗整个翻了一番。降低能耗的另外一个好处是可以使数据中心的硬件设备提高他们的运行寿命,也就是说将数据中心的一些在硬件上的成本降低了。实际上云计算提供商它的盈利手段就是依靠服务,可以将硬件的成本降低也是获取更多利润的一个手段,而且又可以保护环境,所以节能已经是成本控制的一个关键点。 4 基于云计算环境下的分布存储技术的结构
4.1 以交换机为中心的结构
在之前的,一些企业当中自己的数据中心。大都是围绕一个交换机,将它作为整个数据中心是中心实施网络构建,交换机将服务器连接在一起,交换机的任务就是对数据包进行转发,服务器的功能就是将存储的数据进行处理。
这样的传统结构大多是采用树型结构,一共有三层分别是聚合层、边缘层和核心层。树型结构的最大特点就是非常直观,操作起来简单、方便,而且连接和实现很容易起来。同时还具有容易扩展的特点,尽管有上述的优点,但是也不可避免的有很多缺点:例如说整个链路的带宽在容量上是被限定的,现在对于带宽的要求越来越大,所以现在的链路带宽无法满足整个数据中心的数据传输;在整个系统中灵活性不高、处在下层服务器使用频率低;作为整个结构的一个中心交换机却不能被充分利用,系统的交换机设备都是一个主机加上一个备机,这样当一个交换机出现问题的时候不会导致所有的服务器都无法工作。这种结构在某些程度上是使系统的可靠性提高了,但大多的时间都是有一个设备在闲置;对通信的需求没有办法满足。
4.2 以服务器为中心的结构
这样的结构同传统的结构不同并没有交换机以及路由器等设备,而是以服务器为中心,系统会给每台服务器都配置一些网卡来组成一个互联设备,转发数据的工作是由服务器所负责的,这样的结构虽然很简单,缺点就是链路冗余。两种结构各有各的优点和缺点,所以将两者的优点结合在一起才是最好的结构,于是混合结构就产生了,混合结构使用交换机数据中心的节点相连接,而且每个服务器都会配置一些网卡,服务器同时会参与数据包转发、路由两个功能。
5 结语
现在云计算不仅被广泛应用于科学计算当中同时再商业计算等一些领域有有着广泛广泛的应用。基于云计算下的分布存储需要是问题就是要解决目前大量数据被分布存储那个对整个系统的容错性、可扩展性以及低成本等等关键的技术。所以说,研究人员对数据中心的一个网络拓扑结构要进行进一步的研究,将之前所说的基于云计算下的分布存储的关键问题进一步提升。在这里涉及到的技术方法会有很多,目前这些技术很多人都在研究但是要想实现全部的设想还是有一段的距离的。本文对关键技术进行了分析,并提出了这些关键技术上还存在那些急需解决的问题,最后给出了研究者们未来的方向是什么。
参考文献:
[1]郑纬民.云计算的大幕已经拉开[J].中国计算机学会通讯,2009,5(6):6—7.
[2] lan Foster,Yong Zhao,loan Raicu,et a1.Cloud Computingand Grid Computing 360一Degree Compared [C]//Proceed·ings of IEEE Grid Computing Environments workshop(GCE08).USA:IEEE Computer Society。2008:I—10.
[3]刘鹏.云计算的定义和特点.中国云计算[EB/OL],2009.
关键词:云计算;分布存储;影响
中图分类号:TP333 文献标识码:A 文章编号:1007-9599 (2012) 23-0000-02
近些年来,计算机的发展对各个行业的影响给人们的生活带来了日新月异的变化,越来越多的通过计算机带给大家的影响已经植入到大家生活的各个角落。今天我们重点来说一下基于云计算下的分布存储关键技术都有哪些。首先来看一下什么是云计算。
1 概述
所谓云计算指的是为了适应当今大量数据需要存储和计算而且现金的通信技术飞速的发展而产生的一种全新的可以共同去分享基本的资源的一种用来计算的模型,它被业内人士赞誉为具有革命性里程碑的一个计算模型。云计算依托于互联网,将互联网做为中心,摒弃了之前的以个人计算机为中心的原始方式,去建立若干个个人计算题同大量网络设备相连所形成的一个非常庞大的数据中心,数据中心用来存储整个系统的把大量数据,这个数据中心的作用是上一层的应用以及服务去提供出既可靠又安全同时便捷和快速、透明的在计算上的服务以及实现各种数据的准确存储。整个云计算的重要基础我们可以看出来是数据中心,使用此系统各个企业通过操作数据中心来实现各种业务上的操作,我们来看一下各个机构的作用都是那些,首先服务提供商:盈利是依赖的是通过数据中心来获取各种服务。内容提供商:盈利是依赖的是通过数据中心来获取内容;
对这些存储在由若干个个人计算题同大量网络设备相连所形成庞大数据中心的大量数据是如何去进行组织、存储并进行管理,以达到可以向上一层应用提供出符合可靠、安全、高效、可扩展的等等诸多要求的各种数据存储服务就是本文题目所说的云计算环境下的分布存储技术,想要实现此服务建立一个稳定的网络中心是一个必要的条件,同时好的硬件设施也是一个前提条件。
2 基于云计算环境下的分布存储技术产生的背景
在今天各种依托这计算机技术而高速发展的信息处理技术、通信类技术也以前所未见的速度进行发展。这样大量的数据单单存放于独立的计算机上已经无法满足大量数据需要进行存储和处理的要求,所以基于云计算环境下的分布存储技术应运而生。通过运用此技术各类的用户节省了大量硬件存储费用。仅仅是租赁和购买互联网上的数据存储空间来实现自己的数据存储。企业通过分析自己的需求来访问互联网上计算机及存储系统已经实现了。
我们来看一下大量的数据是如何被存储于互联网上的,在整个云计算的条件下,数据中心具有不同的节点,大量的数据存储于各式的节点上,也可以是不在同一数据中心上,数据中心会将数据组织方式和位置提供给客户,服务商会提供给用户一套非常容易操作的使用接口,通过使用接口可以向数据中心去执行存取数据。提供商所要负责的是数据整个体系的可用性和可靠性。云计算的最大优点就是用户没有必要再去构建一个独立的数据中心,这样用户节省了很多成本,用户只是根据企业的需求去付费,就可以非常方便地把自己所要使用数据存储在所租用的数据中心中。在有需要的时候通过向数据中心提交申请和输入自己的口令,便可以得到自己之前存储在数据中心中的数据。
3 基于云计算环境下的分布存储技术的关键技术
3.1 容易产生错误
一些之前经常被使用的高性能服务器、用来专门提供存储的设备还有具有raid技术等等可以纠正错误的方法需要支付大量的费用,这样云计算的提供商就无法在利润上得到满足,同时整个数据中心具有相当大的节点规模这都使数据的失效概率在一定程度上提供了。所以在云计算这样环境下,失效也会经常出现。我们来看一个报告,在一个企业的数据中心当中,平均每一个工作任务在运行的过程中就会有4个节点会失效,在这个工作任务的数据中心中拥有有3200个节点,平均经过5个小时一个磁盘就失效了。整个问题不仅会让云服务提供商在信用上受到损失同时用户也会收到巨大的损失。这样的容易产生错误的行为已经成为了云计算环境下分布存储所要必须解决的一个问题。在整个云计算的环境下要想要提高整个数据系统的准确性和稳定性,不仅仅只是解决各个数据节点之间的关系,来将数据节点的物理拓扑结构容易产生错误的几率降低同时还要对存储在数据节点上的数据的管理和组织进行研究,来达到使数据提高稳定性的目的。
3.2 可扩展性
在之前的以个人计算机为主的数据存储方式提高其可扩展性的方式大部分都是通过一个冗余的预留磁盘来达到可扩展的目的,这种传统的方式在之前的数据量上是能够确保可以有充足存储空间的。然而,云计算下的数据中心的数据规模是非常大的,通常会有上几万或许达到几十万,这事实上都是存在的;除此之外,在数据中心中数据的存储计量都是以PB甚至EB去计量,数据中心的规模和整个存储的数据规模必然会随着应用的拓展而不断的增大。所以,无论是哪一个提供商的数据中心没有办法通过传统的方式在建立的时候就进行预留。举个简单的例子,某公司现在全世界的数据中心有40个,仅是一个数据中心数据节点就可以达到几百万个在本世纪的上个年代在美国的一个城市建立了世界上规模最大的模块化数据中心,服务器的数量一年零两个月就会翻倍增长,这样的速度已经超过了之前的摩尔定律的增长速度。具有如此大的规模同时还在不断、快速增长的速度对整个存储系统的可扩展性的要求提出个非常高的要求,通过上面的论述我们可以看到用户对数据中心的存储硬件要求要有非常好可扩展性,同时对数据的组织结构也具有同样的要求,只有这样磁能不断的适应这个数据存储的要求,最后达到客户的要求。
3.3 在成本上的控制
在以个人计算机为主进行数据存储的时代,由于分布存储的数据规模较小节点数量也相当较少,所以没有过多的考虑能耗的问题,同时各个企业都是非常重视效率以及可靠性方面的问题,所以在这个问题上都不会吝啬成本的。基于云计算下的分布存储的规模实在是太大了,而且随着应用的范围越来越大规模也巨大,也就是说在能耗上的开销更大。在设备运转的时候会产生大量的热能,所以还要增加制冷设备的开支。比如在计算机发展的比较快的美国,在本世纪初的五年当中,数据中心的在能量上的消耗整个翻了一番。降低能耗的另外一个好处是可以使数据中心的硬件设备提高他们的运行寿命,也就是说将数据中心的一些在硬件上的成本降低了。实际上云计算提供商它的盈利手段就是依靠服务,可以将硬件的成本降低也是获取更多利润的一个手段,而且又可以保护环境,所以节能已经是成本控制的一个关键点。 4 基于云计算环境下的分布存储技术的结构
4.1 以交换机为中心的结构
在之前的,一些企业当中自己的数据中心。大都是围绕一个交换机,将它作为整个数据中心是中心实施网络构建,交换机将服务器连接在一起,交换机的任务就是对数据包进行转发,服务器的功能就是将存储的数据进行处理。
这样的传统结构大多是采用树型结构,一共有三层分别是聚合层、边缘层和核心层。树型结构的最大特点就是非常直观,操作起来简单、方便,而且连接和实现很容易起来。同时还具有容易扩展的特点,尽管有上述的优点,但是也不可避免的有很多缺点:例如说整个链路的带宽在容量上是被限定的,现在对于带宽的要求越来越大,所以现在的链路带宽无法满足整个数据中心的数据传输;在整个系统中灵活性不高、处在下层服务器使用频率低;作为整个结构的一个中心交换机却不能被充分利用,系统的交换机设备都是一个主机加上一个备机,这样当一个交换机出现问题的时候不会导致所有的服务器都无法工作。这种结构在某些程度上是使系统的可靠性提高了,但大多的时间都是有一个设备在闲置;对通信的需求没有办法满足。
4.2 以服务器为中心的结构
这样的结构同传统的结构不同并没有交换机以及路由器等设备,而是以服务器为中心,系统会给每台服务器都配置一些网卡来组成一个互联设备,转发数据的工作是由服务器所负责的,这样的结构虽然很简单,缺点就是链路冗余。两种结构各有各的优点和缺点,所以将两者的优点结合在一起才是最好的结构,于是混合结构就产生了,混合结构使用交换机数据中心的节点相连接,而且每个服务器都会配置一些网卡,服务器同时会参与数据包转发、路由两个功能。
5 结语
现在云计算不仅被广泛应用于科学计算当中同时再商业计算等一些领域有有着广泛广泛的应用。基于云计算下的分布存储需要是问题就是要解决目前大量数据被分布存储那个对整个系统的容错性、可扩展性以及低成本等等关键的技术。所以说,研究人员对数据中心的一个网络拓扑结构要进行进一步的研究,将之前所说的基于云计算下的分布存储的关键问题进一步提升。在这里涉及到的技术方法会有很多,目前这些技术很多人都在研究但是要想实现全部的设想还是有一段的距离的。本文对关键技术进行了分析,并提出了这些关键技术上还存在那些急需解决的问题,最后给出了研究者们未来的方向是什么。
参考文献:
[1]郑纬民.云计算的大幕已经拉开[J].中国计算机学会通讯,2009,5(6):6—7.
[2] lan Foster,Yong Zhao,loan Raicu,et a1.Cloud Computingand Grid Computing 360一Degree Compared [C]//Proceed·ings of IEEE Grid Computing Environments workshop(GCE08).USA:IEEE Computer Society。2008:I—10.
[3]刘鹏.云计算的定义和特点.中国云计算[EB/OL],2009.