面对大数据,如何部署下一代存储基础设施?

来源 :微电脑世界 | 被引量 : 0次 | 上传用户:jack_123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  眼下大数据大行其道,但我们是不是应该是先考虑存储?
  如今,大家都在谈论大数据分析及与之带来的商业智能;但是企业在充分利用这些数据之前,必须弄清楚该如何存储它们。管理更庞大的数据集(PB级或更大的数据量)与管理传统的大型数据集全然不同。在线照片网站Shutterfly就很清楚这一点。
  Shutterfly是一家在线照片网站,其不同之处在于允许用户存储数量不受限制的照片,这些照片以原始分辨率来保存,根本不会降低分辨率。Shutterfly还表示它从来不会删除一张照片。
  Shutterfly公司高级副总裁兼首席技术官Neil Day说:“我们的照片库所含的数据量超过了30PB。我们存储库的增长速度比客户群的增长速度还快。我们获得一个客户后,他们做的第一件事就是向我们上传一堆照片。然后他们喜欢上我们的服务后,他们做的第一件事就是另外上传一堆照片。”
  不妨了解一下我们谈论的数据规模:1 PB相当于100万TB或10亿GB。美国宇航局哈勃太空望远镜前20年观测到的图像其数据量相当于45TB多一点,而以128 kB/s速度记录的1TB压缩音频含有大约17000小时的音频。
  全然不同的PB级基础设施
  Day说:“PB级基础设施是全然不同的情形。它们很难构建和维护。PB或数PB级基础设施面临的管理负担与传统大规模数据集相比简直天差地别。这就像处理笔记本电脑上数据和RAID阵列上数据之间的差别。”
  Day在2009年加入Shutterfly时,存储就已成为该公司最大的开支之一,而且以飞快的速度增长——不仅原始存储容量猛增,配备的人员也随之猛增。
  Day说:“每当增加n个PB的存储量,意味着我们需要另一个存储管理员来支持该物理和逻辑基础设施。”他表示,由于数据集如此庞大,“系统更频繁地出问题。任何管理超大存储库的人经常要遇到硬件故障。大家在试图解决的一个根本问题是,由于知道一小部分驱动器在一段时间后会出故障,你该如何确保数据仍然可用,而性能又不会降低?”
  扩展RAID问题重重
  标准的故障切换解决之道是复制,通常采用RAID阵列的形式。Day表示,但是面对大规模数据,RAID带来的问题比它解决的问题还要多。在传统的RAID数据存储方案中,每个数据的副本都被镜像,并存储在阵列的不同磁盘上,确保数据完整性和可用性。但这意味着每个被镜像和存储的数据都会变大,需要比数据大小大五倍多的存储容量。随着RAID阵列中使用的驱动器变得容量更大——从密度和功耗的角度来看,3TB容量的驱动器很有吸引力,让故障驱动器的替换驱动器恢复到完全奇偶校验所需的时间也变得越来越长。
  Day说:“实际上,我们的RAID没有遇到任何操作问题。我们看到的是,随着驱动器容量变得越来越大,当我们遇到任何部件故障时,恢复到完全冗余系统所需的时间增加了。生成奇偶校验与相应数据集的大小成正比。我们在基础设施中开始使用1TB和2TB驱动器后看到的是,恢复到完全冗余状态的时间变得相当长。趋势没有朝着正确的方向发展。”
  对Shutterfly而言,可靠性和可用性至关重要,这表明需要企业级存储。Day表示,但急剧增长的存储成本使得价格实惠的大众化系统变得极具吸引力。当Day及其团队在市场上调查潜在的技术解决方案以控制Shutterfly的存储成本时,他们对于一项名为纠删码(erasure code)的技术产生了兴趣。
  采用纠删码技术的下一代存储
  里德-所罗门纠删码最初作为一种前向纠错码(FEC)来使用,用于通过不可靠的通道来传送数据,比如外层空间探测器的数据传输。这项技术还与CD和DVD结合使用,处理光盘上的瑕疵,如灰尘和划痕。但是几家存储厂商已开始将纠删码采用到各自的解决方案中。使用纠删码,就可以将一个数据细分成多块,每一块数据本身毫无用处,然后它们被分散到不同的磁盘驱动器或服务器。数据随时可以用一小部分数据块来完全重组,即使多个数据块因驱动器故障而已丢失。换句话说,你不需要创建多个数据副本;单个数据实例就可以确保数据的完整性和可用性。
  早期提供基于纠删码的解决方案的厂商之一是总部设在伊利诺斯州芝加哥的Cleversafe公司,它添加了位置信息,以创建其所谓的分散编码(dispersal coding),让用户可以在不同的地理位置(如多个数据中心)存储数据块,即该公司所说的数据片。
  每个数据片本身从数学上来讲毫无用处,这就能确保隐私性和安全性。Cleversafe表示,由于信息分散技术只使用一个数据实例来确保数据完整性和可用性,而不是像RAID那样使用多个数据副本,公司可以节省多达90%的存储成本。
  Cleversafe公司的产品策略、市场营销和客户解决方案副总裁Russ Kennedy说:“当你重组数据时,不一定要有每一块数据。我们把生成的数据块的数量称为宽度,把重组数据所需的最小数量称为阈值。你生成的数据块的数量与重组需要的最小数量之间的差异决定了其可靠性。同时,即使你丢失节点和驱动器,仍能恢复原来形式的数据。通过RAID所能获得的最高可靠性是双奇偶校验。也就是说,你可以丢失两个驱动器。借助我们的解决方案,最多可以丢失六个驱动器。”
  纠删码还是一种基于软件的技术,这意味着它可以与大众化硬件结合使用,从而进一步降低扩展成本。
  构建下一代存储基础设施
  Day说:“我们确定了合适的技术后,比较了在这个领域提供解决方案的多家厂商。我们曾考虑自己来构建,但是觉得如果我们能找到一家完全满足我们的要求,其系统又相当可靠的公司,那么这个方法对我们来说明智得多。”
  Shutterfly在其实验室对四家厂商的解决方案进行了评估,并为其数据中心所需的存储设备建立了原型。Day表示,他关注性能、可用性、容错性和可管理性这几个方面。
  他解释:“我们有一个工作人员专门管理照片库。2010年面临的最大问题之一是,我们发现照片库越来越庞大。因此,我们不得不扩大员工队伍,但这不是很有吸引力。”   Day表示,后来发现Cleversafe最适合Shutterfly,这主要是由于该公司愿意与Shutterfly合作,根据Shutterfly的需求来调整其解决方案。这两家公司开始进行了一系列概念证明测试,包括在Shutterfly实验室进行的负载和性能测试。Shutterfly熟悉了操作和性能方面的特点后,在生产环境中部署了一套并行存储基础设施,由其来模拟处理Shutterfly的全部流量。
  Day说:“上传的每张照片都写入到我们的遗留基础设施和Cleversafe基础设施。这套系统我们运行了六个月,包括节假日。”
  节假日对Shutterfly来说是高峰期,这时候许多用户建立了照片簿。
  Shutterfly在2011年将Cleversafe的存储解决方案完全投入到了生产环境,用于其照片库;并且从此以后,一直将其用作主照片库。
  基于纠删码的存储总体拥有成本如何?
  Day说:“这本质由是个软件解决方案,让我们可以部署非常具有成本效益的硬件。从总体拥有成本的角度来看,这给我们带来了巨大的变化。我们与硬件厂商打交道时有了更大的灵活性,并可以保证我们买来的驱动器和支持它们的基础设施是价格最实惠的。”
  Day表示,管理存储池也大大简化了。
  他说:“基本上我们只要添加另一批存储系统,它会自动添加到我们为其指定的任何存储池。以前,每当我们添加额外存储容量时,都不得不做一些相当复杂的管理工作。”
  而现在,驱动器出现故障或停止运行时,Shutterfly的存储基础设施就能将其标记为不可用,将数据改而存储到其他驱动器,同时透明地恢复该驱动器上的数据。Day表示,其团队现在发现故障后,可以按照预定的维护时间表更换受影响的基础设施,而不是像以前一个或一组驱动器出现故障时,面临“全体人员各就各位”的情形。
  他说:“我们不用再像以前那样迅速增加人员了。我们的人员仍在增加,但比使用前一代系统时慢得多。日常维护工作量有所下降。管理员能够把更多的时间花在有意义的积极项目上。他们的工作已转移到我所说的增值工作。这从发展的角度和工作满意的角度来看是好事。”
  存储数据后,洞察力会随之而来
  Shutterfly这家互联网公司处理的数据量比如今大多数企业处理的数据量大多了,但各行各业的公司在存储数量越来越多的数据。
  Day表示:“五年后,我们照片库的大小看来会相当普通,不过仍会比平均大小大几个数量级。眼下真正值得关注的一个方面就是,在过去四五年间,我们看到许多应用软件和技术进入市场,因而让我们有可能处理非常大的数据集。这确实激动人心,因为它们让公司可以通过实际查看细粒度数据,更深入地了解公司业务。”
  Day说:“这是业界非常可喜的一步。我们正处在大数据的早期阶段。另一个值得关注的因素是,随着企业开始更注重实时客户交互,更注重在线和移动,它们也在生产海量数据。现在可以分析这些数据,获得真正有影响力的商业洞察力。而这一切都有赖于我们能够可靠地海量数据。”
  http://howto.techworld.com/data-centre/3351720/how-implement-next-generation-storage-infrastructure-for-big-data/
其他文献
时光飞逝,转眼间,又到了年底商务采购季。面对今年全球经济形势的窘境,似乎全世界都在期盼中国市场强大的购买潜能来解救世人。IT或者说是整个ICT产业,也都将目光和希望聚焦在华夏大地的沃土之上。  单就中小企业商务采购领域,在过去的一年内,我们也看到了各类产品、技术在中国市场的突飞猛进、百花齐放。显然,产业巨头们都在削尖脑袋,希望通过各自最先进的产品、技术优势与更中国化的本土企业用户需求的细分,加上更
期刊
智能手机  宏碁也开始进军智能手机市场了,最先来到PC World中国实验室是一款由中国移动定制的机型AT390,它采用可更换彩壳设计,具有4.3英寸大屏幕,内置安卓4.0操作系统,一千出头的售价让其具有比较高的性价比。  看多了方方正正的智能机型,宏碁AT390外观让人眼前一亮,首先是它采用的外壳,AT390采用更换彩壳设计,除了经典黑、白两色,还有黄色、橘色、红色、绿色等多种颜色可供选择,以满
期刊
去年我们评测过富士施乐DocuPrint P105 b,时隔一年为大家带来P158 b的评测,它是P105 b的升级款,出众的稳定性能是它最大的特点。  从外观上来看,富士施乐P158 b与上一代产品十分相似,如果机身没有明确标识的话甚至分辨不出这是两台不同型号的打印机。同样属于入门级激光打印机的P158 b,体积小巧,适合在家庭以及小型SOHO办公环境下使用,其具有两种节电模式,“低功耗”模式下
期刊
A3激光打印机  联想LJ6100、联想LJ6300/LJ6300D是我们熟悉的联想针对行业用户推出的A3幅面黑白激光打印机。近日,联想对该系列产品更新升级,推出联想LJ6350DN A3黑白激光打印机。与旧型号相比,联想LJ6350DN设计更全面,标配双面打印单元与网络打印单元。  联想LJ6350DN的外观设计与联想LJ6300/LJ6300D几乎完全一致,只有控制面板的颜色完全不同,联想LJ
期刊
激光一体机  兄弟MFC-7290黑白激光多功能一体机是兄弟公司在今年推出的最新款产品,具备传真、扫描、复印、打印等四项功能。其外形设计与功能设计侧重于传真应用,特点突出。  兄弟MFC-7290拥有典型传真机外观。控制面板上设计有拨号键、传真/扫描/复印功能快捷键、22个单键拨号,及数个控制按键。配有一块双行显示的中文液晶显示屏,并标配电话手柄。主打传真功能的兄弟MFC-7290支持通过PC直接
期刊
诺顿日前正式发布了网络安全特警2013(NIS 2013),时值Windows 8推出之际,NIS 2013是否支持Windows 8呢?新版本又有何亮点?评测之后自见分晓。  Metro风格界面  NIS的界面设计一直为业界所赞誉,每次版本更新都会令人眼前一亮。 新版NIS 2013同样延续了诺顿的一贯做法,采用了类似Windows 8的全新Metro风格。“扫描”、“更新”、“高级”三大图标焕
期刊
你的私人高尔夫教练——GolfSense动作辅助训练装备  GolfSense是第一款进入美国苹果零售店的数字体育产品,也是苹果MFi体系内的年度重点推介产品,装配后,你的苹果手机马上变身了专业的便携式高尔夫动作辅助训练系统。  GolfSense硬件部分仅重17克,非常小巧轻便,可以轻松地固定在你的高尔夫手套上。配合你的iPhone或者iPad之后,就能实现精准的动作捕捉和数据分析,能从各个角度
期刊
随着信息技术的迅速发展与普及,商业数据也呈现出爆发式的增长,同时随着云计算的深入应用,企业分支机构数量的不断增加,一个很重要的问题,正摆在企业IT管理人员的面前。如何实现灵活智能的IT运行,如何快速、可靠地实现企业私有云的接入,这些对企业而言都是至关重要的。  然而,由于一直以来IT行业主要应用都采用组件式部署,单纯的组件拼接很难保证整体系统的可用性,因此如何确保小型IT应用能简单、快速地满足业务
期刊
万兆布线标准已做好准备  铜缆的发展与以太网技术发展密切相关。铜缆的生命力如此旺盛,正如以太网旺盛的生命力一样,它在网络连接市场始终占有重要的地位。目前所有的终端都是在以电信号做为运算处理对象,而不是以光信号做为运算处理对象,所以铜缆的生命力依然旺盛。为了满足未来数据中心及网络主干更高的传输速率要求,IEEE802.3an标准于2006年颁布,并定义了10GBASE-T接口标准。同时云及虚拟技术的
期刊
无论微软何时发布新的桌面操作系统,用户难免要考虑购买或组装一个新系统。虽然Windows 8颇有争议的界面变化和明显迎合移动硬件的做法可能让铁杆的桌面用户对这款新操作系统有所不安,但Windows 8还是提供了许多改进,值得升级。  首先,Windows 8已经过简化,在要求比最近的前一代操作系统还低的低端硬件上也可以顺畅运行。最低要求类似Windows 7,但Windows 8使用较少的内存和较
期刊