弄潮大数据

来源 :中国信息化 | 被引量 : 0次 | 上传用户:sssmickey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  信息时代,数据意味什么?对于一个企业来说,数据意味着商机、执行力、生产力、竞争力。的确,数据资产已经成为现代企业越来越重要甚至是核心的生产要素。如何采集好数据、管理好数据、挖掘应用好数据已成为企业日常管理经营的基础工作之一。
  两天,5000年
  现在,全球每两天被创建和被复制的数据总量相当于人类文明诞生到2003年五千多年历史所产生数据量的总和。而且,根据IDC调研和预估,数据一直都在以每年50%的速度增长,也就是说,每两年数据就会增长一倍。爱立信预测,2020年,平均每个人将拥有7个连接终端,这意味着届时全世界将拥有500亿个终端通过网络互相连接。此外,如果物联网变成现实,我们的生活会被传感器所包围,其数量可能会超过2100亿个,那个时候,数据将无处不在。
  我们正在进入一个令人敬畏的大数据时代。IDC将大数据的特征归纳为4个“V”——Volume,Variety,Value和Velocity。Volume代表海量的数据规模,从TB级别跃升到PB级别,甚至是EB级;Variety代表多样的数据类型,包括大量的非结构化数据;Value代表巨大的数据价值,但挖掘分析更加困难;Velocity代表动态数据的快速处理。
  大数据市场到底有多大?IDc有一个预测,2015年整个市场规模将超过170亿美元,每年的平均增长速度超过50%。面对可以从大数据中发掘出来的、如此具体甚至已清晰可见的价值,IT产业界和用户已就加速大数据技术的发展和应用达成了共识,但相关技术和应用的成熟和落地是无法一蹴而就的。“数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔在不久前召开的英特尔大数据论坛上表示,“有人说信息成为21世纪的石油。这确实是非常好的比喻,石油刚刚开采出来的时候,原油开采的时候价值并不是那么高。一百多年前,石油作为一种累赘,没有人很好地利用起来,直到我们把石油变成化学品,变成汽油的时候才真正体现出价值。大数据同样的,仅仅是存储起来,而不利用起来并没有价值,必须通过分析和处理才能体现它的价值。”
  Hadoop崛起
  何京翔认为大数据和传统数据时代有本质的区别,既然问题不一样,就需要新的方法解决问题。在考虑大数据的时候,不应该把它看做一个技术问题而是一个全新商业模式和生态系统的问题,也就是说不仅要在新技术上有创新,同时也应该关注人员培训、生态系统的构造以及最佳实践。
  开源的Hadoop已经在过去几年被证明是市场中最成功的大数据处理平台,由Apache基金会开发。其目的是让用户可以在不了解分布式底层细节的情况下,开发分布式程序,同时能够充分利用集群的威力高速运算和存储。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
  Hadoop迈向主流的标志是在2011年,它得到了5家主要的数据库和数据管理厂商的积极接受,EMC、IBM、Informatica、微软和甲骨文都进入Hadoop领域。但是无论是哪一类大数据集,都无一例外地要求承载自己的IT基础设施要具备强大且能与其增长速度相适应的计算能力、存储能力和数据交换传输能力,而实现这些能力的关键就是要能对其进行扩展,特别是横向扩展。先天就具备强大横向可扩展特性,并在实现这种扩展时拥有出色成本和性价比优势的,就是基于开放架构的平台。所以我们看到芯片巨头英特尔也推出了一系列的大数据解决方案,包括平台以及针对英特尔平台优化的Hadoop产品和服务,比如Intel Hadoop Manager2.0。
  当前,Hadoop已经开始了商业化应用,亚马逊的MapReduce便是其中代表。而在中国,中国联通的上网记录查询服务项目也是一个典型的案例。
  联通的实践
  根据中国联通研究院副院长黄文良介绍,3G时代,尤其在中国联通引入iPhone之后,上网流量问题是用户投诉的焦点,因为现在3G运营商大部分是按流量计费的。他说:“用户投诉以后,我们一般跟他解释,智能手机机有时候会自动下载应用,因此会产生流量。而用户也是强烈要求运营商能提供明明白白的消费,不要告诉我产生多少流量,我需要的是流量怎么产生,昨天的20M流量是因为更新了QQ还是因为看了什么视频。但是我们却无法拿出详细清晰的用户上网记录,因为中国联通用户每个月的上网记录是上万亿条的,而且每6个月都会翻倍。在这样的情况下,传统的关系数据库根本无法应对。比如我们曾经用甲骨文数据库试图解决此问题,但是后来发现关系型数据库到百亿条的时候便显得力不从心,可能几个小时都出不来结果。因此,面对用户的投诉,有时候我们只能进行退费,不但支出大,用户满意度也在降低,这让我们很被动,也很委屈。”
  于是从2011年起,中国联通开始部署针对移动互联网用户的上网记录查阅系统,其中便引入了Hadoop技术来。中国联通Hadoop系统部署在北京,采用了178台英特尔至强刀片服务器,每一台服务器配了14TB的存储。各省分公司生成的数据以5分钟一个文件的速度传往北京,统一提供给全国所有的客服人员检索。现在检索速度基本上能到秒一级,输入中国联通任何一个城市的用户号码,该用户的上网记录可能一两秒就可以跳出来。通过该项目的实施,黄文良的感受是,大数据的技术对电信业来说是个很大的机遇,“现在基于这些数据我们要做出更多更丰富的应用,为未来移动互联网健康良好的发展也奠定了很好基础”。
  IDC中国企业级系统与软件研究部高级研究经理周震刚认为,经过2010年和2011年两年的迅速发展,Hadoop的生态环境已经形成,他相信伴随着市场上主流Hadoop打包产品的出现,大数据的商业化部署将会加速。但是他也提醒大家,许多早期Hadoop项目都是以失败告终的,究其原因主要有两点:首先是项目行业应用的目的性不强,有跟风之嫌;其次,项目的开发环境并不适合Hadoop,用传统的数据库就可以解决的问题如果非要用Hadoop来实现结果反而会背道而驰。大数据整体还处在摸索和实践的阶段,因此,不可盲目跟风,必须明确实施大数据的目标,而且要有切实可行的规划,数据质量也很重要。
其他文献
目前,国内3.5 GHz固定无线接入及LMDS宽带无线接入市场已正式启动.东方通信Estar系统是点对多点的按需分配带宽无线接入系统,支持高速、灵活带宽的数据服务和高质量保证的语
为适应企业可持续发展的需求,增强研发核心竞争能力,安徽合力股份有限公司(以下简称“安徽合力”)决定对现有IT系统进行改造,搭建研产供销服一体化的PLM管理平台。规划中的IT系统不仅要能够帮助安徽合力实现设计应用软件和ERP系统对接,建立贯穿研产供销服的协同设计平台,打通部门壁垒,优化资源配置,缩短产品研制周期和减少更改次数;还需要实现产品结构的通用化、模块化、系列化,缩短研发设计数据向生产数据转变
随着手机分销数据信息量的激增和客户对服务要求的不断提升,IT对传统分销企业的影响日益重要。传统手机分销企业的管理方式通过信息化建设也得到了根本改变,天音通信近年来就通过IT大大提升了公司的执行力。  手机分销商的信息化历程  6月14-16日,Ultimus 2012年中国用户大会在广州举办,广东碧桂园控股CIO梁德力、天音通信CIO韩成果纷纷参加了这次大会。Ultimus是全球知名的BPM创新者
蛇毒液致伤眼部已有多篇报告[1~4].然而引起眼损伤未能及时治疗其后发生眼内炎行眼球内容摘除术,且有病理检查资料者实属罕见.现特报告如下.
期刊
DBank网盘、115网盘等主流网盘在经历了几年的免费大战,以及技术上的提升后,陆续开始尝试收费服务。对于国内市场来说,最早开始实施收费政策的应该算是联想企业网盘,主要是针对一
近年来,农业的发展一直是整个社会发展的焦点。从最近几年来国家对农业的相关政策文件中可以发现,信息化正在成为打造现代化农业的利器。  目前,在提高农產品的產量和质量,保障农產品安全的过程中,追溯系统正在成为农业產品质量安全的保障。据农业部原信息中心主任方喻介绍,可追溯系统就是在產品供应的整个过程中对產品的各种相关信息进行记录存储的质量保障系统,其目的是在出现產品质量问题时,能够快速有效地查询到出问题
如果说两年前华为还是一家定位在承载网架构和通信网络的供应商的话,那么现在,在数据中心领域,华为已经成为比肩思科、惠普这些巨头的新生力量。6月,华为“云引擎承未来”CloudFa
目的探讨改良鼻内窥镜下泪囊鼻腔造口术治疗慢性泪囊炎的临床效果.方法采用泪囊鼻腔造口C形置管术治疗慢性泪囊炎42例(42眼).对伴上泪道阻塞者用自制的头端略呈锥形泪道探针,
雷击性眼损伤的病例不多见.十余年来我们曾遇2例,现报告如下:1临床资料1.1例1:男,46岁.1986年7月25日雷雨之夜,在距桌面40cm高的电灯下受雷击.1小时后苏醒,感觉头痛、左侧肢