论文部分内容阅读
信息时代,数据意味什么?对于一个企业来说,数据意味着商机、执行力、生产力、竞争力。的确,数据资产已经成为现代企业越来越重要甚至是核心的生产要素。如何采集好数据、管理好数据、挖掘应用好数据已成为企业日常管理经营的基础工作之一。
两天,5000年
现在,全球每两天被创建和被复制的数据总量相当于人类文明诞生到2003年五千多年历史所产生数据量的总和。而且,根据IDC调研和预估,数据一直都在以每年50%的速度增长,也就是说,每两年数据就会增长一倍。爱立信预测,2020年,平均每个人将拥有7个连接终端,这意味着届时全世界将拥有500亿个终端通过网络互相连接。此外,如果物联网变成现实,我们的生活会被传感器所包围,其数量可能会超过2100亿个,那个时候,数据将无处不在。
我们正在进入一个令人敬畏的大数据时代。IDC将大数据的特征归纳为4个“V”——Volume,Variety,Value和Velocity。Volume代表海量的数据规模,从TB级别跃升到PB级别,甚至是EB级;Variety代表多样的数据类型,包括大量的非结构化数据;Value代表巨大的数据价值,但挖掘分析更加困难;Velocity代表动态数据的快速处理。
大数据市场到底有多大?IDc有一个预测,2015年整个市场规模将超过170亿美元,每年的平均增长速度超过50%。面对可以从大数据中发掘出来的、如此具体甚至已清晰可见的价值,IT产业界和用户已就加速大数据技术的发展和应用达成了共识,但相关技术和应用的成熟和落地是无法一蹴而就的。“数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔在不久前召开的英特尔大数据论坛上表示,“有人说信息成为21世纪的石油。这确实是非常好的比喻,石油刚刚开采出来的时候,原油开采的时候价值并不是那么高。一百多年前,石油作为一种累赘,没有人很好地利用起来,直到我们把石油变成化学品,变成汽油的时候才真正体现出价值。大数据同样的,仅仅是存储起来,而不利用起来并没有价值,必须通过分析和处理才能体现它的价值。”
Hadoop崛起
何京翔认为大数据和传统数据时代有本质的区别,既然问题不一样,就需要新的方法解决问题。在考虑大数据的时候,不应该把它看做一个技术问题而是一个全新商业模式和生态系统的问题,也就是说不仅要在新技术上有创新,同时也应该关注人员培训、生态系统的构造以及最佳实践。
开源的Hadoop已经在过去几年被证明是市场中最成功的大数据处理平台,由Apache基金会开发。其目的是让用户可以在不了解分布式底层细节的情况下,开发分布式程序,同时能够充分利用集群的威力高速运算和存储。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop迈向主流的标志是在2011年,它得到了5家主要的数据库和数据管理厂商的积极接受,EMC、IBM、Informatica、微软和甲骨文都进入Hadoop领域。但是无论是哪一类大数据集,都无一例外地要求承载自己的IT基础设施要具备强大且能与其增长速度相适应的计算能力、存储能力和数据交换传输能力,而实现这些能力的关键就是要能对其进行扩展,特别是横向扩展。先天就具备强大横向可扩展特性,并在实现这种扩展时拥有出色成本和性价比优势的,就是基于开放架构的平台。所以我们看到芯片巨头英特尔也推出了一系列的大数据解决方案,包括平台以及针对英特尔平台优化的Hadoop产品和服务,比如Intel Hadoop Manager2.0。
当前,Hadoop已经开始了商业化应用,亚马逊的MapReduce便是其中代表。而在中国,中国联通的上网记录查询服务项目也是一个典型的案例。
联通的实践
根据中国联通研究院副院长黄文良介绍,3G时代,尤其在中国联通引入iPhone之后,上网流量问题是用户投诉的焦点,因为现在3G运营商大部分是按流量计费的。他说:“用户投诉以后,我们一般跟他解释,智能手机机有时候会自动下载应用,因此会产生流量。而用户也是强烈要求运营商能提供明明白白的消费,不要告诉我产生多少流量,我需要的是流量怎么产生,昨天的20M流量是因为更新了QQ还是因为看了什么视频。但是我们却无法拿出详细清晰的用户上网记录,因为中国联通用户每个月的上网记录是上万亿条的,而且每6个月都会翻倍。在这样的情况下,传统的关系数据库根本无法应对。比如我们曾经用甲骨文数据库试图解决此问题,但是后来发现关系型数据库到百亿条的时候便显得力不从心,可能几个小时都出不来结果。因此,面对用户的投诉,有时候我们只能进行退费,不但支出大,用户满意度也在降低,这让我们很被动,也很委屈。”
于是从2011年起,中国联通开始部署针对移动互联网用户的上网记录查阅系统,其中便引入了Hadoop技术来。中国联通Hadoop系统部署在北京,采用了178台英特尔至强刀片服务器,每一台服务器配了14TB的存储。各省分公司生成的数据以5分钟一个文件的速度传往北京,统一提供给全国所有的客服人员检索。现在检索速度基本上能到秒一级,输入中国联通任何一个城市的用户号码,该用户的上网记录可能一两秒就可以跳出来。通过该项目的实施,黄文良的感受是,大数据的技术对电信业来说是个很大的机遇,“现在基于这些数据我们要做出更多更丰富的应用,为未来移动互联网健康良好的发展也奠定了很好基础”。
IDC中国企业级系统与软件研究部高级研究经理周震刚认为,经过2010年和2011年两年的迅速发展,Hadoop的生态环境已经形成,他相信伴随着市场上主流Hadoop打包产品的出现,大数据的商业化部署将会加速。但是他也提醒大家,许多早期Hadoop项目都是以失败告终的,究其原因主要有两点:首先是项目行业应用的目的性不强,有跟风之嫌;其次,项目的开发环境并不适合Hadoop,用传统的数据库就可以解决的问题如果非要用Hadoop来实现结果反而会背道而驰。大数据整体还处在摸索和实践的阶段,因此,不可盲目跟风,必须明确实施大数据的目标,而且要有切实可行的规划,数据质量也很重要。
两天,5000年
现在,全球每两天被创建和被复制的数据总量相当于人类文明诞生到2003年五千多年历史所产生数据量的总和。而且,根据IDC调研和预估,数据一直都在以每年50%的速度增长,也就是说,每两年数据就会增长一倍。爱立信预测,2020年,平均每个人将拥有7个连接终端,这意味着届时全世界将拥有500亿个终端通过网络互相连接。此外,如果物联网变成现实,我们的生活会被传感器所包围,其数量可能会超过2100亿个,那个时候,数据将无处不在。
我们正在进入一个令人敬畏的大数据时代。IDC将大数据的特征归纳为4个“V”——Volume,Variety,Value和Velocity。Volume代表海量的数据规模,从TB级别跃升到PB级别,甚至是EB级;Variety代表多样的数据类型,包括大量的非结构化数据;Value代表巨大的数据价值,但挖掘分析更加困难;Velocity代表动态数据的快速处理。
大数据市场到底有多大?IDc有一个预测,2015年整个市场规模将超过170亿美元,每年的平均增长速度超过50%。面对可以从大数据中发掘出来的、如此具体甚至已清晰可见的价值,IT产业界和用户已就加速大数据技术的发展和应用达成了共识,但相关技术和应用的成熟和落地是无法一蹴而就的。“数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔在不久前召开的英特尔大数据论坛上表示,“有人说信息成为21世纪的石油。这确实是非常好的比喻,石油刚刚开采出来的时候,原油开采的时候价值并不是那么高。一百多年前,石油作为一种累赘,没有人很好地利用起来,直到我们把石油变成化学品,变成汽油的时候才真正体现出价值。大数据同样的,仅仅是存储起来,而不利用起来并没有价值,必须通过分析和处理才能体现它的价值。”
Hadoop崛起
何京翔认为大数据和传统数据时代有本质的区别,既然问题不一样,就需要新的方法解决问题。在考虑大数据的时候,不应该把它看做一个技术问题而是一个全新商业模式和生态系统的问题,也就是说不仅要在新技术上有创新,同时也应该关注人员培训、生态系统的构造以及最佳实践。
开源的Hadoop已经在过去几年被证明是市场中最成功的大数据处理平台,由Apache基金会开发。其目的是让用户可以在不了解分布式底层细节的情况下,开发分布式程序,同时能够充分利用集群的威力高速运算和存储。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop迈向主流的标志是在2011年,它得到了5家主要的数据库和数据管理厂商的积极接受,EMC、IBM、Informatica、微软和甲骨文都进入Hadoop领域。但是无论是哪一类大数据集,都无一例外地要求承载自己的IT基础设施要具备强大且能与其增长速度相适应的计算能力、存储能力和数据交换传输能力,而实现这些能力的关键就是要能对其进行扩展,特别是横向扩展。先天就具备强大横向可扩展特性,并在实现这种扩展时拥有出色成本和性价比优势的,就是基于开放架构的平台。所以我们看到芯片巨头英特尔也推出了一系列的大数据解决方案,包括平台以及针对英特尔平台优化的Hadoop产品和服务,比如Intel Hadoop Manager2.0。
当前,Hadoop已经开始了商业化应用,亚马逊的MapReduce便是其中代表。而在中国,中国联通的上网记录查询服务项目也是一个典型的案例。
联通的实践
根据中国联通研究院副院长黄文良介绍,3G时代,尤其在中国联通引入iPhone之后,上网流量问题是用户投诉的焦点,因为现在3G运营商大部分是按流量计费的。他说:“用户投诉以后,我们一般跟他解释,智能手机机有时候会自动下载应用,因此会产生流量。而用户也是强烈要求运营商能提供明明白白的消费,不要告诉我产生多少流量,我需要的是流量怎么产生,昨天的20M流量是因为更新了QQ还是因为看了什么视频。但是我们却无法拿出详细清晰的用户上网记录,因为中国联通用户每个月的上网记录是上万亿条的,而且每6个月都会翻倍。在这样的情况下,传统的关系数据库根本无法应对。比如我们曾经用甲骨文数据库试图解决此问题,但是后来发现关系型数据库到百亿条的时候便显得力不从心,可能几个小时都出不来结果。因此,面对用户的投诉,有时候我们只能进行退费,不但支出大,用户满意度也在降低,这让我们很被动,也很委屈。”
于是从2011年起,中国联通开始部署针对移动互联网用户的上网记录查阅系统,其中便引入了Hadoop技术来。中国联通Hadoop系统部署在北京,采用了178台英特尔至强刀片服务器,每一台服务器配了14TB的存储。各省分公司生成的数据以5分钟一个文件的速度传往北京,统一提供给全国所有的客服人员检索。现在检索速度基本上能到秒一级,输入中国联通任何一个城市的用户号码,该用户的上网记录可能一两秒就可以跳出来。通过该项目的实施,黄文良的感受是,大数据的技术对电信业来说是个很大的机遇,“现在基于这些数据我们要做出更多更丰富的应用,为未来移动互联网健康良好的发展也奠定了很好基础”。
IDC中国企业级系统与软件研究部高级研究经理周震刚认为,经过2010年和2011年两年的迅速发展,Hadoop的生态环境已经形成,他相信伴随着市场上主流Hadoop打包产品的出现,大数据的商业化部署将会加速。但是他也提醒大家,许多早期Hadoop项目都是以失败告终的,究其原因主要有两点:首先是项目行业应用的目的性不强,有跟风之嫌;其次,项目的开发环境并不适合Hadoop,用传统的数据库就可以解决的问题如果非要用Hadoop来实现结果反而会背道而驰。大数据整体还处在摸索和实践的阶段,因此,不可盲目跟风,必须明确实施大数据的目标,而且要有切实可行的规划,数据质量也很重要。