什么是大数据?您需要知道的一切

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wang____jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  分析大量数据只是大数据不同于以前数据分析的部分因素。了解其他三个因素是什么。
  人类每天都在吃饭、睡觉、工作和玩耍,这产生了数据——非常非常多的数据。据IBM,人类每天产生2.5垓字节(250十亿个十亿)的数据。这相当于堆叠到月球又返回来的DVD碟片,包括了从我们发送的文本和我们上传的照片,直至工业传感器数据和机器到机器通信的所有数据。
  这就是为什么“大数據”成为如此常见用语的主要原因。简单地说,当人们谈论大数据时,他们指的是能够获得大量的数据,分析数据,并将其变成有用的东西。
  大数据究竟什么是?
  但大数据远不止这些,它涉及到:
  大量的数据,通常来自多个来源。
  不仅是大量的数据,而且是不同类型的数据——通常是同时有多种数据,而且数据还随时间变化,这些数据不需要先转换成特定的格式,也不需要使其一致。
  分析数据所采用的方式允许出于不同的目的对相同数据池进行持续分析。
  所有这一切都能够迅速完成,甚至是实时的。
  在早期,业界提出了一个缩写词来描述四个特征中的三个:VVV,代表了体量(volume,体量巨大)、类型繁多(variety,不同类型的数据,数据随时间变化)、速度(velocity)。
  大数据和数据仓库
  VVV首字母缩写遗漏了一个关键的概念,即不需要永久地改变(转换)要分析的数据。这种非破坏性的分析意味着谁都可以出于不同的目的去分析相同的数据池,并可以分析从不同源收集的数据。
  作为对比,数据仓库是专门设计用于出于特定目的而分析特定的数据,并对数据进行结构化处理,转换为特定的格式。在整个过程中,原始数据基本上被破坏,是为了特定目的而不是其他目的——这被称之为提取、转换和加载(ETL)。数据仓库的ETL方法只针对特定的数据进行特定的分析。这适用于所有数据都是在您的工作系统中的情况,但是在今天互联网连接的世界里,数据来自四面八方,这就不太适用了。
  但是,不要认为大数据会使数据仓库过时。大数据系统可以让您非常方便地处理非结构化数据,但您得到的查询结果类型远没有数据仓库的那么复杂。毕竟,数据仓库的目的是深入分析数据,它之所以能很好地做到这一点,是因为它把所有数据都转换为一致的格式,使您能够去构建用于深度挖掘的数据集等类似的工作。数据仓库供应商花了多年的时间来优化他们的查询引擎,回答典型业务环境中的问题。
  大数据支持您分析来自多个数据源的大量数据,但分辨率较低。因此,在未来一段时间内,我们将同时使用传统的数据仓库和新方法。
  大数据背后的技术突破
  为实现大数据四方面的特征——体量巨大、类型繁多、非破坏式使用和速度,这需要一些技术上的突破,包括分布式文件系统(Hadoop)的发展,一种方便快捷地了解不同数据的方法(最早是谷歌的MapReduce,还有最近的Apache Spark),以及根据需要访问和移动数据的云/互联网基础设施。
  直到大约十年前,一次处理的数据量还相对较少。(嗯,当时,我们都认为数据仓库是非常巨大的。自从互联网产生数据并把各处的数据连接起来之后,情况发生了巨大的变化。)有限的数据存储数量和位置,计算能力不足,处理来自多个源的不同数据格式的能力也有限,这些因素使得几乎不可能完成数据处理任务。
  随后,大约2003年的时候,谷歌的研究人员开发了MapReduce。这种编程技术首先把数据映射到一系列键/值对,对类似的键值进行计算,将它们缩减为单个值,然后在数百台或者数千台低成本机器上并行处理每一批数据,从而简化了大规模数据集的处理。这种庞大的并行特性使谷歌能够从越来越大量的数据中更快的得到搜索结果。
  2003年左右,谷歌实现了两个突破,这使得大数据成为可能:一是Hadoop,它是由两项关键服务组成的:
  使用Hadoop分布式文件系统(HDFS),可靠的存储数据。
  使用称为MapReduce的技术进行高性能并行数据处理。
  Hadoop运行在商用无共享服务器集群上。您可以随意添加或者删除Hadoop集群中的服务器;系统会检测并修复任何服务器上的硬件或者系统问题。换句话说,Hadoop是自我修复的。不管系统进行了修改还是出现了故障,它都能提供数据,运行大规模、高性能处理工作。
  虽然Hadoop为数据存储和并行处理提供了一个平台,但真正的价值来自于附加组件、交叉集成和技术的定制实现。为此,Hadoop提供了子项目,这些子项目为平台增加了功能和新特性:
  Hadoop Common:支持其他Hadoop子项目的公共实用程序。
  Chukwa:一个用于管理大型分布式系统的数据采集系统。
  Hbase:一个可扩展的分布式数据库,为大型表提供结构化数据存储支持。
  HDFS:一种分布式文件系统,支持对应用数据的大吞吐量访问。
  Hive:提供数据摘要和即席查询的数据仓库基础设施。
  MapReduce:计算集群上大数据集分布式处理的软件框架。
  Pig:并行计算的高级数据流语言和执行框架。
  ZooKeeper:分布式应用的高性能协调服务。
  大部分Hadoop平台的实现应至少包括其中的一些子项目,因为它们通常是开发大数据所必需的。例如,大多数企业选择使用HDFS作为主要的分布式文件系统,把HBase作为数据库,它可以存储数十亿条数据。使用MapReduce或者最近的Spark几乎是必须的,因为它们提高了Hadoop平台的速度和敏捷性。
  采用MapReduce,开发人员可以在分布式处理器集群或者单机上开发并行处理大量非结构化数据的程序。MapReduce框架分为两个功能区:   Map,这一功能把工作分发到分布式集群中的不同节点上。
  Reduce,这一功能将工作排序并把结果解析为单个数值。
  MapReduce的主要优點之一是它是容错的,这通过监视集群中的每个节点来实现;每个节点都需要定期报告完成的工作和状态更新。如果一个节点保持沉默的时间比预期的间隔长,那么主节点会发出通知并将工作重新分配给其他节点。
  Apache Hadoop是以MapReduce为核心的一种开源框架,两年后才开发出来。Hadoop最初是用来索引现在不太常用的Nutch搜索引擎的,现在几乎所有的主要行业都使用Hadoop来进行多种大数据工作。在Hadoop的分布式文件系统和YARN(Yet Another Resource Negotiator,另一种资源调度器)的支持下,该软件使用户能够处理分布在数千台设备上大量的数据集,就好像它们都在一台巨大的机器上一样。
  2009年,加州大学伯克利分校的研究人员开发了Apache Spark来替代MapReduce。Spark使用内存存储进行并行计算,因此,它比MapReduce快100倍。Spark可以作为一个独立的框架或者在Hadoop内部运行。
  即使使用Hadoop,您仍然需要一种方法来存储和访问数据。这通常是通过MongoDB、CouchDB或者Cassandra等NoSQL数据库来实现的,它们专门处理分布在多台机器上的非结构化或者半结构化数据。对于数据仓库,大量不同类型的数据融合成统一的格式,并存放在一个数据存储中,与数据仓库不同,这些工具不会改变数据的根本性质或者位置——电子邮件仍然是电子邮件,传感器的数据仍然是传感器的数据,而且可以存储在任何地方。
  然而,把体量巨大的数据存储在机器集群上的NoSQL数据库中,如果您不使用这些数据,那就体现不出这种方式的优势所在。而这才是大数据分析的用武之地。Tableau、Splunk和Jasper BI等工具支持您解析数据,以识别模式、提取含义,并揭示出新的深度分析结果。您由此要开展的工作会因您的需求而有所不同。
  InfoWorld的执行编辑Galen Gruman、InfoWorld的特约编辑Steve Nunez、自由撰稿人Frank Ohlhorst和Dan Tynan为本文做出了贡献。
  原文网址:
  http://www.infoworld.com/article/3220044/big-data/what-is-big-data-everything-you-need-to-know.html
其他文献
1第133天孤獨是一种病。  这座城市,一共住着两千一百七十万人。  我对面这位,一芬兰国际友人,不远万里来到咱们这儿,过了几天朝九晚五挤地铁上下班的生活之后,这哥们儿祖传的社交恐惧症不药而愈。  在芬兰,平均一平方千米只有十八个人;但是在北京早高峰的地铁上,一截车厢塞十八个人那算宽敞的。  “李正泰!李正泰!”  此时此刻人满为患的宜家商场,扩音器里有个声音好听的姑娘深情款款地喊了一遍又一遍。 
8月2-3日,2014年全省职业院校信息化教学大赛暨湖北省职业教育信息化发展论坛在武汉举办。湖北省教育厅副厅长张金元出席开幕式,并就职业教育信息化工作提要求。本次职业院校信息化教学大赛,分中、高职组,共设信息化实训教学、多媒体教学软件、信息化教学设计、信息化课堂教学、网络课程比赛5个赛项,涉及电子信息、土木建筑、交通运输、加工制造等11个专业大类,共计401名职业院校教师报名参赛。大赛同期举行湖北
摘 要:文章从网球专项运动出发,以重庆市部分高校网球专业的大学生为研究对象,对影响网球运动员比赛赛前表现的众多心理因素进行分析,并对心理调控方法总结,不仅可以为大学生网球运动员心理调控提供理论依据,并对竞技比赛实施心理训练具有借鉴意义。  关键词:网球比赛;心理状态;调控方法  中图分类号:G804.86 文献标识码:A DOI:10.3969/j.issn.1006-1487.2014.06.0
光明日报 2013-11-18  即便是号称“史上最难就业年”的今年,广西职业院校毕业生就业率也达到了96%。这究竟是何种原因呢?  面向产业平衡人才供求。近年来,广西教育厅围绕北部湾经济发展战略、打造“14 10”千亿元产业集群,指导职业院校主动服务产业转型升级,设置了与石化产业、汽车制造、现代物流等新兴产业配套的70个专业及一批专业群,同时以产业园区建设为载体,建成了柳州市职教园区等四大园区,
零口村地处西安市临潼区东部,距举世闻名的秦兵马俑只有14千米。1995年冬季,考古工作者在这里对一座古墓进行了考古发掘。从古墓中出土的一具古人类遗骸引起了他们的注意。这是一个年龄只有16岁左右的女孩的遗骸。令人震惊的是,考古工作者在她身上一共发现了35处伤痕,而且还在她体内找到了18件凶器。考古学家给这个生活在远古时代的不幸姑娘起了一个名字——“零口姑娘”。那么,“零口姑娘”死于何时,为什么会惨遭
入选理由 对我国各级各类教师的培养、培训、入职标准、聘用、待遇、职称、编制、专业和师德标准、考评等提出具体意见和规范要求,特别提出职业学校教师队伍建设要以“双师型”教师为重点,完善“双师型”教师培养培训体系,对于建成一支师德高尚、业务精湛、结构合理、充满活力的高素质专业化教师队伍,推动我国教育事业尤其是职业教育发展意义重大。  主要内容 以“双师型”教师培养为重点,加快推进职业学校教师队伍建设。出
这是一个特殊的时刻。  有人在一线冲锋陷阵,与病魔竞速,他们,是白衣天使,是科研人员;有人的书房即是办公室或课堂,学习与工作两不误,他们,是学生党,是上班族;还有一些人,足不出户,磨练厨艺,修身养性,他们,是千万普通百姓,是为武汉祈祷的守望者,是为祖国加油的声援军。但是,还有一些人,一些声音,连接着一线和社区,用正能量沟通天南地北。我们或许不知道他们是谁,但是我们知道他们都是为了这场戰“疫”的胜利
8月19日,湖北省人社厅与重庆市人社局在武汉市联合举办两地技工院校高技能人才培养专题研讨交流活动,并签署友好合作协议,组建鄂渝两地跨地区职业教育集团,形成鄂渝两地共同发展技工教育、培养高技能人才新机制。省人社厅副厅长张建平出席签约仪式并致辞。根据合作协议,鄂渝两地技师学院将建立省际沟通交流机制,定期开展高技能人才培养交流,组织鄂渝两地技师学院、行业、企业成立高技能人才培养联盟,研究制定两地高技能人
我与绍勇亦师亦友,从初识至今,亦二十年有余矣。在这漫漫的岁月长河中,他一直在成长、变化着,从仰望星空的少年到脚踏大地的耕耘者,正如他的笔名——“陶耘”一样,他既在播撒种子,也在收获希望。在这个过程中,他对“文学”的那份执着与热忱,一如既往,从未改变。从一个腼腆少年到资深出版人,从一个文学爱好者,到《梦想天空》的作者,他在恪守“初心”的同时,其实也在不断地证明并挑战着自己。最早知道《梦想天空》的写作
中国科幻银河奖,以“银河”为名,是取其“群星汇聚”之意。首届由天津《智慧树》和成都《科幻文艺》(现《科幻世界》前身)两家杂志联合举办,然而,未到1986年5月颁奖之时,《智慧树》就宣告停刊。此后,银河奖由《科幻世界》独家主办至今,自1986年起,银河奖已经走过了三十年的辉煌历程。三十年,一本杂志、十万余篇征文来稿、一千余篇刊发作品、二百四十七篇/部(含长篇小说特别奖和短篇读者提名奖)获奖作品,共同