大数据分析与治理

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:xiesd001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  每天微博上的留言转载、电子商务网站上的用户点击流、各种音视频记录文件、大量的网络服务日志……大数据时代扑面而来。大数据有三V特征——海量(Volume)、多样(Variety)和实时分析(Velocity)。3月30日,在2012第五届中国数据中心大会的大数据分析与数据治理分论坛上,杭州瑞网广通技术有限公司总裁杨建军就介绍,他们为平安城市、智能安防、数字城市监控云所做的项目的数据量都已是PB级的。如何对海量的结构化和非结构化数据做实时分析,从而支撑决策,是大数据时代业界的共同挑战。
  数据分析:从挖金土豆到筛金沙
   大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”
   但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。
   Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。
   从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C )新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。
   北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。
  职场新贵:数据科学家
   针对大数据而生的新一代分析工具——Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。
   除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业——数据科学家会越来越火。
   张新宇介绍,近十年来做数据分析的从业人员数量急剧上升,已经占到所有行业从业人数的0.01%。数据科学家有很强的技术功底,除了传统的会写SQL,还会与非关系型数据打交道,熟悉很多数据分析的软件,有很强的数据功底,对业务也很敏感。另外,数据科学家也会有很强的好奇心或求知欲,他要很明确地知道,当发现业务问题的时候如何通过业务模式的调整去解决。他既是一个数据分析的专家,也可能是一个SaaS的专家,也可能是个超级用户,或者是一个Java的程序员,自己写程序处理。
   传统的ETL 开发人员、应用模型人员/OLAP架构师或者Data 管控及主数据管理人员主要在关系型数据上工作。与他们不同,数据科学家通常与非关系型数据打交道,会很早接触并采用企业内部的新数据源,要针对数据模型及数据结构没有预先设定的情况,习惯使用各种比较灵活的语言,会有各种新的数据产品的可执行的想法。
其他文献
苹果引发的“蝴蝶效应”加速了3C的融合,打破了既有市场格局,将中国乃至全球ICT企业的转型推向关键阶段。    苹果天生就是个“搅局者”。   1976年,Apple I原型机在乔布斯的车库开发完成。在向惠普推介碰壁后,乔布斯等人在愚人节这天成立了苹果电脑公司,新公司主推Apple I产品。   1981年,IBM推出个人电脑并获得巨大成功。三年后,Apple Macintosh发布。随即,苹
汉柏科技有限公司(简称汉柏)是一家智能网络和云计算解决方案提供商,提供云、网、端全产业链的产品及系统整合解决方案。2011年汉柏营收突破10亿元,年复合增长率超过40%,在世界十多个地区设立了多个分支机构,产品应用于遍布全球30多个国家和地区。  汉柏每年超过20%的营收投入研发,以行业应用为核心,不断拓展产品线的深度和宽度,提供更强性能、更低成本、更高回报的云、网络、终端三大系列产品线,涵盖Cl
“Avaya已经完成了从语音通信厂商向企业协作厂商的转型,将为客户提供创新解决方案,帮助客户实现更快速、更高效的协作。” Avaya公司大中华区总裁王昀前不久在一年一度的Avaya体验之旅(Avaya Experience Tour) 巡展中表示。回顾其转型之路会发现,Avaya不仅一直在研发上不断投入,还通过多起收购加快转型之路。就在北京站巡展开始之际,Avaya宣布收购视频会议厂商Radvis
7月26日至27日, 2012 SAP中国商业同略会(2012 SAP China SAPPHIRE)将在北京国家会议中心召开。这是继2011 SAP中国商业同略会在北京成功召开之后,SAP连续第二年在中国举办这一SAP全球最高级别的盛会。  据悉,2012 SAP中国商业同略会主题为“蕴韬略、促转变 、共发展”,将邀请来自国内外政府机构、学术界及企业界领袖和专家进行主题演讲。SAP中国区市场部副
5月31日—6月2日,第十六届中国国际软件博览会(以下简称本届软博会)成功举办。《中国计算机报》于6月4日全面报道了本届软博会开幕式、展览和高峰论坛盛况。本届软博会举办的一些分论坛也是异彩纷呈,以下报道为您呈现部分分论坛的精彩内容  完善投融资环境 给软件企业一片成长沃土  霍娜  一方面我国软件百强企业的总收入抵不过苹果公司的收入,超过万人的软件企业更是屈指可数,我国软件产业需要通过并购、整合打
随着医疗健康信息化的飞速发展,在医疗健康IT领域寻找一份工作,并没有求职者想象的那么难。  —— Bill Snyder    美国联邦劳工统计局发布的最新报告预计,到2020年,美国健康医疗产业将会增加560万个工作岗位。虽然无法得知其中有多少与IT有关,但可以预料的是,随着健康医疗产业信息化进程的不断深入,这一数量肯定会很多。资产管理公司Crosstree的分析师Rob Tholemeier近
航天信息股份有限公司(以下简称航天信息)是采用现代企业管理机制的高新技术企业,由中国航天科工集团公司等十二家国内知名企业、高校于2000年11月1日共同发起成立。  2003年7月11日,航天信息在国内A股市场上市。截至2011年底,航天信息资产总额达72.22亿元,是国内最具实力的IT上市公司之一。  立足“三金”  自成立以来,航天信息依托航天的技术优势、人才优势和组织大型工程的丰富经验,以信
依靠简单经济的马太效应创造出巨大商业价值的百度,在短期内完全可以让李彦宏的日子仍然比其他几家大型的中国互联网公司的创始人都好过,因为他拥有这个行业最简单也最有效的商业模式——搜索广告。  ——本报记者 那罡    《福布斯》杂志最近公布了2011年度全球富豪排行榜,百度董事局主席兼CEO李彥宏以94亿美元的身家位列第95位,成为唯一一位跻身全球前100名的中国富豪。此外,李彦宏还超过了坐拥83亿美
2月23日,本报记者在上海独家专访了IBM系统与科技部存储产品部全球销售副总裁Sebastian Krause。在担任存储部门领导之前,Sebastian Krause一直在IBM软件集团工作。在软件领域拥有丰富经验的Sebastian Krause会给IBM的存储硬件业务带来哪些改变呢?  必须注重软件的价值  从软件部门到存储部门,Sebastian Krause欣然接受了这一角色的转变。Se
全球经济复苏缓慢,整体基础设施建设趋缓,这首先影响到的就是与智能建筑建设息息相关的综合布线行业。据悉,不少布线企业受此影响2013年全年业绩并不理想,不过美国西蒙公司不论是在中国还是在全球,收入都达到了两位数的增长。据悉,西蒙中国的业绩更是达到了有史以来的新高,年收入同比增长高达40%。  这种逆市增长的驱动力来源于哪里?细分布线市场还能发现哪些增长机会?近日,西蒙全球总裁卡尔·西蒙接受了《中国计