论文部分内容阅读
每天微博上的留言转载、电子商务网站上的用户点击流、各种音视频记录文件、大量的网络服务日志……大数据时代扑面而来。大数据有三V特征——海量(Volume)、多样(Variety)和实时分析(Velocity)。3月30日,在2012第五届中国数据中心大会的大数据分析与数据治理分论坛上,杭州瑞网广通技术有限公司总裁杨建军就介绍,他们为平安城市、智能安防、数字城市监控云所做的项目的数据量都已是PB级的。如何对海量的结构化和非结构化数据做实时分析,从而支撑决策,是大数据时代业界的共同挑战。
数据分析:从挖金土豆到筛金沙
大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”
但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。
Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。
从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C )新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。
北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。
职场新贵:数据科学家
针对大数据而生的新一代分析工具——Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。
除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业——数据科学家会越来越火。
张新宇介绍,近十年来做数据分析的从业人员数量急剧上升,已经占到所有行业从业人数的0.01%。数据科学家有很强的技术功底,除了传统的会写SQL,还会与非关系型数据打交道,熟悉很多数据分析的软件,有很强的数据功底,对业务也很敏感。另外,数据科学家也会有很强的好奇心或求知欲,他要很明确地知道,当发现业务问题的时候如何通过业务模式的调整去解决。他既是一个数据分析的专家,也可能是一个SaaS的专家,也可能是个超级用户,或者是一个Java的程序员,自己写程序处理。
传统的ETL 开发人员、应用模型人员/OLAP架构师或者Data 管控及主数据管理人员主要在关系型数据上工作。与他们不同,数据科学家通常与非关系型数据打交道,会很早接触并采用企业内部的新数据源,要针对数据模型及数据结构没有预先设定的情况,习惯使用各种比较灵活的语言,会有各种新的数据产品的可执行的想法。
数据分析:从挖金土豆到筛金沙
大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”
但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。
Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。
从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C )新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。
北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。
职场新贵:数据科学家
针对大数据而生的新一代分析工具——Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。
除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业——数据科学家会越来越火。
张新宇介绍,近十年来做数据分析的从业人员数量急剧上升,已经占到所有行业从业人数的0.01%。数据科学家有很强的技术功底,除了传统的会写SQL,还会与非关系型数据打交道,熟悉很多数据分析的软件,有很强的数据功底,对业务也很敏感。另外,数据科学家也会有很强的好奇心或求知欲,他要很明确地知道,当发现业务问题的时候如何通过业务模式的调整去解决。他既是一个数据分析的专家,也可能是一个SaaS的专家,也可能是个超级用户,或者是一个Java的程序员,自己写程序处理。
传统的ETL 开发人员、应用模型人员/OLAP架构师或者Data 管控及主数据管理人员主要在关系型数据上工作。与他们不同,数据科学家通常与非关系型数据打交道,会很早接触并采用企业内部的新数据源,要针对数据模型及数据结构没有预先设定的情况,习惯使用各种比较灵活的语言,会有各种新的数据产品的可执行的想法。