论文部分内容阅读
“IDC报告显示,到2020年,中国产生的数据量将达到9ZB。“如果将这些数据印刷装订成册,形成的书将厚得超过在冥王星和地球之间往返30次的距离。”2月25日,在英特尔至强处理器 E7 v2 产品家族的发布会上,英特尔(中国)有限公司产品平台事业部总经理Brent Young所形容的这个数据世界,离我们还有不到6年。但今天,大多数人一定依然觉得它十分遥远。
不要着急,我们与数据亲密接触的时间,或许能伴随英特尔至强处理器 E7 v2 产品家族的面世而大幅缩短。作为通往大数据未来的关键,这个全新的计算平台或许会驱动整个产业链向大数据快步进发。
内存计算的突破
正如Brent Young所说,对计算平台而言,大数据是一种“新负载”,它所对应的将是对内存计算、内存分析和大规模虚拟化的需求。英特尔至强E7 v2正是为这种“新负载”而设计的。拥有最多15个处理内核,每插槽1.5TB内存容量,平均性能为上一代产品的两倍,最高可支持32路的服务器平台……这些改变,让英特尔至强E7 v2相比上一代产品有了本质上的变化。
人们对大数据的最初设想,是具备对数据的实时分析能力,而支撑实时分析能力的恰恰是内存计算。过去几年,应用层的众多需求都指向内存计算,这个诉求虽然一直驱动着计算的发展,但质的变化远没有E7 V2显著。从以往计算平台的演进来看,多核、并行的发展趋势,并不能有效解决大数据实时分析的需求。在浪潮集团副总裁胡雷钧看来,E7 V2与上一代产品相比,内存的可扩展能力提升了3倍,是最令人感到兴奋的地方。原先必须放到硬盘上的数据现在可以放到内存中,意味着未来80%以上的数据库都可以放在内存中运行,连续的数据处理能力将大幅提升,其意义将是划时代的。
“基于Hadoop架构的大数据分析,对处理器和内存之间的带宽要求同样很高。光有大内存并不一定会让内存计算发挥其应有的效力。E7 v2不仅有足够大的内存容量,还有足够强大的内存带宽的扩展能力,才能让软件体现出足够好的性能。”胡雷钧强调,这些新特性将让未来的大数据应用有更大的发挥空间。
大数据是技术推动的结果,扼制住大数据的恰恰也是技术本身的局限性。长久以来,内存计算的变革主要依赖系统上的优化,“胡雷钧们”要突破众多技术难关仅能获得“一小步”改善。而基于计算平台的突破性变革,才是让内存计算跨出“一大步”的关键。
从分析到实时分析
数据宇宙中的东西对人们似乎很重要,但当前的大数据分析、大数据应用,还远远没有达到人们的预期。人们已经看到了那个将由大数据改变一切的未来,但却触不可及;人们努力尝试着各种大数据应用,但代价却是长时间的等待或高昂的成本。基于传统的计算平台,大数据的价值根本没有被挖掘出来。
在发布会现场,戴尔的工程师展示了一个真实的大数据应用案例。这是一个基于HANA和BU平台的智能交通应用,主要是对一个城市的交通状况进行实时分析,数据量约为100亿条、40TB。按照戴尔大中华区企业级解决方案部市场总监彭宇恒的话说,这个演示如果运行在以前的平台至少需要几个小时,有时甚至还“跑”不出来。但在E7 V2平台上,不管是基于投入、成本比或劳动强度进行的运价补贴可选性分析,还是通过基于空间热点的地理位置分析实现的车辆调度、驾驶路径优化,抑或是基于一定区域对空车空载率的行驶速度和负重车行驶速度的分析判断城市道路拥堵状况,出分析结果的时间均为秒级。
“比如我们选择一周的数据,一般是100GB左右。再选择管理驾驶舱,再选择一个时间段,系统就会立即对这个时间段的数据进行回归分析,得出数据分布图,还能细化到每小时、每天、每辆车的数据展示,参数可以随时调整。”彭宇恒的整个演示过程就像在玩游戏,无需等待,所有的分析结果都是实时按照他的操作显示成图表。对于这样惊人的分析速度,彭宇恒给出的解释是,因为这是“内存计算”。所有的数据都在内存中,可以被实时读取,所以数据分析的图形可以实时动态变化。
这次演示带给观者的最强烈感受是,一直在阻碍人们接近大数据应用时代的东西似乎已被移除。如果说这是计算平台的又一次进步,那么这次进步正在改变的正是人们对数据分析、数据应用的感官认知。更关键的是,它带来了成本效益上的巨大变化,而这才是大数据被广泛应用的前提。
2018年,内存计算技术市场规模将达到132.3亿美元,是2013年的6倍之多。内存计算会在系统内存中放置整个大型数据集进行分析,而非在传统硬盘上进行。这意味着企业可以“实时”完成复杂的数据分析,为用户提供之前无法想象的全新体验和服务。面对海量数据的实时分析,企业束手无策,很难高效、实时地分析数据,并用其进行高效的商业决策、改善用户体验、完成精准的广告营销等的局面将宣告结束。
服务器产业再度进入创新期
E7 v2的价值还不仅仅是在大数据分析领域发酵。胡雷钧认为,在关键业务领域,E7 v2对于大幅提升系统稳定性又提供了更多的可能。“几年前,在底层硬件平台还没有像今天这么完善的情况下,我们一直在上层寻求突破。但实际上,如果从系统的角度去做更多保障CPU稳定性的设计,不仅困难大,耗费的精力也会很多,而且还可能费力不讨好。一个处理器的生命周期一般只有两年或两年多一点,但这种优化就要花上几个月甚至半年时间。”他告诉记者,现在很多问题都已经被英特尔在处理器端解决,上层的软件可以做更多创造性工作。例如,过去如果处理器周边的电路上落有灰尘,在电磁环境不好的时候,随时可能因为静电短路发生错误,而这些意外错误积累到一定程度随时可能会发生突变。如果可以利用软件查看到这些问题,就可以立即解决,而以前这些问题是没有办法解决的。现在我们通过CPU提供的一些特性就可以用软件随时冻结或关闭CPU,而不影响业务运行。因为处理器有了这样的特性,服务器厂商才能在系统平台上进行相应的设计,处理器特性的丰富也会给浪潮的设计带来更大的想象空间。
“从计算的角度看,E7 v2将会带来强劲的创新加速效应。”在胡雷钧眼中,服务器厂商等待已久的创新机会即将因为E7 v2而到来。
通过E7 v2,英特尔已经把高性能计算领域的很多关键技术移植到了商业应用领域,商用服务器产品的潜能将由此被激发,而在大数据分析领域,它又提供了解决核心问题的突破性方法。当初,E5的推出曾被服务器市场认为是恰逢“云”时,而今天E7 v2的面世在大数据领域似乎也产生了类似的效果。英特尔如果能赢得整个产业链的响应,很可能会让国内的大数据应用在明年出现全新局面。
不要着急,我们与数据亲密接触的时间,或许能伴随英特尔至强处理器 E7 v2 产品家族的面世而大幅缩短。作为通往大数据未来的关键,这个全新的计算平台或许会驱动整个产业链向大数据快步进发。
内存计算的突破
正如Brent Young所说,对计算平台而言,大数据是一种“新负载”,它所对应的将是对内存计算、内存分析和大规模虚拟化的需求。英特尔至强E7 v2正是为这种“新负载”而设计的。拥有最多15个处理内核,每插槽1.5TB内存容量,平均性能为上一代产品的两倍,最高可支持32路的服务器平台……这些改变,让英特尔至强E7 v2相比上一代产品有了本质上的变化。
人们对大数据的最初设想,是具备对数据的实时分析能力,而支撑实时分析能力的恰恰是内存计算。过去几年,应用层的众多需求都指向内存计算,这个诉求虽然一直驱动着计算的发展,但质的变化远没有E7 V2显著。从以往计算平台的演进来看,多核、并行的发展趋势,并不能有效解决大数据实时分析的需求。在浪潮集团副总裁胡雷钧看来,E7 V2与上一代产品相比,内存的可扩展能力提升了3倍,是最令人感到兴奋的地方。原先必须放到硬盘上的数据现在可以放到内存中,意味着未来80%以上的数据库都可以放在内存中运行,连续的数据处理能力将大幅提升,其意义将是划时代的。
“基于Hadoop架构的大数据分析,对处理器和内存之间的带宽要求同样很高。光有大内存并不一定会让内存计算发挥其应有的效力。E7 v2不仅有足够大的内存容量,还有足够强大的内存带宽的扩展能力,才能让软件体现出足够好的性能。”胡雷钧强调,这些新特性将让未来的大数据应用有更大的发挥空间。
大数据是技术推动的结果,扼制住大数据的恰恰也是技术本身的局限性。长久以来,内存计算的变革主要依赖系统上的优化,“胡雷钧们”要突破众多技术难关仅能获得“一小步”改善。而基于计算平台的突破性变革,才是让内存计算跨出“一大步”的关键。
从分析到实时分析
数据宇宙中的东西对人们似乎很重要,但当前的大数据分析、大数据应用,还远远没有达到人们的预期。人们已经看到了那个将由大数据改变一切的未来,但却触不可及;人们努力尝试着各种大数据应用,但代价却是长时间的等待或高昂的成本。基于传统的计算平台,大数据的价值根本没有被挖掘出来。
在发布会现场,戴尔的工程师展示了一个真实的大数据应用案例。这是一个基于HANA和BU平台的智能交通应用,主要是对一个城市的交通状况进行实时分析,数据量约为100亿条、40TB。按照戴尔大中华区企业级解决方案部市场总监彭宇恒的话说,这个演示如果运行在以前的平台至少需要几个小时,有时甚至还“跑”不出来。但在E7 V2平台上,不管是基于投入、成本比或劳动强度进行的运价补贴可选性分析,还是通过基于空间热点的地理位置分析实现的车辆调度、驾驶路径优化,抑或是基于一定区域对空车空载率的行驶速度和负重车行驶速度的分析判断城市道路拥堵状况,出分析结果的时间均为秒级。
“比如我们选择一周的数据,一般是100GB左右。再选择管理驾驶舱,再选择一个时间段,系统就会立即对这个时间段的数据进行回归分析,得出数据分布图,还能细化到每小时、每天、每辆车的数据展示,参数可以随时调整。”彭宇恒的整个演示过程就像在玩游戏,无需等待,所有的分析结果都是实时按照他的操作显示成图表。对于这样惊人的分析速度,彭宇恒给出的解释是,因为这是“内存计算”。所有的数据都在内存中,可以被实时读取,所以数据分析的图形可以实时动态变化。
这次演示带给观者的最强烈感受是,一直在阻碍人们接近大数据应用时代的东西似乎已被移除。如果说这是计算平台的又一次进步,那么这次进步正在改变的正是人们对数据分析、数据应用的感官认知。更关键的是,它带来了成本效益上的巨大变化,而这才是大数据被广泛应用的前提。
2018年,内存计算技术市场规模将达到132.3亿美元,是2013年的6倍之多。内存计算会在系统内存中放置整个大型数据集进行分析,而非在传统硬盘上进行。这意味着企业可以“实时”完成复杂的数据分析,为用户提供之前无法想象的全新体验和服务。面对海量数据的实时分析,企业束手无策,很难高效、实时地分析数据,并用其进行高效的商业决策、改善用户体验、完成精准的广告营销等的局面将宣告结束。
服务器产业再度进入创新期
E7 v2的价值还不仅仅是在大数据分析领域发酵。胡雷钧认为,在关键业务领域,E7 v2对于大幅提升系统稳定性又提供了更多的可能。“几年前,在底层硬件平台还没有像今天这么完善的情况下,我们一直在上层寻求突破。但实际上,如果从系统的角度去做更多保障CPU稳定性的设计,不仅困难大,耗费的精力也会很多,而且还可能费力不讨好。一个处理器的生命周期一般只有两年或两年多一点,但这种优化就要花上几个月甚至半年时间。”他告诉记者,现在很多问题都已经被英特尔在处理器端解决,上层的软件可以做更多创造性工作。例如,过去如果处理器周边的电路上落有灰尘,在电磁环境不好的时候,随时可能因为静电短路发生错误,而这些意外错误积累到一定程度随时可能会发生突变。如果可以利用软件查看到这些问题,就可以立即解决,而以前这些问题是没有办法解决的。现在我们通过CPU提供的一些特性就可以用软件随时冻结或关闭CPU,而不影响业务运行。因为处理器有了这样的特性,服务器厂商才能在系统平台上进行相应的设计,处理器特性的丰富也会给浪潮的设计带来更大的想象空间。
“从计算的角度看,E7 v2将会带来强劲的创新加速效应。”在胡雷钧眼中,服务器厂商等待已久的创新机会即将因为E7 v2而到来。
通过E7 v2,英特尔已经把高性能计算领域的很多关键技术移植到了商业应用领域,商用服务器产品的潜能将由此被激发,而在大数据分析领域,它又提供了解决核心问题的突破性方法。当初,E5的推出曾被服务器市场认为是恰逢“云”时,而今天E7 v2的面世在大数据领域似乎也产生了类似的效果。英特尔如果能赢得整个产业链的响应,很可能会让国内的大数据应用在明年出现全新局面。