论文部分内容阅读
从20世纪90年代到21世纪初,油气勘探行业的计算能力每五年就会翻十倍。而近几年,这一速度更是达到了每两年翻十倍。和90年代初期相比,现在油气勘探行业的计算能力已是当初的10万倍不止。在不到25年的时间里,计算技术的每一次飞跃在助推我国石油“强国梦”实现的同时,也让整个油气勘探行业进入了高速发展期。
数据爆炸引发HPC架构、技术需求变化
随着油气资源“二次开发”需求的出现和油气勘探从陆地走向海洋进程的加速,从2011年开始,石油勘探行业就进入海量数据处理时代。为了完成海量采集数据的深度分析,从而精准定位油气资源,HPC(高性能计算)技术的重要性日趋凸显,甚至已成为油气勘探行业生产效率的支柱。
但几乎每一年,数据采集环节所产生的数据量和前一年相比,都会出现几何级数的增长,而这种增长又不断驱动着油气勘探行业HPC应用的革新。今年,数据量的爆炸式增长又一次改变了油气勘探行业HPC的应用模式。
“和去年相比,今年我们的数据量又增长了3倍。”东方地球物理公司研究院处理总中心总工程师赖能和告诉记者,随着地震采集技术的迅速发展、采集点数的增多,数据量增长的速度已经超过了他们去年的预测。无论是常规处理还是高密度处理,现今的地震处理技术都发生了不少变化,从过去单个方位的采集发展到多方位采集,再通过特殊技术将多方位采集信息充分利用。过去一年数据量的变化,让油气勘探行业对HPC应用架构和相关技术的需求都发生了较大的变化。
数据爆炸首先带来的就是HPC系统的架构变化。针对海量数据的处理,对HPC系统的并行优化和运行效率的提升非常重要。过去一年,在赖能和所负责的HPC数据中心里,英特尔SandyBridge V2架构的处理器已被广泛应用于生产系统。以至强E3、E5上市的时间来看,随着数据量的高速增长,油气勘探行业对并行计算系统节点性能提升且能耗下降的需求,显然是越来越迫切了。此外,CPU加协处理器组成的协同计算平台受到了油气勘探行业的实质性接纳,赖能和表示,他们已经测试了英特尔协处理器 Xeon Phi与GPU相互配合的效果,和至强E5 2670相比,3.6倍的性能提升的测试结果让他们非常“动心”,年内可能就会出现应用。
其次,用户的关注点也不再仅是计算节点性能的提升。“HPC主要应用于海量数据处理,但现在单个文件就能达到20TB~30TB,甚至是50TB,高效处理这种规模的数据,对整个计算系统,包括存储、网络、I/O的要求都会很高。”在赖能和看来,当前石油勘探行业的HPC挑战,并不是单纯依靠百亿亿次计算能力的实现可以解决的,HPC性能的提升开始越来越依靠三个要素——计算、网络和存储的协同。除了更高性能的计算平台外,他们过去两年的主要投入都放在了解决网络与存储的瓶颈上。在提升CPU利用率,以及通过改进算法提升并行计算性能的同时,赖能和认为过去两年对HPC系统最有效的改造措施是增加内存和升级至万兆数据网。过去两年,他们总共投入了400多万元来进行此方面的技术改造,结果是“效果非常明显,性能提升了两倍以上”。
不仅如此,去年通过采用SSD技术,在一些处理海量数据的关键算法上,赖能和发现生产系统至少能提升6倍的时间效率。而通过应用英特尔的DCM数据中心管理软件,能耗成本也下降了10%。
传统行业大数据从思考走向实践
从传统意义上看,油气勘探行业并不是一个典型的大数据行业,这是由其应用特点决定的。虽然其具备海量数据需要处理的特点,但由于采集数据文件庞大,很难通过网络实时传输、实时处理,但这并不妨碍油气勘探行业的用户从大数据解决方案中寻找可以解决自身问题的方法,以及突破其传统应用的局限性。
“去年,我们刚开始接触大数据,主要是研究‘怎么能做’的问题。今年,我们已经在考虑‘怎么做更好’了。”从大数据处理的角度来看,他们已经找到了一些规律,在很多技术上也已经度过了“磕磕绊绊”的阶段,不会再像过去那样“做一步停一步”。处理10TB的数据量级,对他们而言已是较轻松的任务了。过去处理380GB数据就要耗费9个月,今年几十TB数据只用一半时间。
“大数据最主要的工作:一是数据采集,二是数据分析,三是分析后的挖掘。”在英特尔(中国)有限公司行业合作与解决方案部中国区高级经理、行业资深架构师龚毅敏看来,虽然油气勘探行业不像互联网行业那样容易出现典型的大数据应用,但其实在很多应用场景油气勘探用户都可以用到大数据相关技术,例如油气行业的安全监控,就可以运用大数据分析实现安全保障。在电力行业,经过大数据分析进行预测后,就可以通过适当调配解决电网输电配比不均衡的问题,类似这样的场景有很多应用大数据的机会。
目前,通过在Hadoop开源社区的持续贡献,英特尔正在帮一些行业用户解决Hadoop在实际应用中系统的优化问题。结合行业应用的特点,英特尔已经和油气勘探、能源等行业的用户一起,展开了多种应用场景下的大数据技术探讨和深度合作。更多的行业用户,正因此参与到大数据应用的实践中来。
端到端的计算创新即将带来改变
尽管油气勘探这样的行业,目前主要的计算力需求依旧是来自数据中心的HPC应用,但随着数据采集技术的发展,智能物联网设备未来的广泛应用必然会为这个行业带来产能全面升级的机会。端到端的计算力提升,也会随之成为油气勘探等行业发展的新动力。
在新兴的物联网领域,英特尔目前可以提供在性能、功耗和功能上具备多样化特点的产品组合,包括至强、酷睿和凌动产品线,既有传统的处理器,也有集成了更多功能的系统芯片(SoC)。2013年,英特尔又发布了以Quark为代表的采用开放微架构的针对物联网和可穿戴设备的新一代处理器产品原型。这些产品如果搭配英特尔在物联网应用开发领域的技术成果,例如风河(WindRiver)M2M智能设备平台等,将有望大幅提升油气勘探、能源行业专用智能物联网设备开发和应用的速度。
在数据中心领域,刚刚发布的第43届全球高性能计算机TOP500榜单上,已有85%的上榜系统采用了英特尔至强处理器。新上榜系统中,有高达97%的系统采用了英特尔CPU。而至强融核协处理器,问世18个月便在TOP500榜单整体性能份额中占据了18%的输出量。无论是最新的TOP500排行榜,还是中国高性能计算TOP100排行榜上,用于地球物理研究,以及能源行业的高性能计算系统无一例外地采用了英特尔技术。在HPC领域,英特尔已经成为最重要创新技术推动者。
目前,英特尔还在推进下一代计算技术的革命,如在高性能计算领域,为冲刺百亿亿级目标,英特尔就于近日公布了代号为Knights Landing的新一代至强融核处理器计划,以及与之相搭配的英特尔Omni ScaleFabric全新互连技术。前者不但延续了现有至强融核协处理器与至强处理器在软件上的兼容性,还有望将性能提升到3TFLOPs(双精度浮点计算);后者则能实现系统内不同组件间更快速度、更高带宽与更低延迟的互连,它将被集成到Knight Landing和下一代14纳米制程的至强处理器中,可有效改善此前制约系统性能提升的数据传输瓶颈。对百亿亿次计算能力的突破,又会将行业应用带入全新的制高点。
数据爆炸引发HPC架构、技术需求变化
随着油气资源“二次开发”需求的出现和油气勘探从陆地走向海洋进程的加速,从2011年开始,石油勘探行业就进入海量数据处理时代。为了完成海量采集数据的深度分析,从而精准定位油气资源,HPC(高性能计算)技术的重要性日趋凸显,甚至已成为油气勘探行业生产效率的支柱。
但几乎每一年,数据采集环节所产生的数据量和前一年相比,都会出现几何级数的增长,而这种增长又不断驱动着油气勘探行业HPC应用的革新。今年,数据量的爆炸式增长又一次改变了油气勘探行业HPC的应用模式。
“和去年相比,今年我们的数据量又增长了3倍。”东方地球物理公司研究院处理总中心总工程师赖能和告诉记者,随着地震采集技术的迅速发展、采集点数的增多,数据量增长的速度已经超过了他们去年的预测。无论是常规处理还是高密度处理,现今的地震处理技术都发生了不少变化,从过去单个方位的采集发展到多方位采集,再通过特殊技术将多方位采集信息充分利用。过去一年数据量的变化,让油气勘探行业对HPC应用架构和相关技术的需求都发生了较大的变化。
数据爆炸首先带来的就是HPC系统的架构变化。针对海量数据的处理,对HPC系统的并行优化和运行效率的提升非常重要。过去一年,在赖能和所负责的HPC数据中心里,英特尔SandyBridge V2架构的处理器已被广泛应用于生产系统。以至强E3、E5上市的时间来看,随着数据量的高速增长,油气勘探行业对并行计算系统节点性能提升且能耗下降的需求,显然是越来越迫切了。此外,CPU加协处理器组成的协同计算平台受到了油气勘探行业的实质性接纳,赖能和表示,他们已经测试了英特尔协处理器 Xeon Phi与GPU相互配合的效果,和至强E5 2670相比,3.6倍的性能提升的测试结果让他们非常“动心”,年内可能就会出现应用。
其次,用户的关注点也不再仅是计算节点性能的提升。“HPC主要应用于海量数据处理,但现在单个文件就能达到20TB~30TB,甚至是50TB,高效处理这种规模的数据,对整个计算系统,包括存储、网络、I/O的要求都会很高。”在赖能和看来,当前石油勘探行业的HPC挑战,并不是单纯依靠百亿亿次计算能力的实现可以解决的,HPC性能的提升开始越来越依靠三个要素——计算、网络和存储的协同。除了更高性能的计算平台外,他们过去两年的主要投入都放在了解决网络与存储的瓶颈上。在提升CPU利用率,以及通过改进算法提升并行计算性能的同时,赖能和认为过去两年对HPC系统最有效的改造措施是增加内存和升级至万兆数据网。过去两年,他们总共投入了400多万元来进行此方面的技术改造,结果是“效果非常明显,性能提升了两倍以上”。
不仅如此,去年通过采用SSD技术,在一些处理海量数据的关键算法上,赖能和发现生产系统至少能提升6倍的时间效率。而通过应用英特尔的DCM数据中心管理软件,能耗成本也下降了10%。
传统行业大数据从思考走向实践
从传统意义上看,油气勘探行业并不是一个典型的大数据行业,这是由其应用特点决定的。虽然其具备海量数据需要处理的特点,但由于采集数据文件庞大,很难通过网络实时传输、实时处理,但这并不妨碍油气勘探行业的用户从大数据解决方案中寻找可以解决自身问题的方法,以及突破其传统应用的局限性。
“去年,我们刚开始接触大数据,主要是研究‘怎么能做’的问题。今年,我们已经在考虑‘怎么做更好’了。”从大数据处理的角度来看,他们已经找到了一些规律,在很多技术上也已经度过了“磕磕绊绊”的阶段,不会再像过去那样“做一步停一步”。处理10TB的数据量级,对他们而言已是较轻松的任务了。过去处理380GB数据就要耗费9个月,今年几十TB数据只用一半时间。
“大数据最主要的工作:一是数据采集,二是数据分析,三是分析后的挖掘。”在英特尔(中国)有限公司行业合作与解决方案部中国区高级经理、行业资深架构师龚毅敏看来,虽然油气勘探行业不像互联网行业那样容易出现典型的大数据应用,但其实在很多应用场景油气勘探用户都可以用到大数据相关技术,例如油气行业的安全监控,就可以运用大数据分析实现安全保障。在电力行业,经过大数据分析进行预测后,就可以通过适当调配解决电网输电配比不均衡的问题,类似这样的场景有很多应用大数据的机会。
目前,通过在Hadoop开源社区的持续贡献,英特尔正在帮一些行业用户解决Hadoop在实际应用中系统的优化问题。结合行业应用的特点,英特尔已经和油气勘探、能源等行业的用户一起,展开了多种应用场景下的大数据技术探讨和深度合作。更多的行业用户,正因此参与到大数据应用的实践中来。
端到端的计算创新即将带来改变
尽管油气勘探这样的行业,目前主要的计算力需求依旧是来自数据中心的HPC应用,但随着数据采集技术的发展,智能物联网设备未来的广泛应用必然会为这个行业带来产能全面升级的机会。端到端的计算力提升,也会随之成为油气勘探等行业发展的新动力。
在新兴的物联网领域,英特尔目前可以提供在性能、功耗和功能上具备多样化特点的产品组合,包括至强、酷睿和凌动产品线,既有传统的处理器,也有集成了更多功能的系统芯片(SoC)。2013年,英特尔又发布了以Quark为代表的采用开放微架构的针对物联网和可穿戴设备的新一代处理器产品原型。这些产品如果搭配英特尔在物联网应用开发领域的技术成果,例如风河(WindRiver)M2M智能设备平台等,将有望大幅提升油气勘探、能源行业专用智能物联网设备开发和应用的速度。
在数据中心领域,刚刚发布的第43届全球高性能计算机TOP500榜单上,已有85%的上榜系统采用了英特尔至强处理器。新上榜系统中,有高达97%的系统采用了英特尔CPU。而至强融核协处理器,问世18个月便在TOP500榜单整体性能份额中占据了18%的输出量。无论是最新的TOP500排行榜,还是中国高性能计算TOP100排行榜上,用于地球物理研究,以及能源行业的高性能计算系统无一例外地采用了英特尔技术。在HPC领域,英特尔已经成为最重要创新技术推动者。
目前,英特尔还在推进下一代计算技术的革命,如在高性能计算领域,为冲刺百亿亿级目标,英特尔就于近日公布了代号为Knights Landing的新一代至强融核处理器计划,以及与之相搭配的英特尔Omni ScaleFabric全新互连技术。前者不但延续了现有至强融核协处理器与至强处理器在软件上的兼容性,还有望将性能提升到3TFLOPs(双精度浮点计算);后者则能实现系统内不同组件间更快速度、更高带宽与更低延迟的互连,它将被集成到Knight Landing和下一代14纳米制程的至强处理器中,可有效改善此前制约系统性能提升的数据传输瓶颈。对百亿亿次计算能力的突破,又会将行业应用带入全新的制高点。