论文部分内容阅读
在大数据的时代,企业需要能对大量的结构、半结构和非结构化数据进行快速分析的能力,而且相对传统的结构化数据,大数据通常意味着更大的数据量,同时其可利用价值要低一些,这就对大数据的分析和处理方法提出了更高的要求。
“大数据具有三个特征,即海量、数据结构多样、数据生成速度快,但在目前这个阶段,特别是谈到数据的分析和利用时,最要紧的还是性能问题。”SAS公司大中国区咨询服务和技术总监姚远在接受记者采访时告诉记者。
作为专门从事数据分析的厂商,SAS对于数据分析引擎遇到的性能瓶颈有着更为切身的体会。实际上,这也正是SAS于不久前推出高性能分析产品High-Performance Analytics(HPA)的主要原因之一。SAS的HPA含有一系列可在高度扩展、基于内存的分布式架构中执行分析的产品,利用它用户可以使用过去不可能使用的大量数据去研究和模拟各种场景,并显著提升分析运算的处理速度。
据姚远介绍,HPA之所以能克服数据分析在性能上的瓶颈,主要得益于其四项关键技术:第一个是网格计算,基于它分析引擎可自动使用网络环境下集中控制的资源库,实现工作负载均衡、高可用性和并行处理;第二个是内存分析技术,与SAP HANA类似,数据暂存在内存进行分析,少了数据从存储介质中存取的过程,从而提高了分析性能;第三个是数据库内分析,即把计算和分析过程直接加载到数据库中进行,从而提高处理的速度;第四个是大数据的可视化分析,可帮助企业及时地从数据中获得必要的信息。
“分析性能的提高并不是单靠某一种技术实现的,它是综合利用多种技术的结果。也正是有了这些技术,HPA才可以应对大数据分析和处理时的性能要求。”姚远说。
姚远特别强调,一个好预测分析引擎对大数据固然很重要,但数据分析专家同样不可少。因为数据分析是需要行业知识的,只有懂得行业的分析师,才有可能知道要分析什么,最终产生好的投资回报。
“大数据具有三个特征,即海量、数据结构多样、数据生成速度快,但在目前这个阶段,特别是谈到数据的分析和利用时,最要紧的还是性能问题。”SAS公司大中国区咨询服务和技术总监姚远在接受记者采访时告诉记者。
作为专门从事数据分析的厂商,SAS对于数据分析引擎遇到的性能瓶颈有着更为切身的体会。实际上,这也正是SAS于不久前推出高性能分析产品High-Performance Analytics(HPA)的主要原因之一。SAS的HPA含有一系列可在高度扩展、基于内存的分布式架构中执行分析的产品,利用它用户可以使用过去不可能使用的大量数据去研究和模拟各种场景,并显著提升分析运算的处理速度。
据姚远介绍,HPA之所以能克服数据分析在性能上的瓶颈,主要得益于其四项关键技术:第一个是网格计算,基于它分析引擎可自动使用网络环境下集中控制的资源库,实现工作负载均衡、高可用性和并行处理;第二个是内存分析技术,与SAP HANA类似,数据暂存在内存进行分析,少了数据从存储介质中存取的过程,从而提高了分析性能;第三个是数据库内分析,即把计算和分析过程直接加载到数据库中进行,从而提高处理的速度;第四个是大数据的可视化分析,可帮助企业及时地从数据中获得必要的信息。
“分析性能的提高并不是单靠某一种技术实现的,它是综合利用多种技术的结果。也正是有了这些技术,HPA才可以应对大数据分析和处理时的性能要求。”姚远说。
姚远特别强调,一个好预测分析引擎对大数据固然很重要,但数据分析专家同样不可少。因为数据分析是需要行业知识的,只有懂得行业的分析师,才有可能知道要分析什么,最终产生好的投资回报。