论文部分内容阅读
传统的数据分析平台Pig的执行引擎是MapReduce,由于MapReduce的局限性,使得数据处理过程中存在高延迟,内存开销大等缺点Q为克服这些不足,文中基于当下最流行的内存计算框架Spark,在保留传统数据分析平台Pig语言特性和基础设施的基础上,开发实现了一种全新的数据分析处理平台,并通过具体实验对比两个数据平台的性能。实验结果证明,基于Saprk的数据分析平台在数据处理速度上远远高于传统的数据分析平台PigQ