论文部分内容阅读
当今社会是一个信息急速膨胀的时代,随着企业对数据量分析要求的急剧扩大,简单的添加硬件资源不仅提高了成本而且还不能满足海量数据的大规模处理,原有的集群规模和处理数据能力已远远达不到人们的需求。因此本文提出了一种新的处理解决方案,论文中所描述的系统“Whale”使用MPP(MassivelyParallel Processing)无共享架构通过分布式SQL执行实现了海量数据对有效信息的提取,后端使用MySQL作为分析引擎,通过上层节点并行控制引擎的执行,并且应用分布式文件结构使系统存储具有可靠性。首先,为了解决现有海量数据分析商业产品的瓶颈和不足,本课题认真研究了国内外有关数据仓库、并行计算、分布式架构的情况,对行业发展现状有了一定了解,提出了就容错性、复杂性分析、可扩展性相关的需求分析和主要涉及技术。其次,本文以Windows作为开发平台,Eclipse作为开发工具,并部署在Linux集群上运行。通过对需求分析的满足提出了主从式架构和工作流程,系统被分为客户端和服务端,通过远程过程调用实现端到端的通信,客户端其主要任务是和用户进行交互获取请求返回结果,这一系列的过程中,生成SQL用户类型的查询计划是处理分配数据的核心步骤,所以其中对SQL语法解析、执行计划生成的完成是解决问题的关键。服务端有主守护进程和从属守护进程,主守护进程部署在中心节点上,从属进程部署在从属节点上。主节点从客户端接受执行计划并在从属节点指挥一系列数据分片并行处理,从属节点则通过存储引擎做实际的数据分析。Meta-Data模块集成于主节点上为整个系统提供服务,其中包括表模式及表中数据分片位置信息等。这是一种设计合理且轻量级架构,使用MySQL的不同存储引擎,使得在不同场景下对海量数据的处理都能得到满足,上层架构使得系统易于向外进行扩展并且通过添加新节点来适应不断增长的大数据。通过上述设计系统解决了复杂分析、可扩展及并行执行能力,满足用户对海量数据处理的需求。最后,论文从单元、功能、性能等方面对系统进行测试,并通过对系统相关成果演示,很好地展现了平台从部署到实施分析的过程,同时与其它类似的系统做了对比性测试,显示了本系统在海量数据处理能力上的优势。