论文部分内容阅读
随着互联网的快速发展,各类大型企业和互联网公司对数据的处理形式越来越多样化。一般情况下,需要对用户海量数据进行有效地处理及分析。由于数据量巨大,所需的计算量不是单台电脑在合理的时间内能够完成的。针对海量数据处理的应用背景,我们设计实现了基于分布式计算的海量数据处理系统。本文主要针对这一系统中的子节点分布式计算节点的设计与实现展开研究。分布式海量数据处理系统的目的在于快速的处理海量数据,即具有高效和高可靠的数据分析处理机制。其思想主要是借鉴Map/Reduce的基本思想将海量数据以结构化的形式分布到多个数据节点中,再根据一系列的计算,从多个数据节点中提取用户需要的数据进行分析和查询。本文着重介绍系统中计算节点的设计思想与实现技术,提出了多层次通信处理框架,并在此框架上设计了一种动态分级归并查询策略,实现一个具有高效及高可靠性的分布式计算系统。本文主要做了以下几方面的工作:第一,分布式海量数据处理系统的基础架构设计。通过对现有的分布式计算技术的研究与对比,面向电信数据提出了主要由主控节点与计算资源池节点组成的分布式海量数据处理系统的基本结构框架,该架构满足了电信海量数据分布式计算的要求,避免由集中式系统或纯分布式系统所带来的不可靠性、可控性不高等问题。第二,子系统计算节点的设计与实现。设计并实现了分布式海量数据处理系统中计算节点服务器的多层次通信框架结构,使之具有高性能高可扩展性,实现业务与平台无关性,并针对电信大量数据提供了实际应用中(对网元数据进行收集,汇总,查询)的分布式计算功能。第三,计算节点中查询任务机制的设计与实现。通过对Map/Reduce框架的分析,在计算节点中针对数据实时的结构化的查询设计实现了动态分级归并查询策略,使得系统具有较为高效的实时查询机制。最后对分布式海量数据处理系统的计算节点进行功能测试,性能测试。测试表明了计算节点的有效性和高效性。