论文部分内容阅读
作为云计算的核心基础设施和下一代网络技术的创新平台,运行大规模分布式计算任务的数据中心在全世界范围内构建;其中以分布式文件系统(Hadoop Distributed File System, HDFS)和MapReduce (Google MapReduce的开源实现)为核心的开源分布式计算平台hadoop;凭借高可靠性、高扩展性、高效性、高容错性的优点在数据中心中得到广泛部署;对于数据中心网络,新型拓扑结构和各种带宽共享机制也使网络吞吐率得到很大改善。然而,计算资源优化与网络传输优化没有直接的相关性;因为,不同的优化策略产生不同的流量矩阵;不同流量矩阵对于网络负载影响不同,进而影响计算性能的程度也不同。另外,hadoop发展时间相对比较短,对多工作(jobs)情况下的数据分配和处理还不够完善。因此,基于计算端与网络端联合优化和SDN(Software Defined Network)思想,本文设计了可扩展性的VM任务放置与网络路由联合优化的方案。在此方案中,首先分析和介绍了HDFS文件系统的工作原理和MapReduce的计算流程;并且搭建Hadoop平台测试MapReduce计算性能和HDFS文件系统的数据存储方式;然后,根据测试中统计的信息和相关的文献资料总结出现的问题;接下来介绍数据中心网络拓扑Fat-Tree,应用于Fat-tree中的等价多路径(ECMP)协议和SDN的思想;紧接着,给出具体任务分配方案和基于Fat-tree网络拓扑的联合方案,确定出各种不同工作的HDFS划分文件和map/reduce任务的合理分配位置;根据Fat-tree拓扑结构的特点,在ECMP协议基础上设计新的带宽分配算法。最后,实验验证联合优化方案,结果表明,我们的方案在保证计算优化的基础上能够提高网络吞吐率,并且改善了不同工作数据流的网络传输。