基于分布式文件系统的MPP数据库扫描操作调度研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:peiyhpyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于关系型数据库的MPP(Massive Parallel Processing,大规模并行处理)数据库因其对SQL标准的完善支持和大规模并行处理的方式,为大数据处理和分析提供一种很好的解决方案。但由于其底层使用的是本地文件系统,因此不能完全满足海量数据存储的要求。在海量数据存储和管理上,分布式文件系统因其在可靠性、可用性和可扩展性上的良好表现越来越多的被采用。因此,基于分布式文件系统的MPP数据库成为了目前的研究热点。在关系型数据库中,扫描操作几乎是所有查询的最底层操作。在执行查询时往往会进行数据扫描操作,由查询引擎调度负责执行查询操作的执行单元来扫描存储在分布式文件系统上的数据。在执行数据扫描操作前,需要对执行单元进行调度,以便确定对哪些数据块进行扫描。在执行数据扫描操作时,不同的执行单元根据调度结果扫描各自的数据块。由于数据块在分布式文件系统中的分布情况各有不同,当执行单元和待扫描的数据块不在同一个物理节点上时,将通过网络读取,产生网络延迟,进而影响查询的执行效率。本文的研究围绕在基于分布式文件系统的MPP数据库中如何更有效的进行扫描操作的调度上。本文选取了一款主流的MPP数据库HAWQ作为研究对象,讨论在HAWQ系统中查询的扫描操作调度问题。本文首先针对HAWQ系统中扫描操作调度的过程,对扫描操作调度问题进行了详细的分析和定义,使用形式化的描述建立了调度问题的模型,总结出这个问题中的关键因素,包括数据块的读取代价、节点的工作负载,以及执行单元和数据块的分配关系。目前的调度方法是基于文件中数据块连续性,但是这种方法仅关注最大化读取数据本地副本,未考虑节点的工作负载的情况。因此,本文提出了一种基于节点负载的扫描操作调度方法。这种方法同时结合了数据本地性和节点负载两方面进行考虑,一方面通过本地读分配阶段保证调度结果满足良好的数据本地性,另一方面基于节点的实时工作负载对中间调度结果进行重分配调整,以达到减少数据扫描操作完成时间的目标。本文在模拟实验中以数据本地性和完成时间作为衡量指标,评价了本文提出的方法和目前已有的方法在这两项指标上的综合性能。实验结果表明,本文提出的基于节点负载的调度方法综合性能更好,在9种测试情况中都能产生所需完成时间更少的查询调度策略,平均优化达25%,达到预期目标。
其他文献
为了满足第五代移动通信高频谱效率、高速率和低延迟的需求,面向非正交多址接入(NOMA)技术开展了越来越多的研究。功率域NOMA的基本思想是通过叠加编码(SC),利用接收功率差异
近期研究表明,传统的供水管网模拟软件EPANET所应用的节点完全混合理论与节点处的实际混合情况有很大的不同,它将会对水质模拟结果造成相当大的误差。本文的目标是整合课题组
随着经济全球化和区域经济一体化发展不断深入,全球价值链分工模式成为经济全球化的新常态,国家参与全球经济活动离不开对外贸易和投资。与此同时,中国经济也开始进入新常态,
钾元素与植物生长发育密切相关,是多种农作物的品质指标,在植物细胞内参与多种生物学路径,具有复杂的分子调控网络。空心莲子草(Alternanthera philoxeroides)具有较强的适应
股东会决议不成立制度属于公司法上股东会决议瑕疵救济体系的一部分,其调整的是股东会决议程序有严重瑕疵的情形。长期以来,我国并未在立法中规定决议不成立制度,学者们以股
脱落酸(ABA)受体PYR/PYL/RCAR通过与渗透胁迫诱导的ABA结合,参与植株体内ABA介导的信号转导过程,在调控植株干旱逆境抵御过程中具有重要的生物学功能。本研究对1个响应干旱的
教育改革具体落实的重点在于教师,《普通高中生物学课程标准(2017年版)》中指出要将生物学核心素养作为培养学生的标准。要学生具备生物学核心素养的前提是教师要具备相关素
在码头工程设计领域,国外的主流标准规范已采用基于位移的抗震设计方法,而国内仍采用《水运工程抗震设计规范》(JTS146-2012)这一基于力的设计规范,未能体现基于性能的抗震设
近年来,刺激响应性纳米药物递送载体得到了广泛的关注与发展。其中,pH响应纳米药物载体是研究最为广泛的一类纳米载体。而pH响应纳米药物载体的设计关键在于找到一个窄的恰当
当前债券市场日益繁荣,城投债逐渐受到追捧。但由于我国债券市场还不够成熟、债券发行主体自身资质较浅、以及信息披露制度不完善、信息披露落实不到位等因素的影响,其产生的