论文部分内容阅读
在传统数据库管理系统中,数据处理的所有过程都是在主机中完成,需要从外存储设备传送大量数据到主机内部,因此数据传送过程是影响系统性能的瓶颈之一。随着智能存储设备(如Smart SSD,Smart Solid State Drive)的快速发展,其内部具备一定计算能力和高带宽,满足存储端数据处理模型的需求,该模型能够很好地解决这个性能瓶颈。存储端数据处理模型的核心思想是把部分计算下放到智能存储设备中运行,对数据进行预处理,减少总线上传输的数据量。然而,当前固态硬盘的数据计算能力要弱于主机内部的中央处理器,需要对下放计算进行筛选才能保证模型的优化效果。因此,在存储端数据处理模型中,为了能够有效提高系统性能,各方面影响因素下的下放计算的筛选工作是一个很重要的研究课题。但是从目前的研究来看,现有研究缺乏全面的存储端数据处理的性能影响因素分析模型,很难保证每一次优化后的效果,无法科学地指导系统性能优化工作。鉴于此,本论文的研究工作具体如下:1)DBMS数据处理及性能影响因素研究:首先在传统系统架构与存储端数据处理架构的基础上,分析存储端数据处理模型与传统数据处理模型的区别,进而识别出数据迁移以及数据处理过程中主要的性能开销部分;然后详细对比两个模型的数据处理开销公式,分析数据处理过程中的异同;最后结合传统DBMS思想与存储端数据处理模型的工作原理,总结出存储端数据处理模型中影响系统性能提高的三个方面因素。2)数据库算子的前置关系影响因素研究:针对在研究中发现数据库算子之间存在前置执行关系,如果下放算子不当则会造成数据逆向传输问题,导致总线上数据传输量进一步增大,使优化效果负增长。然后基于算子前置关系提出前置关系概率表,为算子的下放优先级排序。最后是结合前置关系和前人方案,提出基于前置关系的下放算子筛选方案,并通过实验对比该筛选方案的优越性。3)数据特征影响因素研究:数据特征是指数据基于DBMS进行存储时涉及的各类参数,如数据库表规模。数据特征会对查询过程中目标数据的查询速度和目标数据的处理速度造成直接影响,本章主要从数据库表的大小、数据库表的过滤比和数据库表的索引结构三个主要方面分析,给出不同影响因素下性能估算方法和性能变化趋势。最后实验表明,这三方面数据特征因素对系统性能的影响不是线性的;而是存在一个临界值。只有达到临界值时优化效果才慢慢凸显,而且临界值受到多方面因素共同影响,会随着环境的改变而改变。4)设备性能影响因素研究:系统设备性能是指系统硬件的工作参数,如CPU主频大小和系统带宽大小。由于CPU资源与数据处理速度直接关联,I/O资源与数据传输速度直接关联,这两方面资源都容易造成系统性能瓶颈,因此这两方面的优化工作十分有利于系统性能的提高。本章给出了不同影响因素下性能估算方法和性能变化趋势,并通过实验表明,在设备性能影响因素方面的优化对系统性能的提升是有限。优化效果存在临界值,并不会随着设备性能的提升而持续增长,只要到了临界值就不用再往设备性能影响因素方面优化。综上所述,本论文主要从理论分析和实验验证两方面对存储端数据处理模型下的性能影响因素进行研究。首先理论上通过传统系统架构和存储端数据处理系统架构分析相应的数据处理模型的异同点,并基于两者数据处理模型的差异归纳出影响系统性能的主要因素。通过实验表明,在各方面影响因素下基于前置关系的筛选方案的优化效果均要显著优于基于输入/输出的数据量之比的筛选方案,而且给出了在不同影响因素下性能估算方法和性能变化趋势,并对比不同系统架构的优化效果,根据实验结果作出相应评价,具体指导各方面影响因素下DBMS的优化工作。