面向慢查询优化的索引评估

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:shenlixi44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为慢查询添加合适的索引是提高查询性能的一个有效方法,主要通过数据库管理员等技术人员的专家经验手动选择,或者由基于规则、代价、学习等算法自动推荐索引。无论是哪种方法,都没有考虑到在索引上线到真实业务系统前对其进行评估,其有效性和安全性难以得到保障。这是因为关系数据库一般以代价模型作为执行计划选择的主要依据,而其只是将各类预定义的操作粗鲁地代价化,同时查询优化器获得的统计信息由于数据变更、数据倾斜等因素不一定准确。以上原因共同导致“理论上优秀的索引”在实际执行中对查询的优化效果是未知的,无用的索引会给数据库带来额外的更新和存储开销,更严重的还会导致此查询或其他关联查询的性能进一步退化,这在生产环境中是非常危险的。作为索引推荐的后续,索引评估是对索引上线至生产环境前进行效果验证,也是帮助实现索引优化慢查询全流程自动化的关键步骤之一。索引评估需要在不同索引配置下获取查询实际执行信息,因此依赖一个线下的测试环境,为保证基于测试环境的评估结果与索引上线后在生产环境的表现一致,如选择相同的执行计划,根据查询优化器的设计特点,测试环境需要与线上有相对一致的数据分布和足够的数据量,如何准确并高效的产生测试环境是索引评估的重点。此外索引推荐面向单条查询或工作负载,对于两种不同的评估目标,如何设计合理的评估指标以在约束条件内选出一组最优的索引集也是评估工作要解决的问题之一。因此本文提出了一种面向慢查询优化的索引评估方法,对人工或算法给出的推荐索引,基于随机抽样和数据模拟两种方法准确并高效地自动生成测试环境,对单条查询或工作负载的推荐索引进行多维度的评估,验证其对查询性能的优化效果,给出置信度较高的评估索引,保证索引上线后的有效性和安全性。此外由于索引对查询的影响可以通过执行计划体现,本文对查询执行计划的输出信息进行了解析提示和可视化,使得评估索引的效果有更直观的展示。本文工作可以概括为以下几点:(1)设计了索引评估系统Index Tuner,验证推荐索引的有效性:利用随机抽样或数据模拟两种方法产生测试环境,其中随机抽样根据Inno DB数据组织形式利用块扫描思想从生产环境进行分区抽样并合并;通过更改索引同步时机、行合并、显式事务等方法提高测试环境数据导入效率;从物理和逻辑角度设计多种评估指标,对单条查询根据得分计算选择最优索引,对工作负载设计贪心算法在存储成本约束内获得使得整体性能更优的索引集。基于测试环境添加推荐索引前后的查询评估信息,最后给出索引评估结果。(2)开发了数据模拟与生成工具Data Simulator,为基于数据模拟的索引评估方法产生测试环境:为进一步减少随机抽样方法对线上数据库密集I/O和锁争用等方面的影响和网络传输的依赖,根据查询优化器选择执行计划时关注统计信息而不是具体数据内容的特点,对线上数据库设计合理的数据分布信息采集指标和采集方式,同时为My SQL不同数据类型设计对应的随机算法,在测试环境模拟生成与线上分布类似的数据,基于模拟数据进行索引评估。(3)基于EXPLAIN开发了Query Viewer,实现查询信息提示及可视化:为解决My SQL EXPLAIN功能输出信息意义不明、执行计划表示混乱等问题,帮助用户直观了解索引对查询的影响,对文本格式的查询信息中索引相关字段进行提示,将JSON格式的执行计划设计多种解析函数进行树型可视化,更为便捷的展现查询各子操作的执行顺序及信息。本文基于关系数据库My SQL以第三方工具的形式实现了上述方案和技术,并通过相关实验验证了索引评估系统Index Tuner可以利用随机抽样或数据模拟两种方法,正确且高效生成测试环境,根据其中对单条查询和工作负载的索引选择算法和评估结果,在过滤无作用或副作用推荐索引的同时,保持生产环境中推荐索引对慢查询的优化能力。此外通过实验展示了Query Viewer对查询信息提示和执行计划可视化功能,帮助用户直观了解索引对慢查询的影响和优化。
其他文献
近年来,我国的生态环境得到了很大改善,但是局部地区的水体富营养化现象仍然非常严重。氮、磷元素的过量输入是引起富营养化的主要原因,且磷元素的影响更为明显。因此,为降低水中磷污染物的浓度,寻求一种经济、高效的除磷技术显得尤为重要。在诸多除磷技术中,吸附法因具有除磷效果好、简单易操作等优势而备受关注,吸附材料的选择对吸附除磷的效果有重要影响。在众多吸附材料中,陶粒因具有原料易获取、功能易修饰且可再生利用
学位
随着城市化的深入发展,亲子旅游逐渐成为现代都市群体非常重视的一种生活方式,在疫情之前各种以亲子为卖点的长途游和境外游产品市场反响火爆,亲子消费市场蓬勃发展。然而疫情的出现压缩了广大游客的出行空间和时间,城市内的亲子休闲产品应运而生,其中尤以各类亲子乐园的发展最为迅猛,为疫情期间低迷的旅游市场注入了一针强心剂。然而亲子乐园有别于传统的大型主题公园,其在游乐设备、营销模式、软硬件服务等各方面存在较大差
学位
目前联邦学习面临的一个关键挑战为数据分布异质性挑战,其主要表现为各参与方的数据分布是非独立同分布的(Non-IID),它使得各参与方在训练本地模型时,产生模型性能偏移问题,显著降低模型收敛性能和实用价值。此外,当联邦学习面临海量设备参与的大规模场景时,昂贵的通信开销会成为主要的训练瓶颈,尤其是对于那些通信带宽受限的设备,这将限制联邦学习在实际场景中部署应用。因此,如何提高联邦学习算法在Non-II
学位
全同态加密是当下最先进的隐私保护技术之一,它允许直接在密文上进行运算,相当于原始数据上的相同操作,并且在理论上可以实现无限次同态操作。全同态加密技术的运用场景广泛,它在云计算、安全多方计算、门限签名、电子投票等领域都起着重要的作用。特别是在云计算场景下,资源受限的客户端设备可以运用全同态加密将计算密集型任务安全地外包给半诚实的服务器进行计算,在此过程中不会向服务器透露原始数据集的任何信息,这对云计
学位
近年来,随着我国经济社会地不断发展,人民生活水平提升迅速,其健康意识的程度也在加强深化。同时随着老龄化进程的加速、家庭结构的变化,社会公众对于医疗机构护理质量提出新的要求与期待。但现实却呈现多方困境与掣肘,护理需求缺口不断增大与医护资源紧缺之间的矛盾,催生了护工队伍的形成;但围绕护工管理甚嚣尘上的负面反馈,令社会大众加大了对护工行业的关注与讨论。作为补充性护理人员,护工源于市场需求,能及时弥补住院
学位
随着钢铁货运需求的不断增加,钢厂道路拥堵、货车排队时长不确定等问题日益凸显,极大地影响了钢铁货运效率,亟需设计有效的钢厂货车滞留时长预测方法。据钢铁物流数据分析,货车在钢厂的滞留时间主要包括货车厂外排队时长与其在仓库滞留的时长两部分。然而,钢厂不同仓库装卸货作业能力的差异性、货车排队时长的长尾分布、货车在钢厂滞留的多阶段等特性,使得钢厂货车滞留时长预测面临严峻挑战。鉴于此,本文基于真实的钢铁物流数
学位
随着物联网的发展,现有的存储系统无法满足海量小数据块的存储需求,传统元数据架构也无法应对剧增的元数据规模,因此开发一款可扩展且高效的时空大数据架构用来存储、查询、分析和可视化是十分重要的。由于固态硬盘(SSD)和非易失性快速存储器(NVMe)接口等新兴技术的出现,基于非易失性存储器高速(NVMe)的固态器件在延迟和峰值带宽方面提供了前所未有的性能。但是,内核的复杂I/O堆栈阻碍了NVMe固态硬盘的
学位
<正>游戏是幼儿的基本活动,让幼儿在游戏中主动学习、自主发展,这是当下幼儿园课程改革的价值追求。通过有效观察发现幼儿游戏生长点,以环境和材料有效支持幼儿游戏发展,基于幼儿现有经验、当下兴趣及发展需求建构高品质的游戏课程,成为幼儿园课程实践和教育研究的热点。我园以充分、有效、多元、深入、融合为关键词建构游戏课程,
期刊
项目化学习是指学生在真实情境下研究并解决复杂的问题,从而掌握关键能力,该教学模式满足当前育人要求。故笔者基于“+1”教学法改良校本化中职专门用途英语项目化学习框架(下称框架),依次由框架中的项目目标、情境、活动、评价体系梳理具体环节的设计要素并确定项目设计实施路径。根据中职学习的职业性,笔者总结对接职业标准的五点设计原则:项目目标对接技能标准;项目情境对接岗位一线;项目活动对接工作任务;项目评价对
学位
核心素养这一观念在《教育部全面深化课程改革落实立德树人根本任务的意见》中被首先明确提出,以后这一观念被进一步不断的深入挖掘和研究。在《普通高中生物学课程标准(2017年版)》中将高中生物学的核心素养具体提炼为四个主要方面,生命观念、科学思维、科学探究、社会责任,明确了高中阶段生物学课程所需要实现的育人目标,指明了高中教师今后在教育教学中的主要方向。本研究在高中课堂中运用情境化教学的课堂教学策略,探
学位