基于Spark的结构化数据连接查询优化策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:abcd55443388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,结构化数据呈爆发式增长,结构化数据逐渐从关系型数据库迁移到非关系型数据库,但是结构化数据迁移后用户面临学习成本高,连接查询困难,数据挖掘不便等问题。因此本文设计了基于Spark的连接查询软件设计,针对Spark分布式计算引擎在连接查询过程中出现中间数据量冗余和数据倾斜这两种不足进行研究与改进,并将改进方案应用至基于Spark的连接查询软件中。其中本文主要工作如下:1.本文针对Sort Merge Join连接查询策略在连接查询过程中出现的中间数据量过大这一问题,提出了谓词下推结合多级布隆过滤器对中间数据进行过滤改进。通过谓词下推能够将连接查询语句直接下推至数据源,降低磁盘I/O开销,再通过多级布隆过滤器对参与连接的属性进行频次统计,为下文的数据倾斜改进做好铺垫,同时将不参与连接查询的属性进行双向过滤,最后将过滤后的两表进行连接查询,能够有效地过滤掉无效的连接属性,使得数据量减少6.7%,过滤效率提高1.9%。能够有效降低Sort Merge Join查询策略过程中Sort和Shuffle消耗,减轻Spark集群节点的内存压力,提高Spark连接查询效率。2.针对Spark集群在连接过程中由于数据倾斜产生的长尾效应问题,本文采用成本代价模型对中间数据进行动态分区。根据前文所提出的多级布隆过滤器对连接属性的频次统计,建立中间数据倾斜模型,划分中间数据倾斜情况等级,对轻度倾斜以及重度倾斜进行数据分区,进而提出中间数据动态分区方案,并设置倾斜容忍度完成中间数据细粒度切割,对Spark集群资源进行充分利用。相较于其他数据倾斜策略改进,本文提出的改进策略内存消耗减少13.4%,总体连接查询时间缩短1.7%,能够使得Spark工作效率更高。3.通过对用户需求和市场情况分析,软件采用B/S架构进行设计并实现基于两种改进策略的Spark连接查询软件,该软件可通过Web界面与用户进行交互,简单易用。软件前端利用HTML结合CSS和Vue进行编写;后端采用经典的SSM框架对个人信息管理模块、文件管理模块、集群管理模块、查询处理模块进行实现;服务器后端数据库采用My SQL数据库进行存储,并利用Redis作为一级缓存满足软件的高并发量,加速请求反应。4.搭建集群和软件测试环境,对Spark原生数据连接策略和其他改进方案进行对比分析,实验结果说明本文所提出的数据过滤改进和数据倾斜改进能够有效地提高Spark结构化数据连接查询效率;依据软件测试标准GB/T35136-2017进行软件功能性和非功能性测试,根据测试结果表明本软件功能完备,性能能够满足日常使用需求。
其他文献
近年来,机器学习发展迅速,尤其是在自然语言处理领域取得了重要的突破。文本分类是自然语言处理中的一个重要研究领域,其中层级多标签文本分类发挥着重要作用,广泛应用于许多任务中。在层级多标签文本分类任务中,层级结构定义了标签之间的隶属关系,这使得标签之间不再独立,增加了文本分类的难度。层级多标签文本分类任务通常会面临文本特征提取困难、标签的层次结构信息无法被有效利用等挑战,为了提升层级多标签文本分类任务
学位
<正>华电国际邹县发电厂锅炉队吹灰器班全体职工共计9名,负责全厂1461台蒸汽吹灰器、声波吹灰器等设备的检修及维护工作。近两年以来班组在设备管理模式上积极探索、大胆实践,逐渐摸索出一个适用于“人员少、设备多”班组的“1+2+N”设备精益管理模式,即一个核心、两条路线、全员参与的模式。班组的设备管理从被动到变主动,不仅提高了设备稳定性、减轻了班组检修负担,还使职工精神风貌从消极变积极、职工收入从低变
期刊
在网络高速发展的时代,自然语言通常以文本的形式存在,如何处理这些海量文本数据是自然语言处理的核心。词语相似度被广泛应用在信息检索、机器翻译、智能教育等领域。短文本匹配是自然语言处理的一项更重要的技术,在中文句子中,文本由词语组成,词语相似度计算与文本相似度计算属于递进关系。本文的主要工作如下:《知网》的词语相似度计算方法很少利用词语的信息内容含量,大都是通过义原的上下位关系构造义原树,再基于义原之
学位
从全球范围看,汽车行业进入了向智能化和网联化的升级转型阶段,其中智能网联汽车是各国争相抢占的“智”高点之一。智能网联汽车队列协同控制作为智能网联汽车的一个重要应用领域,开展相关的研究对于推动国家创新、提高交通安全、实现节能减排等方面具有重大战略意义,是助推《交通强国建设纲要》、《中国制造2025》的重要举措。由于涉及到复杂的外部交通环境,车辆间的非线性耦合关系以及网联环境下交通信息交互多元化,车辆
学位
目的 探讨基于虚拟现实的双重任务康复训练对降低卒中患者跌倒风险的效果。方法 将南开大学附属医院2019年3月至2020年3月收治的260例卒中患者,按随机数表法分为对照组和观察组,各130例,给予对照组常规康复训练,给予观察组基于虚拟现实的双重任务康复训练。评估两组患者干预前后平衡功能、下肢功能、起立行走测试、10 m步行测试、步频、步速、步态、认知状态、使用肝素、行走辅助工具、医学诊断、跌倒史和
期刊
针对深圳地铁5号线南延线某车辆在上电激活时人机界面(HMI)报逻辑控制单元(LCU)通信故障的问题,文章分析LCU工作原理,并进行故障排查和测试,查找出故障原因为LCU机箱编码方案存在安全漏洞,通过对编码方案的优化,成功解决了该问题并提升了LCU系统的安全性,进一步规范了LCU故障导向安全的要求。
期刊
温度控制是快速温变试验箱控制中的核心问题,低能耗优化是低碳节能发展的必要需求,因此开展温度和低能耗控制具有重要的研究和应用价值。本文以快速温变试验箱为研究对象,提出了一种快速温变系统温度和低能耗控制方案,旨在提高系统温度控制精度和鲁棒性的基础上,进一步提高系统的能源利用效率,降低系统能耗。结合温度和低能耗控制要求,采用CATIA软件设计了3D结构模型,搭建了快速温变试验箱的实验平台;其次,在分析制
学位
视觉目标检测是车路协同系统中路侧感知的关键技术之一,也是学术界持续的研究热点。路侧感知对视觉目标检测算法的精度与实时性均有较高要求。但现有的轻量化目标检测算法精度相对较低。通用目标检测算法的计算量则相对较大,在路侧边缘计算设备上部署难以满足应用的实时性需求,有必要借助模型压缩技术降低目标检测算法所需的计算量。此外,路侧场景也具有较高的复杂度,需要对目标检测算法进行场景适配,以达到更好的检测效果。论
学位
随着人口老龄化进程日益加快,国家在构建智慧养老体系中明确提出,要更多关注老人心理健康状态。语音作为最直接的交流方式且蕴含大量情感信息,使得老人语音情感识别(Speech Emotion Recognition for the Elderly,ESER)成为智慧养老的一个研究热点。由于老人语音有基频低、发音不清和音质变化等特点,目前ESER的效果不佳。而且,双向长短时记忆网络(Bidirection
学位
报纸