【摘 要】
:
在大数据时代,数据库的查询功能日益得到重视,对大规模数据集进行查询和分析成为了数据库必备的功能之一。聚合函数和窗口函数作为数据库重要的功能存在已达数十年之久,并且随着数据分析需求不断增长,聚合函数和窗口函数的应用日益广泛。聚合函数可以处理较为简单的分析型需求,而窗口函数更是可以借助其简洁却表达能力强的语法处理更为复杂的查询。然而,随着数据规模的不断增大,聚合函数和窗口函数在传统数据库中的实现已无法
论文部分内容阅读
在大数据时代,数据库的查询功能日益得到重视,对大规模数据集进行查询和分析成为了数据库必备的功能之一。聚合函数和窗口函数作为数据库重要的功能存在已达数十年之久,并且随着数据分析需求不断增长,聚合函数和窗口函数的应用日益广泛。聚合函数可以处理较为简单的分析型需求,而窗口函数更是可以借助其简洁却表达能力强的语法处理更为复杂的查询。然而,随着数据规模的不断增大,聚合函数和窗口函数在传统数据库中的实现已无法满足数据分析实时性的要求。针对这一问题,目前已有许多工作摒弃了传统基于精确查询的方法,转而使用近似计算来处理聚合函数和窗口函数,尽管牺牲了一定的精度,但是非常有效地减少了查询响应时间。然而目前这些工作仍存在诸多缺陷,如查询响应时间提升有限、支持的查询种类较少、存储空间开销较大等。因而,本文针对这些缺陷,为窗口函数和聚合函数分别提出了基于机器学习的近似查询框架:WFApprox和DeepAQP。WFApprox利用密度估计器和回归模型,为多个窗口函数和窗口函数语法提供了高效的近似查询支持;DeepAQP则使用深度学习模型Masked Autoencoder(缩写为MADE)建模数据库表的数据分布,并利用该模型提供高效的聚合函数近似查询。本文主要工作包括如下几个方面:窗口函数近似查询处理传统窗口函数的处理过程会产生大量的磁盘I/O,导致其在大规模数据集上的分析效率较低。本方法利用密度估计器学习数据库表中列的分布情况,并利用回归模型处理列之间的映射,借以高效地处理多种窗口函数查询。实验表明,本方法与对比方法在查询误差接近的情况下在不同数据集规模下取得了最低约2倍、最高约100倍查询响应时间提升。分布感知的模型积分技术在DeepAQP框架中,在完成MADE训练之后,为了从MADE中高效地获取经由谓词筛选后的数据分布情况,本文提出了高效的模型积分技术。利用MADE本身的分布感知能力,将积分过程中的采样点集中于概率密度集中的区域,从而降低采样成本且提升采样精度,进而利用采样结果近似表示分布情况。聚合函数近似查询处理已有聚合函数近似处理的工作或是基于采样的方法,或是基于机器学习模型。然而基于采样的方法在存储空间开销和查询响应时间的提升上仍有提升空间,基于机器学习的方法则支持的查询种类有限。本方法借助MADE精确地建模数据库表的分布情况,并利用分布感知的模型积分技术在查询到来时快速计算对应的数据分布,并利用该数据分布高效地近似处理多谓词查询。此外,针对多表连接查询,本方法利用高效的采样方法获取样本响应查询,随后基于该样本训练MADE以响应后续相同连接模式的查询。实验表明,本方法与对比方法的查询误差在不同谓词条件下各有优劣,总体较为接近,但是却在查询响应时间上有最低10倍的提升,并且在存储空间占用上同样相比对照方法节约了10倍以上。
其他文献
本文主要研究了两类右端不连续的奇摄动三阶问题,使用了奇摄动理论中的边界层函数法和空间对照理论对内部层函数进行缝接,求得其所对应的形式渐近解,并进行了余项估计,验证了解的存在性.第一章主要介绍了奇摄动理论的发展历史,以及研究者们提出的奇摄动理论方法,并对本文所需要用到的定理进行简单的描述,并介绍了右端不连续问题的由来.第二章研究了一类不显含y的右端不连续奇摄动三阶方程的混合边值问题,使用边界层函数法
A:打哈欠是可以"传染"的。当看到旁边的人打哈欠,很多人就不由自主地也打哈欠。为什么打哈欠可以"传染"?目前关于这一问题,还没有一个确定的答案,不同的研究者有不同的看法。有研究者认为,打哈欠是因为人体需要更多的氧气;打哈欠之所以可以"传染",是因为在某个环境里的每个人可能同时都需要补充氧气。例如,在一个密闭的、人数很多的会议室里就可能出现这种情况。但反对者认为,没出生的胎儿不呼吸氧气,他们也
金属离子含量异常对环境稳态和人体健康造成威胁,因此金属离子检测成为一个愈加重要的话题。然而,原子吸收光谱法、电感耦合等离子质谱等传统检测方法存在需要专业操作、现场分析不便利、检测耗时昂贵等不足,阻碍了这些方法的进一步发展。传统的“锁钥模式”传感器主要对针对单一且特定分析物产生响应,很难满足识别多个样品或区分混合金属离子的需求。因此灵敏方便地检测和鉴定复杂样品中的金属离子对人们越来越迫切。受哺乳动物
多铁材料是指同时具有铁电、铁磁和铁弹等铁性中的两种或以上的材料,其能够对电、磁、力、热、光等多种外界环境产生响应,在高密度、高集成度的新型存储、传感及探测器件中有较强应用潜力,是当今凝聚态物理学的热门研究领域之一。然而,天然的室温单相多铁材料非常少,所以通过对传统铁电材料进行离子型掺杂获得多铁性材料具有重要的理论价值和现实意义。钙钛矿结构位移型铁电体BaTi O3(BTO)因其具有良好的室温铁电性
在人类社会不可逆转地向后工业文明迈进的背景下,作为中国农耕文明“活化石”和“基因库”的传统村落一方面数量锐减,另一方面遗存下来的则又弥足珍贵,成为了乡村振兴、维系乡愁的物质文化根基。在新时代中华文化复兴战略下,对传统村落的研究及其保护发展迫在眉睫。同时,目前重庆地区的传统村落研究多以单个典型村落或某种类型研究为主,偏重物质空间的静态特征研究,缺乏由点到面、由表及里、由空间到时空关系的深入研究。基于
H公司作为金鼎公司的子公司,是一家特种润滑油生产企业,H公司产量最多的是抗磨液压油,但其存在的问题是抗磨液压油的一次合格率较低。本文主要运用6σ管理的DMAIC改进模型及相关理论方法对抗磨液压油的一次合格率提升进行研究,主要研究内容如下:(1)本文首先介绍了 6σ管理的内涵、统计学意义及6σ管理的实施,并重点根据6σ的DMAIC改进模型中介绍了 H公司抗磨液压油一次合格率提升在具体实施中的方法。(
A:生物的生活离不开一定的环境。环境中影响生物的生活和分布的因素叫做生态因素。生态因素可以分为非生物因素和生物因素两类。其中前者包括光、温度、水、肥、盐度等,而后者是指影响某种生物生活的其他生物。自然界中的每一种生物,都会受到周围环境中很多其他生物的影响。生物与生物之间的关系,最常见的有捕食、竞争、合作、寄生等。例如,某种动物以植物为食,植物之间相互争夺阳光、养料和水分等。
近年来,随着电子科学技术的高速发展,陶瓷储能电容器由于具有高的功率密度和快的充放电过程而被广泛应用。但是集成化、小型化的发展趋势对电容器的储能性能提出了更高的要求。铁电陶瓷储能材料的储能性能十分优异,其中铅基储能材料的性能最佳。但是考虑到铅元素对环境和人类的影响,开发出储能性能可与之媲美的无铅储能材料成为目前的研究突破点。在所研究的铁电陶瓷材料中,Na0.5Bi0.5TiO3(BNT)基陶瓷材料被
根据《兽药管理条例》和《兽药注册办法》规定,经审查,批准北京生泰尔科技股份有限公司等2家单位申报的苦参止痢颗粒等2种兽药产品变更注册。发布修订后的苦参止痢颗粒质量标准、说明书和标签,自发布之日起执行,原我部发布的该产品质量标准、说明书和标签同时废止。发布修订后的柴胡口服液质量标准、说明书和标签,自发布之日起执行,新增靶动物猪监测期3年。特此公告。