支持高效写的自适应学习索引研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:andacaizheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,索引技术对于数据的高效访问尤为重要。学习索引开创性地为机器学习在索引优化领域的应用提供了新的方向。相比于B+Tree,学习索引的读性能更好、内存占用更低,但是由于学习索引的叶子节点管理的是整个有序数组,造成其可扩展性很差,不支持高效的写操作,且无可行的持久化方案。提出支持高效写的自适应学习索引方案(Adaptive Learned Index Supporting Efficient Writes,EWALI),该方案包括动态数据分片、数据感知递归模型索引(Data Aware Recursive-Model Indexes,DARMI)和增量缓存等模块。动态数据分片模块基于高效的Shrinking Cone数据分片算法,能够根据数据分布进行动态数据分片,保证分片后每个数据片内的数据分布趋于线性,即使是用很简单的线性模型去拟合数据分布也能达到很高的精确度。DARMI基于动态数据分片模块,根据节点管理的数据范围以及数据片的记录密集度对叶子节点自动进行水平拆分和垂直拆分,使索引结构能够根据数据分布变化自适应调整,且DARMI的每个叶子节点只管理其对应的数据片,而不再是对整个有序数组进行操作,因此每次写操作只会影响DARMI中的部分节点,大大提高了DARMI的可扩展性和维护效率。为支持更高效的写操作,EWALI设计了增量缓存模块来处理增量数据,并异步处理写操作,当增量缓存的数据量达到一定阈值时,通过后台线程将增量数据与DARMI管理的数据片进行批量合并。此外,EWALI通过WAL日志、LRU缓存管理等技术实现了索引持久化。实验结果表明:EWALI具有良好的读写性能。相比B+Tree索引,EWALI的读性能提升了13.5%,写性能提升了53.4%;相比FITing-Tree,EWALI的读性能提升了17.4%,写性能提升了60.9%;相比只支持读操作的学习索引,在Lognormal数据集下,EWALI的读性能提升了94%;在NYCT和OSM数据集下,EWALI的读性能平均降低了73.1%,但EWALI具有更高的写性能;相比XIndex,EWALI的读性能平均降低了37.2%,写性能平均提升了22.5%。
其他文献
随着网络通信技术和用户规模的飞速发展,网络信息安全和通信隐私保护愈发获得重视,而匿名通信技术逐渐成为保护人们隐私的有效而重要的手段之一。但其具有的用户发现难、节点定位难、行为监控难、通信关系溯源难等技术特点,致使滥用该技术从事不法甚至犯罪活动的现象日益突出,给我国网络安全造成极大威胁。作为匿名通信技术的典型应用代表,暗网等匿名通信网络、比特币等虚拟货币以及Telegram等加密通信工具在国内外各类
学位
发电机膛内定子表面健康状态是影响整个发电机正常运转的关键因素。传统抽转子的定子检测方法效率低,成本高,风险性高。目前不抽转子的膛内智能检测方法对定子表面状态的检测主要依靠人工查看视频的方式进行,检测效率和准确性无法满足工业需要。为使定子表面状态检测更加智能化和小型化,本文以实际项目为背景,基于膛内智能检测平台,研究了一种基于机器视觉的定子表面状态两层次检测方法。第一个层次进行定子表面序列图像全景拼
学位
下一代无线和光通信、云存储和服务器、高性能计算、数据中心等新兴数据密集型领域的需求已经超过了传统电互连的传输能力。由于光互连具有低损耗、高速率和大带宽的特点,因此被认为是实现高性能数据传输的替代方案。光源在光子集成电路、光互连、光通信等众多光学应用场景中发挥着不可或缺的作用。由于直接带隙跃迁带来了巨大的光学增益,Ⅲ-Ⅴ材料通过SOI(绝缘体上硅)平台异构集成,在大范围可调谐、低噪声和窄线宽激光器方
学位
铁路运量不断增加,不管从经济因素还是安全因素考虑,使用激光熔覆技术制备高性能钢轨是非常必要的。尽管服役中的曲线钢轨、道岔的疲劳和磨损最为严重,但是激光熔覆技术却很难应用在道岔的修复和强化上,因为曲线钢轨和道岔结构特殊、表面不平,导致传统的激光熔覆工艺很难进行有效、精确的熔覆。另外,最新的激光-感应复合熔覆工艺也难以应用在道岔的修复上,进而导致无法消除熔覆时基体表面产生的马氏体有害相。本文首先提出了
学位
近年来,光声显微成像因具有高光学吸收对比度和高超声穿透深度等特点,无需外源性标记,而逐渐成为生物学微循环网络研究的重要工具,可同时对生物组织的结构和功能进行成像。传统光声显微成像中,系统横向分辨率由聚焦光斑横向尺寸决定,可达亚微米量级;轴向分辨率由超声换能器的探测带宽决定,往往难以优于十微米,导致系统无法对微循环网络进行三维高分辨成像。近年来,已有多种技术对轴向分辨率受限这一问题提出解决方案,但仍
学位
光纤光栅紧凑型的体积、抗电磁干扰和化学腐蚀、以及易于集成等特点使其在光纤传感领域应用非常广泛。其中长周期光纤光栅易受外界参数如弯曲、扭转等的变化影响而具有高的传感灵敏度,使其在建筑物健康检测、环境检测和生物医学方面有着不可代替的地位。飞秒激光刻写光纤光栅操作简单、设计灵活、精度高,刻写的光纤光栅具有耐高温的优点,为光纤光栅传感器实际应用提供了更多的可能。本文利用飞秒激光刻写了不同结构的小周期的长周
学位
大脑是人体最重要的器官,而不同类型、数量巨大的神经元是实现大脑复杂功能的基础。因此,准确地绘制出不同种类神经元在全脑范围的分布图谱,对于正确地理解大脑结构和功能的对应关系至关重要。借助于特异性的神经元标记手段和先进的显微光学成像技术,科学家们能够获得清晰地神经元分布图像。然而,由于神经元采用标记方式不同,使得不同神经元图像所展示的灰度和纹理特征有所不同,并且当代神经科学应用正以工业化的方式产生TB
学位
光泵亚稳态稀有气体激光器由于其化学惰性克服了光泵碱金属蒸气激光器化学活泼的缺陷而受到关注。作为一种新型的气体激光器,具有高光束质量和高功率激光输出的潜力。这种激光器具有三能级体系的特征,其中激光下能级为亚稳态能级,主要是由放电产生。足够高的亚稳态粒子数密度是激光系统高效运转的关键。高压直流脉冲放电能够产生所需的亚稳态粒子数密度,而放电条件对等离子体的特征参数的影响有待进一步研究。因此本文在大气压条
学位
哺乳动物的大脑由数量繁多且高度异质的神经元组成,这些神经元相互交织和联系,形成了处理信息和指导行为的复杂神经回路。识别神经元的细胞类型,对研究神经回路至关重要。基于分子标记物来标记神经元类型,是对特定神经元群体进行可靠的实验研究的首选策略。其中,依赖Cre品系小鼠靶向特定类型神经元的遗传策略是一种被普遍使用的标记方法。但Cre品系小鼠的种类有限,使得这类遗传策略的发展和应用受到限制。本文发展了一种
学位
头发作为人体健康诊断最理想的活体材料之一,对其所含元素的追踪检测能客观反映人体中各类元素的含量与代谢情况,在人体营养检查、疾病预防及生活环境监测等方面均具有重大意义。传统的元素检测方法存在制样复杂、耗时长等问题,难以实现人发中元素含量的快速检测。近年来,激光诱导击穿光谱(Laser-induced breakdown spectroscopy,简称LIBS)凭借其制样简单、快速、微损、多元素同时分
学位