基于learned index的动态skyline查询方法的研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:hackrx123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在各行各业逐步应用,各种各样的数据都需要筛选并处理,如何在这些海量数据中快速找到需要的数据是目前数据库领域中非常重要的研究课题。Skyline查询能够在庞大的数据量中快速找到用户需要的数据,是解决多目标决策问题的重要手段之一。随着skyline查询的发展,已经衍生出许多变种查询,其中动态skyline查询是非常重要的变种查询之一,它能够有效地扩展skyline查询的应用范围。相比于常规skyline查询,动态skyline查询的范围更广,能够满足用户多样化的需求。传统的动态skyline查询通过给数据集建立空间索引的方式来加快查询速度,但是当数据维度数增加到一定数目时,构建索引时的计算量也会随之呈指数级增加,因此构建难度也会大大提高。学习索引(learned index)是近几年被提出的概念,通过机器学习来给数据生成专门的索引结构,它可以有效地减少构造索引的成本消耗。因此,本文研究的是基于learned index的动态skyline查询问题。本文的贡献点总结如下:(1)提出了一种新的索引结构LIDS(a Learned Index structure for Dynamic Skyline),它利用机器学习中的线性回归模型,将庞大的数据量通过位置预测函数进行排序,相比于B树,它在存储代价和查询I/O成本方面具有明显优势,并且可以快速地确定某个维度上任意查询点的初始页。(2)提出一种针对动态skyline的查询算法DSL(a Dynamic Skyline algorithm based on LIDS),该算法充分利用LIDS索引特点,快速定位查询点的初始页,轮流在每个维度两端同时扫描数据点,直到算法结束;然后,提出了一种新的查询算法ODSL(an Optimized Dynamic Skyline algorithm based on LIDS),新的查询算法采用了一种改进的扫描方法,每次在扫描后计算接下来向哪个维度扫描能够最快结束算法。相比基础算法,改进算法的扫描过程多了“方向性”,具有更快的扫描速度。(3)利用真实和合并数据集,首先将本文提出的索引和现有索引进行了对比实验,结果表明,本文所提的索引无论在构建时间,还是规模大小上,都具有明显优势;此外,还将本文提出的基础与改进算法和现有的算法进行了大量对比实验,结果表明,本文所提算法与当前最优的OSSRB算法相比效率更高且I/O代价更低,在查询时间上加快了18%,在I/O成本上减少了12%。
其他文献
分片是目前最有效的区块链扩容方案。其中,状态分片最具应用前景。理论上,分片技术在不降低去中心化的基础上实现了区块链的扩容。但区块链分片时通常将事务按照一定的规则分配至已有状态所在的分片,且系统中节点被随机分配,各分片处理能力差距较大,存在单个分片交易过载的问题。此外,在状态分片中重新分配节点受到无状态验证的局限,节点不能在分片间随意调度。目前应用状态分片技术的区块链项目中,尚未专门讨论状态分片后可
学位
将竞技体育后备人才培养纳入国民教育体系是体教融合战略发展的重要举措。运用文献资料法、社会调查法、逻辑分析法等对我国竞技体育后备人才培养转型发展动力进行研究。研究发现:竞技体育后备人才培养动力结构包括动力主体、动力运作过程与手段、动力运行目标;表现出动力源错位、动力分配与转化存在困难、动力监控与评价标准缺失、动力运行目标管理思维存在差异等动力困境;新时期应加强中观层次动力主体建设,建立健全各项机制,
期刊
升船机在设计过程中,为了降低升船机电气拖动系统的功率和减少工程造价,在满足设计船型尺度和货运量的前提下,总是把承船厢尺寸和厢内水深减小到最低限度,因此承船厢的断面系数一般很小,船舶进出承船厢时存在比较明显的阻塞效应,导致船舶进出船厢时存在下沉情况,会给航运带来安全隐患。因此在船舶通过升船机过程中对船舶的吃水和航速状况管控应更为严格。为了解决这一问题,本文首先对船舶进出船厢这一过程进行研究,分析造成
学位
水下机器人对海产品自主检测和自主抓取、水下航行器自主航行以及水下工程探测等研究领域都是建立在熟悉海洋环境的基础上,在不了解海域环境的情况下,将会造成严重的后果。因此,高清的水下图像是开展海洋研究的重要条件,但受到洋流和拍摄相机抖动的影响,导致拍摄出来的水下图像存在色偏、对比度不足和图像模糊等现象,获取和拍摄高清的水下图像是困难的。同时,视觉感知对于机器人本身来说是非常重要的,因为它可以提升水下机器
学位
在日常生活中,当私家车车主想要了解汽车配置信息或者解决日常用车问题时,会通过在社区或者汽车问答平台提问的方式获取解决方案,但由于私家车用户基数过于庞大而在线汽车问答平台有限,用户往往不能及时地得到个性化的解决方案。而在线汽车问答平台中积累的问答文本数据中包含大量针对私家车具体问题和咨询的解答和建议,因此研究如何对这些文本数据进行挖掘和利用,并构造出一个提高私家车用户获取建议和解答效率的智能问答系统
学位
COVID-19疫情的暴发,给国际、国内航运都带来了深远影响,集装箱的空箱供应出现全球性紧缺,空箱供应和运力不足直接导致集装箱运费快速上涨,在此背景下,集装箱的综合利用显得尤为重要。合理的装载方案可以优化企业从产品接单、装载,到运输环节的有关配置,从而获得更大的经济效益,因此求解三维集装箱装载问题,对当前环境下的企业生产、物流运输显得尤为重要。经典三维集装箱装载问题的典型求解方法包括启发式、元启发
学位
报纸
<正> 贺某,女,34岁。1989年6月初诊。因发热恶寒,伴有眩晕、恶心、不欲食、盗汗,肢倦乏力3天而入院。症见头晕不能坐起,自觉身冷,胃脘部冷甚,腹胀,周身不适。语声低弱,面色萎黄,唇淡,舌质淡,苔白腻湿润,表面黑,脉弦滑而数。体温39.2℃,血压12/5kPa.1周前患菌痢,已愈。体检无阳性体征。血常规:血红蛋白120g/
期刊
随着智能设备的不断发展改进以及定位设备的不断普及,移动设备所产生的数据量逐步增多,为轨迹的数据挖掘奠定了坚实的基础。挖掘出隐藏于事物自身的运行规律,将其应用到人们的日常生活中,例如导航、车流量预测、路网更新和城市智慧交通发展等方面。当前,在轨迹数据挖掘中轨迹异常检测不断引起重视,将采集到的历史轨迹进行不断的分析可以得到隐藏于其中的轨迹运行模式,判断轨迹是否存在异常。当前,轨迹数据挖掘中的异常检测不
学位
高光谱图像包含了丰富的光谱信息和空间信息,得益于较高的光谱分辨率,图像中任意一个像素点都能获取到一条连续的、具有诊断性的光谱曲线,为地物判别与分析提供了重要的数据支持。随着深度学习的快速发展,许多深层次的网络模型被应用到了高光谱图像分类中,凭借强大的信息提取与特征学习能力,深度学习方法已经成为高光谱图像分类领域的研究热点。然而,由于高光谱图像维数较高,传统深度学习的输入框架会造成大量的数据冗余,导
学位