海量数据top-k查询系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jy02324491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据上的top-k查询是一项非常重要的查询类型,top-k查询是根据指定的评分函数返回分数最高的k个对象给用户,本文研究top-k查询的两种扩展:top-k selection查询和top-k skyline查询。Top-k selection查询是以对象自身属性值的范围作为选择条件,而top-k skyline查询是以对象与对象间的关系作为选择条件;最终返回满足选择条件且分数最高的k个对象,为用户提供决策支持。首先,在top-k selection研究中,本文提出top-k selection查询基线算法BASel,BASel算法顺序扫描数据集,选择出满足选择条件并且分数最高的k个元组;为了提高top-k selection查询的速度,本文提出基于预排序的top-k selection查询算法PTS,PTS算法对数据集进行预排序,顺序扫描有序表获取top-k selection查询结果,根据数据分布的特点,提出早结束条件,减少I/O次数;为了进一步改善PTS算法的效率,本文提出两个剪枝方法:选择剪枝和分数剪枝;在预排序的基础上,PTS算法结合两种剪枝策略,进一步提高查询速度。实验结果表明,PTS算法可以在海量数据上有效地计算top-k selection查询结果。其次,在top-k skyline研究中,本文提出top-k skyline查询的基线算法BASky,BAsky算法的查询过程分为两个阶段,为了提高BASky算法的查询效率,本文提出基于早结束的top-k skyline查询算法ETS;ETS算法首先对数据集进行预处理,然后进行查询,查询的过程分为两个阶段;根据数据集的有序性,在第一阶段和第二阶段中分别提出早结束条件,减少两个阶段读取元组的数量;同时,为减少ETS算法第一阶段维护候选元组的数量,本文在第一阶段提出剪切策略,进而降低ETS算法的空间复杂度。实验结果表明,ETS算法第一阶段可以剪切掉大部分元组,并且可以在海量数据上有效地计算top-k skyline查询结果。最后,本文以上述算法为核心,实现海量数据top-k查询系统,为用户提供决策支持。对系统进行全面测试,结果表明系统能够满足预期的要求。
其他文献
我国老龄化问题日益严重,但是我国三支柱养老体系存在着严重的翘脚问题,即目前我国养老体系对由政府主导的第一支柱依赖度超过70%,而雇主参与的第二支柱发展不充分,且在减税降费的大背景下难以进一步发展,只有个人养老的第三支柱虽然现在处于起步阶段,但在我国居民财富不断增长地背景下第三支柱进一步发展潜力巨大。第三支柱包括银行、保险、基金等发行的具有养老性质的金融产品,随着居民对基金投资的接受度不断提高,养老
学位
二芳基乙烯化合物最初在信息存储方面的潜在应用引起了人们的研究兴趣。由于其具有极高的记录速度、密度和分辨率等特性作为光电材料被应用到很多研究领域。近年来,具有光开
本文通过从实际演奏的过程中发现问题,并将问题摆出。由于大管复杂的按键结构,致使大管同一个颤音会出现两种甚至两种之上的按键方法,不同的按键方法会从明暗、轻响上做出不一样的体现,正确的指法选择能帮助演奏员有效提高曲目的演奏效果。台湾师范大学音乐系教授徐家驹出版了《低音管指法研究》一书,书中内容以德国大管的构造体系来详列了约250种指法,分别是基本音指法、颤音指法以及特殊圆滑奏之辅助指法三个主要章节。通
心房颤动,又称房颤,是一种最常见的心律失常,与脑卒中、心衰、心肌梗死和脑血栓等疾病的高发病率和高死亡率有关。心电图(Electrocardiogram,ECG)作为一种非侵入式的心脏活动
化工行业作为一个传统的生产型行业正处于一个市场转型期,尤其是其中的龙头企业,它们正不断探索从传统的生产导向系统向市场导向的营销系统进行转化。可是在营销执行尤其是市
恶意流量检测作为一种可以积极主动防御的技术,可以弥补传统安全技术的局限性。支持向量机作为恶意流量检测中一种常用的机器学习算法,其相关参数不易确定但是却对分类结果造
智能电网是未来电力行业的发展趋势,变电站操作更加趋向于智能化、自动化、无人化,给传统的变电站操作模式带来了全新的变化。调控一体化是智能电网发展的未来趋势和重要体现
随着语音合成、语音识别等技术的快速发展,人机语音交互应用越来越普及。如何使机器发出与真人一致的声音,一直是语音技术研究者追求的目标,基于DNN(深度神经网络)的深度学习已成为提升语音合成系统性能的有效途径。迄今为止,已取得的语音合成研究成果主要集中在英语、汉语等语言,其他语言的相关研究成果还需进一步丰富。马来西亚语(简称马来语)属于属南岛语系马来-波利尼西亚语族,广泛使用于马来西亚、新加坡、文莱等
目的:对后外侧纵形小切口钢板内固定与传统L形切口钢板内固定SandersⅡ、Ⅲ型跟骨骨折的疗效进行比较。方法:采用回顾性研究的方法2016年10月—2018年8月期间收治的46例(52足)SandersⅡ、Ⅲ型跟骨骨折患者做为研究对象。观察组采用后外侧纵形小切口微创内固定术25例(27足);对照组采用传统L形切口钢板内固定术治疗21例(25足)。对患者手术时间,术中出血量,切口愈合时间,住院天数等
过程挖掘技术能够通过现代信息系统从记录的事件日志中提取知识,该技术为各种应用领域中的过程发现、监测和改进提供了新的手段。当今社会越来越多的企业使用业务流程管理系统为其商务流程提供支持,过程挖掘技术作为工作流再设计与分析方法的一项关键技术,能够自动地重构过程模型,计算事件日志中日志记录与过程模型的匹配程度,以及对过程模型进行修复与扩展,使之更加符合现实生产过程。过程挖掘的起点是事件日志,对事件日志的