TKEP:海量数据上一种有效的Top-K查询处理算法

来源 :第27届中国数据库学术会议 | 被引量 : 0次 | 上传用户:xiajie318
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象。不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合。文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数。文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率。所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组。文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果。据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章。实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比。
其他文献
国庆节前,《如此珊琴》——杨姗姗钢琴独奏音乐会在北京音乐厅举行。每年的国庆节前,都是音乐会扎堆的时候。于是,在国庆节前举办音乐会就格外需要实 Before the National D
文中为对象代理数据库提出了一种新的索引结构--路径导航索引(PNI),能够克服路径表达式计算开销大的缺点,使对象代理数据库跨类查询与代理对象查询具备高效的查询性能。PNI索
会议
戏里的他,威风凛凛,是酷帅老A,是邋遢兵痞;一会儿是铁血硬汉,一会儿变孙子;戏外的他,眼神柔和,言语冷静,一字一句费人琢磨却又深迷其中。戏外的他,界限分明,享受小资生活,听
中国经济进入新常态既是一种机遇,也许更是一种挑战.这个机遇抓不抓得住就看我们怎么来应对这个挑战2014年11月9日,亚太经合组织(APEC)工商领导人峰会在北京国家会议中心举行
频繁项集是通过对大规模数据进行挖掘获取的代表数据模式的知识结构。非可导频繁项集作为频繁项集的有效压缩方式,能够高效深入地挖掘海量数据、稠密数据与数据流当中的规律
会议
中国大企业面临的危机是系统性的、生态性的,是在生产模式、营销模式上出现了危机放眼全球最大的两个经济体,一个美国,一个中国.你看我们现在经济下行压力大,但你出去看看,你
我国领导人高屋建瓴提出的共建“丝绸之路经济带”和“21世纪海上丝绸之路”重大倡议,备受国际社会瞩目,得到有关国家积极响应。如何把互利合作、合作共赢的愿景变成现实?“
在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究。但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注。在多标签分类问题中,由于标签相关
会议
已有道路网中的连续k近邻查询处理算法采用增量式的查询处理机制,当数据频繁更新时性能急剧下降。结合多核多线程技术,提出了一种基于多线程的连续查询处理框架。该框架周期
会议
通过参加迪拜年会展示兰州新区,一方面凸显了兰州新区在建立与中西亚、中东欧的合作贸易通道的重要性,另一方面体现了加强与中西亚、中东欧沿线城市的联系对于兰州新区建设丝