海量数据上的近似连接聚集操作

来源 :2010年中国计算机大会 | 被引量 : 0次 | 上传用户:huhu029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法--(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本 (JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA 利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作.
其他文献
自2014年院地合作模式建立以来,平罗县利用宁夏农科院的科技资源,示范应用机械化育插秧和旱条播等新技术,并在关键技术方面取得了重大突破.
SaaS软件交付模式将应用软件以服务的形式提供给客户,可缩减硬件采购、系统管理上的开销.从SaaS服务提供商的角度,如何在维持较高的资源利用率的同时为各个租户提供一定的性
会议
软件项目开发人员行为特征是软件工程领域所关注的重要问题之一,获取个体行为特征可用于评估项目发展的进度、认识项目的发展特征、发现制约项目发展的瓶颈以及发觉项目开发
会议
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一
会议
目前进行正则表达式匹配的典型工具DFA和NFA都存在匹配效率和内存需求之间不可调和的矛盾,无法胜任网络安全检测中大规模正则表达式的匹配.为了解决这个问题,文中从网络安全
会议
为挺进广东市场,禾银农业公司与宁夏农科院合作,2016年试种了1000亩长粒香米,这种米烹煮时满屋飘香,很适宜南方人的口味,目前该公司生产的水稻已以订单的形式被广东一些企业
他是尼日利亚的富家子弟,却成为一名“内裤炸弹手”    2009年圣诞节的两个月前,阿卜杜勒穆塔拉布给父亲发去了短信,说自己不会继续在迪拜攻读MBA了,他要在也门读一个7年的课程──伊斯兰法和阿拉伯语。“那我就不会再供你、资助你。”父亲威胁。但儿子用一条很长的短信作为坚定的告别:“我已经可以不费一毛得到我想要的一切,是谁在资助我与你无关……我找到了一个全新的信仰,真正的伊斯兰。爸爸,你应该忘了我,
封关运行已一年有余,银川综保区正引领宁夏进一步融入丝绸之路经济带,加速内陆向西开放步伐.继实现“审批快、建设快”目标后,顺利实现了“见效快”目标,全年进出口贸易额已
宁夏企业协会的“协会经济”、“银企合作、银行与协会”以及与法律维权机构、新闻媒体间的友好合作,形成了为企业服务的平台宁夏企业协会作为宁夏企业的“娘家”,多年来潜心
许多人感到休息不好,但找不出什么原因。主要是他们对疲劳和休息缺乏正确的理解,不懂得不同性质的疲劳应该采取不同的休息方式。体力疲劳:主要指身体肌肉劳累而言,表现为四肢乏力