大规模数据密集型系统中的去重查询优化

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：xiaoshang

【摘要】

：

针对shared—nothing结构下大规模数据密集型系统去重查询的挑战，提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化：即自适应的散列和直方图

【作者】

：

宋怀明安明远王洋袁春阳孙凝晖

【机构】

：

中国科学院计算技术研究所计算机系统结构重点实验室,中国科学院研究生院,国家计算机网络应急技术处理协调中心

【出处】

：

计算机研究与发展

【发表日期】

：

2010年4期

【关键词】

：

去重查询数据划分大规模数据密集型系统异步查询并行查询引擎 duplication elimination data partitioning lar

【基金项目】

：

国家“八六三”高技术研究发展计划基金项目（2007AA010505）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对shared—nothing结构下大规模数据密集型系统去重查询的挑战，提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化：即自适应的散列和直方图相结合的数据分布策略，以及异步式并行查询中间件．前者在数据写入时保证数据均衡，并在数据量发生倾斜时自动调整数据的分布；后者充分发掘了去重查询处理中的粗粒度流水级并行，并消除了多节点同步等待的开销，尽早地返回结果．在生产系统DBroker上的测试表明，数据分布策略极大地改善相关属性的去重查询性能，而异步式并行查询引擎能够充分发掘并行性

其他文献

大规模数据密集型系统中的去重查询优化

与本文相关的学术论文