信息网格中的OLAP查询优化技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:angelcaoxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模数据集的访问和计算使得OLAP查询往往需要付出高昂的时间代价。本文主要研究信息网格环境中分布式OLAP查询处理面临的两个重要问题:   (1)如何有效利用数据源计算能力提高单个OLAP查询处理性能?查询下推到远程数据库中并行执行有很多优点:充分利用数据源计算能力,减轻分布式查询引擎的计算负担,减少数据传输等。本文的研究重点是聚集分组运算的性能优化。目前,大多数查询处理方法对聚集运算的处理都推迟到全部连接处理完以后才进行。聚集运算尚无法直接下推到远程数据库中执行。   (2)如何重用运算结果提高一批相似查询的处理性能?复杂查询之间往往有请求局部性。如果不优化,重复请求会降低数据源处理能力,冗余数据传输降低网络带宽效率。因此,信息网格需要研究重用查询运算结果的方法。   围绕上述问题本文的研究工作和主要贡献包括:   (1)信息网格的聚集查询推送技术。本文引入了新的远程聚集运算符,并采用查询计划等价变换,使得聚集运算可以被推送到数据源中执行而不改变查询要求的操作语义。此外,当封装器代价估计准确时,查询计划调整算法将确保产生的聚集推送查询计划优于或不差于缺省查询计划。   (2)覆盖分组查询推送技术:本文提出的覆盖分组查询转换方法可以产生有利予重用公共运算结果的查询计划。同时,基于运算视图的动态计划选择可以避免因为查询结果匹配率过低而付出额外执行代价。   (3)复合视图缓存机制:为了同时具备聚集运算结果重用和部分匹配功能,本文提出复合视图缓存技术,并对查询分解方法进行了改进。通用查询分解方法产生剩余查询条件表达式的时间复杂度为O(mn)(n为查询选择条件中包含的合取表达式个数,m为合取表达式中谓词项个数)。本文提出了划分求补方法。在给定条件下,查询分解时间复杂度可减少为O(m2×n)。
其他文献
随着半导体技术的发展,多核多线程体系结构已经成为未来计算机体系结构的发展方向。然而,相应的编程模型,编译器和运行时系统的研究则相对滞后。如何为用户提供一个简单易用的编
随着科学技术的飞速发展,人们之间的交流越来越丰富。为了增进人们之间的通信交互,多种社交媒体应运而生,如国外的MSN、Facebook,以及国内的QQ、微信等。这些社交媒体极大的增强
ERP(Enterprise Resource Planning,企业资源计划系统)是建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。0.acle ERP作为全球第二大E
近年来,随着Internet的迅猛发展,计算机互联网络已经成为越来越多网民生活中不可或缺的一部分。目前,互联网的规模特别是中国互联网仍然在不断膨胀,多种网络应用和网络资源使这个
在3GPP-LTE基带信号处理中,基带算法采用求逆、转置、共轭等矩阵运算实现对信号的处理。这些运算在LTE基带ASIP(Application Specific Instruction Processor)中被映射成向量
基于关系数据库的分布式数据集成系统使用分布在网络中不同位置的关系数据库数据源提供对用户查询请求的支持。系统的吞吐率是衡量系统处理能力的有效性能指标。本文研究问题
近年来,随着加工工艺的进步,芯片的特征尺寸已经进入了纳米阶段,也为微处理器的设计带来了新的问题。芯片在片波动是其中的关键问题之一,其中所包括的三个方面因素中,工艺波动是学
无线传感器网络是由大量微型传感器节点构成的自组织网络,传感器节点将采集到的数据通过无线通信方式发送到基站。节点采集的数据能否可靠传输到基站是影响网络总体性能的重要
P2P流媒体是指把P2P技术应用于流媒体领域而形成的一种新兴的网络服务。在P2P流媒体系统中,由于网络的异构性(节点之间带宽的不对称等)、网络带宽的抖动、网络结构的动态性(节
个性化场所语义识别是将家、学校等个性化场所语义赋予某个具体地理位置的过程[1],对提供更加智能的基于位置服务有着重要意义。然而,现有的个性化场所语义识别方法往往陷入对