列存储DWMS中查询执行优化

来源 :东华大学 | 被引量 : 0次 | 上传用户:wk4605300051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,人们要处理的数据也呈爆炸式增长。为了更好的分析大量的数据,数据仓库(DWMS)系统应运而生。数据仓库更多的被用于数据分析中,因而数据仓库相对于传统的事务型数据库,偏向于读优化操作。而相对于行存储数据仓库,列存储数据仓库更适用与读优化的环境中,因为列存储可以避免读取不必要的列信息。作者所在实验室一直在进行列存储数据仓库的研究与开发。作者本人负责其中的查询执行引擎的实现与优化。本文结合项目的研发,研究了列存储数据仓库中查询执行引擎的实现与完善,并根据列存储的特征对查询执行引擎进行了优化。优化涉及了多方面的内容,既涉及查询执行引l擎架构本身,也涉及相关列存储技术的使用,最后还特别针对当代的硬件环境--多核处理器进行了优化。本文主要讨论了以下三个问题,一是查询执行引擎的架构和功能实现,二是针对列存储相关技术的使用优化,三是针对当代多核处理器并行查询优化。本文在每一类优化内容中都选取了一个具体的点进行了详细阐述。如在基本模块实现中主要针对列存储数据仓库中非常重要的join(连接)操作进行了改进,提出了一种基于桶内索引的哈希连接算法,能够解决散列数据在哈希表桶内分布不均匀的问题。在针对列存储技术的优化中主要实现了查询执行对索引以及压缩数据的使用。实现了基于B+树索引的选择操作,和基于压缩数据的抽值操作。而针对多核处理器的优化主要探索了节点的并行执行以及CPU cache的有效利用,并针对数据仓库重要操作聚集操作,提出了基于取样和动态划分的高效数据划分方法。提高了多核并行聚集算法的效率及对数据多样性的包容性。
其他文献
混合结构视频网格利用客户端主机资源为其他用户提供视频服务,缩短了视频数据流的传输路径,扩展了系统结构,增强了系统的服务能力。但是,由于客户端主机性能差异较大且经常随
随着信息技术的飞速发展,软件的应用领域不断扩大,但是软件的可靠性和质量却没有得到相应的提高,这成为制约软件产业发展的一个重要因素。工业控制、交通、金融和医疗等领域
在三网融合逐步实现的大背景下,本文分析了三网融合、智能电视、AppStore、云计算的发展现状与趋势,针对当前电视发展存在的内容服务缺乏的问题,提出采用云计算技术、AppOnline
在网络技术不断发展和成熟的时代,越来越多的组织和机构加入互联网,在网络上发布和分享信息。因此,人们获取和管理信息的方式正在从书本向网络上转变,但网络上的信息量日益剧
随着计算机技术的发展和广泛的应用,人们对互联网越来越依赖,萌发了大批的中小型互联网创业企业,大量的传统行业逐渐转移到了互联网。因而网络所带来的威胁已远非从前能比,层
随着3G以及WIFI网络的发展以及网络带宽的提高,视频监控这种直观方便内容丰富的方式成为住宅,交通等领域的重要防范手段。传统的视频监控系统主要用于安全监控产业,摄像前端
汉语的一词多义现象使机器对自然语言的处理带来了许多困难,很多自然语言处理领域的问题归根结底都是解决词语的歧义问题。如何才能让计算机理解一个歧义词在其特定的上下文中
随着各种网络设备和接入技术广泛地应用在有线电视网络中,使得人们对有线电视网络设备全面监控的要求越来越高。由于许多早期有线电视设备(如OmniStar光传输平台)只支持串口通信
随着移动互联网的迅猛发展,移动运营商积累的用户数据越来越多,如何高效、合理地利用这些数据成为一个摆在运营商面前的难题。近年来,推荐系统得到了广泛的应用,借助推荐系统
网格计算是网格系统提供服务的核心部分,它主要包括了元计算,分布式计算,对等计算等先进、成熟的计算技术,它主要针对大型离散的计算资源进行有机的组合,使其汇聚成一个拥有