论文部分内容阅读
随着信息技术的飞速发展,企业或组织的信息化建设不断深入,企业或组织搜集了大量的数据信息,需要数据仓库提供决策支持。为增强市场竞争优势或提升社会安全保障能力,企业或组织对数据仓库的实时性提出了越来越高的要求,但传统数据仓库不能满足这种实时性需求。因此,出现了提供实时决策支持的实时数据仓库系统。在实时数据仓库应用领域,决策者期望短的响应时间和高的数据新鲜度。然而,由于存在高负载和可能发生冲突的连续查询与更新任务,实时数据仓库同时满足决策者的上述两个需求具有极大的挑战性,但具有实用价值。如何有效提高用户需求的满意度是一个亟待解决的问题。因此,实时数据仓库体系结构和查询与更新实时调度算法成为研究的热点,并具有重要意义。本文首先全面分析了现有的实时数据仓库体系结构,确定了更新任务与查询任务的负载分布情况,利用副本机制将实时性更新任务的转换过程与OLTP系统相分离,以减少实时更新对OLTP系统性能的影响。然后提出了改进的基于ODS实时数据仓库体系结构,分类处理实时更新任务,利用基于触发器的实时捕获方法,采用不同的映射和装载机制。该方案可以尽可能实时地装载更新数据,从而提高查询结果新鲜度。本文将不能实时装载的任务放于更新任务队列,将用户提交的查询任务放于查询任务队列。对于以上的两种任务,本文提出了基于用户意愿的查询与更新二级调度算法,允许用户指出可接受的查询响应时间即服务质量,和可以接受的结果陈旧度即数据质量,并详细介绍了此二级调度策略思想以及实现方法。最后,利用TPC-DS基准对本文中提出的体系结构和调度算法的性能进行了评估。实验表明:在低、中、高三种工作量下,本文提出的基于改进的实时数据仓库体系结构的二级调度算法与三个传统调度算法相比,在很大程度上提高了用户的满意度,并且能够快速地适应变化的用户需求与工作量。