论文部分内容阅读
数据仓库DW(Data Warehouse)的目的是要建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。当前数据仓库研究的热点问题主要有:主题的设定;实化视图的选择;实化视图的维护;联机分析处理OLAP(On-Line Analytic processing);联机数据挖掘OLAM(On-Line Analytic and Mining);查询优化等等。首先,本文提出了一种新的主题搜索算法SSVC(Subject Searching Based on Characteristic Value)。该算法能够比较客观的搜索出最具有主题特征的表。该方法通过和需求分析得到的主题进行比较,判断需求分析和设计的客观性,帮助设计人员更有效的设计主题。另外,还可以对未知的关系数据库进行快速分析,找出最具有数据仓库主题特征的表,有效的辅助数据仓库设计人员确定主题事实表。其次,提出了一个新的选择实化视图的价值模型,并在该模型的基础上提出了实化视图选择算法PBPUS。该算法通过预处理得到候选视图集合,这样做的原因是缩小实化视图选择的空间。在维数很多的情况下,可以大大减少视图代价的计算量;然后根据新的价值模型计算出候选视图集合中视图的代价,利用改进的BPUS算法选出应该被实化的视图。新的价值模型通过考虑视图的查询频度和更新频度,再结合时间因素和空间因素,对原有的价值模型进行了改进。该算法与原有算法相比,降低了视图搜索的时间,减少了实化视图更新维护的代价,提高了实化视图的查询效率。再次,提出了基于时间戳的动态视图维护算法TS-DMV(Dynamic Maintenance Technique of Materialized View Based on Time Stamp)。该技术采用版本链控制技术,通过时间戳的控制进一步使视图更新和查询的同步进行,有效地解决了由于OLTP更新事务和OLAP事务同时访问数据所发生冲突的问题,在满足视图联机实时维护的同时,更好的提高了数据仓库的新鲜度和OLAP的查询效率。实验结果表明,本文提出的三个算法优于现有的同类算法,实现了预期的研究目标。