论文部分内容阅读
在数据仓库的应用中,数据仓库的性能问题,特别是查询请求响应时间,显得越来越重要。在数据仓库环境下,经常会碰到涉及大量数据的复杂查询,包括多表连接、聚集计算等。传统的关系数据库虽然对各种数据操作和查询处理进行了优化,但是还没有充分考虑数据仓库本身的特点,而数据仓库查询性能的好坏将直接影响到数据仓库的使用,因此完全有必要对数据仓库的查询性能优化进行研究。数据仓库的多连接查询优化是一个NP问题。本文的主要内容就是将免疫思想和基本遗传算法相结合,提出一种新的免疫遗传算法,并针对数据仓库多连接查询优化问题进行适应性改进;同时讨论改进的免疫遗传算法解决数据仓库多连接查询优化问题的有效性。首先,介绍了数据仓库和联机分析处理技术的功能和体系结构,讨论了数据仓库多连接查询优化的重要性;全面地分析了数据仓库系统中多连接查询的特点以及查询优化的基本原理和难点、传统查询优化方法的弊端之后,提出了将免疫思想和基本遗传算法相结合来解决数据仓库多连接查询优化问题的解决方案。其次,详细分析了基本遗传算法的特点和缺陷,将既能提高个体多样性又能提高种群中个体适应度的免疫思想加入到基本遗传算法中去,提出了基于信息熵和适应值排序为选择概率的免疫遗传算法;考虑到种群在进化的过程中可能出现退化现象,通过提取每一代记忆抗体中的部分有效信息形成免疫疫苗,将该疫苗作用到上述免疫遗传算法中去,使该算法有了进一步的改进,有效的保证抗体沿着最优方向发展;分析了改进免疫遗传算法的有效性和收敛性。以左线性树为搜索空间,抗体采用有序串编码,针对典型的数据仓库查询模型,在Microsoft Visual Studio .Net2003开发环境下,设计并实现了利用免疫遗传算法进行数据仓库多连接查询优化的测试、分析软件集成环境;给出了系统的体系结构图、数据库ER图、参数配置XML文件模式、系统界面及算法部分核心代码。通过大量仿真实验分析了几个关键参数对算法性能的影响;对比实验结果表明,免疫遗传算法在解决数据仓库多连接查询组合优化问题时效果非常明显。