论文部分内容阅读
近年来,信息技术高速发展,海量的文字、图片、音频、视频等数据随之产生,大数据的研究亦随之引起广大学者重视,其中分布式数据库的研究就是热点之一。在分布式数据库中查询是最频繁的操作之一,提升它的效率显得非常有必要。数据量不断增长这个事实,使得对分布式数据库查询的要求也越来越高,因此设计一个高效的分布式查询方案变得刻不容缓。 论文首先介绍了分布式数据库的基本概念和常用的查询优化技术、遗传算法的特点和执行流程,针对FCM(Fuzzy C-means)算法的不足提出了优化方案,利用优化的FCM算法结合遗传算法实现本文的改进遗传算法,在分布式数据库查询使用本文的改进遗传算法进行优化。 本篇论文的主要研究工作可概括为如下: (1)FCM算法是一种基于目标函数的模糊聚类算法,主要用于数据的聚类分析,但FCM算法的效果经常受到初始聚类中心的影响,而且收敛结果易陷入局部最优。针对这些问题本文提出了一种FCM算法的优化方案,设计了选取初始聚类中心规则,采用此规则能够获得聚类结果的全局最优解。模拟实验表明,优化的FCM算法相较传统的FCM算法,准确率更高,迭代次数也更少。 (2)针对传统遗传查询算法的缺陷,本文采用设置多种概率的方法,将通过FCM聚类优化算法处理的当代全部个体分成三类,每一类设置成不同的概率,其中级别较低的个体设置较高的交叉和变异概率,增加产生新个体结构的能力,级别较高的个体设置较低的交叉和变异概率,降低优良基因被破坏的可能性,而对中间级别的个体则设置介于较高和较低之间的变异概率,较好解决了交叉和变异概率设置过大或者过小的情况,有效地防止算法陷入局部最优。实验结果表明,改进后的遗传算法能在较短时间内找到最优的查询执行计划,提高查询效率。