论文部分内容阅读
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式。其中聚类是最重要的一种。在数据挖掘中,效率和准确性一直是人们所关注的问题。为了提高数据挖掘的准确性和效率,人们将许多的算法应用到数据挖掘当中来。这些算法包括:遗传算法,神经网络,模糊理论,粗糙集理论等等。本论文将并行遗传算法应用到K-中心聚类数据挖掘中,从而来提高K-中心数据挖掘的效率和聚类的准确性。遗传算法是一种解决组合优化的一种有效方法,它是基于自然选择和自然进化的搜索算法。但大量模拟实验表明,对于中小规模的应用问题,遗传一般能够在许可的时间范围内获得满意解。对于大规模或超大规模的求解任务,简单的串行遗传算法则力不从心。另外,简单串行遗传算法在应用过程中一个比较突出的问题是它容易产生早熟现象,这将严重地影响遗传算法的应用。因此,人们利用遗传算法固有的并行特性,将并行技术与传统的遗传算法相结合,从而来提高遗传算法的效率和减少遗传算法早熟现象的产生。K-中心方法是基于划分的聚类方法。它在目前的聚类分析中应用很广泛。但是该算法的缺点是易陷入局部最优,效率不高。而且中心点个数K的确定,在一般的情况下,是依据经验来确定的,但是这样做往往是不准确的。针对K-中心聚类的这些不足,将遗传算法应用到K-中心聚类数据挖掘中,必然会使K-中心聚类的效率和准确性得以提高。本论文为了将遗传算法应用到K-中心聚类中去,提出了相应的编码方案和适度函数以及并行计算模型和相应的迁移策略。实验证明,用并行遗传算法来求解K-中心聚类问题,其效率和准确性都得到了提高。本论文用PVM将PC机组织在一起,构成了一个并行计算环境,所用的操作系统为Linux。并行计算时所选用的模型为粗粒度的主/从模型。在计算过程中,将初始个体分别分配得各台slave机器上,然后slave机就开始计算,在slave机计算到一定的时间以后,依据一定的迁移策略,向master迁移个体,然后再从master机上取回其它机器的个体继续运算,直到满足中止条件为止。最后,对实验得到的数据进行了比较,分析,并得出了相应的加速比。