论文部分内容阅读
随着计算机和网络的普及,我们能方便获取我们关心的所有信息,在很多领域,都存在这些急速增长的以不同形式存在的数据,仅靠人们对数据库的查询或检索得出的数据往往不能得出我们所需要的归纳性的结果。如何根据所获得的海量的数据信息做出关键的决策,找出它们之间的结构关系,从而进行正确的管理和行动,这就涉及到数据挖掘。数据挖掘的目的,是在数据库中提取潜在的,有用的信息和知识。要是把这个数据库当作一个搜索空间,数据挖掘算法则就是搜索这个空间的策略。一般来说,数据库是很庞大的,即搜索空间很大,所以,挖掘算法这个搜索策略必须是高效的。聚类分析是数据挖掘技术的重要任务之一和主要研究领域之一,在识别数据内部关系方面具有重要的意义,主要研究如何在没有训练的条件下把对象划分为若干类。一般的数据库都是大型的,传统的聚类分析方法不但工作量巨大,而且不能保证最优的聚类分析结果。遗传算法模拟自然进化过程,从而搜索到最优解,对全局信息的有效利用是它的最大特点。我们只需通过较少的结果来反映出搜索空间较大的区域,有利于同步处理,具有较强的鲁棒性,可以防止结果陷入局部最优。本文就用遗传算法的这些特性来解决聚类分析中的动态确定聚类数目及其全局优化问题。k-means算法是聚类分析中的一种经典算法,但是它容易受到初始聚类中心的影响而得不到最优解,是一种局部的搜索技术。遗传算法具有良好的全局优化的能力,将遗传算法与k-means算法结合起来,能很好解决这一问题。当然,传统的遗传算法对k-means算法进行改进时也有自身的缺陷,即容易发生早熟现象,而且在进化的后期搜索效率比较低。因此本文引入免疫原理和自适应遗传算法,对传统的遗传算法再进行优化,使算法更加高效。最后将改进后的算法应用到实际的图书管理系统中去,得到良好的聚类效果。