并行遗传算法在K-中心数据挖掘的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fymps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式。其中聚类是最重要的一种。在数据挖掘中,效率和准确性一直是人们所关注的问题。为了提高数据挖掘的准确性和效率,人们将许多的算法应用到数据挖掘当中来。这些算法包括:遗传算法,神经网络,模糊理论,粗糙集理论等等。本论文将并行遗传算法应用到K-中心聚类数据挖掘中,从而来提高K-中心数据挖掘的效率和聚类的准确性。遗传算法是一种解决组合优化的一种有效方法,它是基于自然选择和自然进化的搜索算法。但大量模拟实验表明,对于中小规模的应用问题,遗传一般能够在许可的时间范围内获得满意解。对于大规模或超大规模的求解任务,简单的串行遗传算法则力不从心。另外,简单串行遗传算法在应用过程中一个比较突出的问题是它容易产生早熟现象,这将严重地影响遗传算法的应用。因此,人们利用遗传算法固有的并行特性,将并行技术与传统的遗传算法相结合,从而来提高遗传算法的效率和减少遗传算法早熟现象的产生。K-中心方法是基于划分的聚类方法。它在目前的聚类分析中应用很广泛。但是该算法的缺点是易陷入局部最优,效率不高。而且中心点个数K的确定,在一般的情况下,是依据经验来确定的,但是这样做往往是不准确的。针对K-中心聚类的这些不足,将遗传算法应用到K-中心聚类数据挖掘中,必然会使K-中心聚类的效率和准确性得以提高。本论文为了将遗传算法应用到K-中心聚类中去,提出了相应的编码方案和适度函数以及并行计算模型和相应的迁移策略。实验证明,用并行遗传算法来求解K-中心聚类问题,其效率和准确性都得到了提高。本论文用PVM将PC机组织在一起,构成了一个并行计算环境,所用的操作系统为Linux。并行计算时所选用的模型为粗粒度的主/从模型。在计算过程中,将初始个体分别分配得各台slave机器上,然后slave机就开始计算,在slave机计算到一定的时间以后,依据一定的迁移策略,向master迁移个体,然后再从master机上取回其它机器的个体继续运算,直到满足中止条件为止。最后,对实验得到的数据进行了比较,分析,并得出了相应的加速比。
其他文献
随着人们对地理信息需求的不断增长和Internet技术的飞速发展,GIS技术与Internet技术相互融合形成了WebGIS技术.虽然目前WebGIS技术已越来越多地应用于各个领域,但国内农业病
目前,世界石油开采储量的增加,75%以上来自对已开发油藏的技术挖潜,仅有不到25%来自新油田的发现。在一般情况下,人们仅仅采出原油总储量的30%左右,因此,剩余油开采对于增加可采储量及
结构化方法是系统分析和设计时常用的方法.该文结合软件工程的知识与房产管理部门的实际情况,利用结构化方法分析和设计了一个房产管理信息系统,对房产管理信息系统的设计开
证券市场自2002年以来发生了很大的变化,最明显的特征就是市场竞争日益加剧;外资证券机构的进入带来很大的挑战,同时内资机构的竞争也空前激烈。这一形势逼迫内资机构考虑全方位
以Java applet为代表的移动代码的普及给传统的计算机网络安全技术带来了严峻的挑战。基于沙盒(Sandbox)模型的Java安全机制从理论上可以保护主机不受恶意Java applet的破坏,
本文介绍了辽宁投资项目决策支持系统LNIPDSS(LiaoningInvestmentProjectDecisionSupportSystem),它是把决策支持系统技术、面向对象技术、数据仓库技术、计算机技术综合应用
随着软件业的发展,人们已经意识到软件过程是软件工程的一个重要基础,高质量软件的生产越来越依赖于软件组织在生产中是否采用了适当的软件过程,以及在组织内部是否不断地改
长期以来,网络上存在着大量异构的数据库,它们的异构性表现在多个方面,如数据的类型不同,数据的表示不同,管理数据的软件不同,以及系统运行的环境不同。随着企业合作和政务电子化的
本文在自主开发的多级安全空间数据库管理系统SecVISTA之上,针对存储隐通道和时间隐通道两大类,分别设计并实现了不同的隐通道消除模块。文章基于多实例、大容量缓冲和泵协议等
本论文系统地描述了具有入侵检测功能的防火墙的实现方法,实现成果和结论。对于在防火墙层次实现网络入侵的过滤,在现存的技术手段和科学研究的基础上,已经可以比较容易地实现一