遗传算法在数据挖掘中的应用

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:sfbw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、行政办公及科学研究。信息量的急剧增长,使传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们急切的需要一种去粗存精、去伪存真的技术,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。 数据挖掘(DataMining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,集成了数据库、人工智能、数理统计、可视化、并行计算等技术。 数据挖掘是应用需求推动下跨学科发展的产物,而且在近几年里迅速发展起来。这个领域的实质是智能技术与数据库技术的结合,不但为决策者提供知识和策略,而且为投资者带来经济效益。 现在应用于数据挖掘的算法有许多种,但是许多数据挖掘算法都涉及以下问题:数据的不完整、不精确以及不确定,即从不一致的例子中如何提取规则;规则的有效性,即在挖掘中出现很多无用的规则的处理;规则选优,在规则发生冲突时如何选择;以及误差控制,算法效率等。 遗传算法(geneticalgorithmn,GA)由于其解决问题以混沌、随机和非线性为典型特征,为其它科学技术无法解决或难以解决的复杂问题提供了新的计算模型。对于大量数据的嘈杂无序的特征,遗传算法是有效解决此类问题的方法之一。它模拟自然选择和生物遗传机制,利用遗传算子产生后代,通过群体的迭代,使个体的适应性不断提高,最终群体中适应值最高的个体即是优化问题的最优或次优解。 本文首先概括地介绍了数据挖掘技术,对其任务、方法及面临的问题与挑战等进行了讨论;然后,引入了遗传算法,探讨了其基本要素、特点及研究现状与方向等,并针对其局限性,提出了一系列的改进方法:采用分阶段快速寻优、调整控制参数、实数编码、协同进化、协同多群体遗传算法,粗粒度遗传算法及混合粗粒度遗传算法来提高基本遗传算法的收敛速率,避免“早熟”现象;最后,本文将遗传算法用于数据挖掘,提出了一种基于遗传算法的聚类算法,解决了常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题。
其他文献
期刊
学位
学位
期刊
期刊
学位
学位
学位
学位
期刊