基于粒子群优化算法的数据挖掘研究与应用

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:jingjong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘一直是一个非常活跃的研究领域,其成果被广泛应用于经济,管理等领域,有力的促进了人类社会的发展,给经济和社会的发展带来了巨大的效益。关联规则数据挖掘是数据挖掘研究最重要的分支。目前关联规则数据挖掘技术的研究与应用并不是很广泛和深入,尤其在针对海量数据的关联规则挖掘方面,基础性研究工作还相当的缺乏。文中对基于海量数据的挖掘方法进行了相关的研究,并在此基础上提出了一种对海量数据进行关联规则数据挖掘的有效方法,该方法实现了对海量数据的优化划分和对海量数据整体关联规则挖掘。在数据划分的方法上,本文采用粒子群优化算法对海量数据进行空间聚类优化划分,将海量数据集划分为多个小的子数据集。文中具体介绍和分析了粒子群优化算法和空间聚类算法,总结了粒子群算法的相关改进方法,重点对数据记录如何进行编码转化为粒子,确立适应度函数,怎么避免粒子群优化算法局部收敛等问题进行了研究,并且采用了一种满足类内距离小和类间距离大要求的适应度函数,大大提高了分类的准确性。最后详细介绍了本文提出的基于粒子群优化算法的空间聚类算法。在关联规则数据挖掘上,文中重点研究了Apriori算法,并进一步指出了该算法存在两个重要缺点,即产生大量候选项集和多次扫描数据库,并且在处理海量数据时效率非常低,甚至根本不切实际。本文提出了一种基于矩阵按位存储的Apriori改进算法,该算法仅需一次扫描数据库就能完成挖掘任务,而且频繁项集计数的过程中采用位之间的与操作,效率非常高。选取真实的实验数据运用本文的方法进行数据挖掘,实验表明了本文提出的针对海量数据的挖掘方法是有效的,它融合了基于矩阵按位存储的Apriori改进算法的优点,弥补了Apriori算法本身并不适合于对海量数据对象的缺陷。
其他文献
根据无线传感器网络的发展趋势,结合3G移动通信网络以及嵌入式系统技术,针对目前无线传感器网络网关数据传输的低速率和低可靠性,提出了一种基于嵌入式系统的接入TD-SCDMA网
复杂系统的建模往往需要进行严格的形式化分析和验证,而UML却是半形式化的,因为其语法结构虽然采用了形式化的规约,但其语义部分则是用自然语言描述的,缺乏精确的语义描述,因此会
支持向量机是建立在VC维理论和结构风险最小原则基础上的一种学习方法,已经成为机器学习的一个重要研究方向。目前,研究人员对其算法进行了各种改进,并提出了许多算法,例如,模糊支
随着现代社会车辆的普及,停车困难、交通堵塞、交通事故等一系列交通问题频繁发生。由此,交通管理,安全驾驶和交通信息交换问题引起了越来越多的关注。车载自组织网络(Vehicl
Pawlak经典粗糙集理论是一种新的处理不精确、不确定和不完备数据的分析理论与方法,其主要思想是通过一对逼近算子对某一给定概念进行近似表示。多年来,粗糙集模型的推广是粗糙
随着通信技术和Internet的快速发展,组播技术得到了很好的发展,但是随之产生的安全问题也日益突出,其中最需要解决的是组播源认证问题,数字水印技术的发展为这一问题提供了很好的
无线传感器网络是一个由节点大规模部署所形成的网络。由于节点本身的电源能量、计算和通信能力方面的限制,故研究节点之间如何形成合理有效的拓扑是设计传感器网络的重点问
Pac-Man是一款风靡世界的追逐躲避类游戏,其中的非玩家角色(一般称为NPC,即Non-Player Character)Ghost是由脚本控制的,而脚本控制的NPC通常存在着行为单一的缺点。使用进化神经网
动漫产业有着广阔的发展前景,被称为21世纪创意经济中最有希望的朝阳产业和21世纪的“无烟工业”。对于大规模场景和角色设计而言,传统意义上的单机操作会产生大量的人力、物力
“信息孤岛”的产生极大降低了信息系统间的合作效率,解决该问题的核心在于历史数据的集成,数据迁移作为数据集成的关键组成部分,占有十分重要的地位。但现有的数据迁移解决方案