论文部分内容阅读
数据挖掘一直是一个非常活跃的研究领域,其成果被广泛应用于经济,管理等领域,有力的促进了人类社会的发展,给经济和社会的发展带来了巨大的效益。关联规则数据挖掘是数据挖掘研究最重要的分支。目前关联规则数据挖掘技术的研究与应用并不是很广泛和深入,尤其在针对海量数据的关联规则挖掘方面,基础性研究工作还相当的缺乏。文中对基于海量数据的挖掘方法进行了相关的研究,并在此基础上提出了一种对海量数据进行关联规则数据挖掘的有效方法,该方法实现了对海量数据的优化划分和对海量数据整体关联规则挖掘。在数据划分的方法上,本文采用粒子群优化算法对海量数据进行空间聚类优化划分,将海量数据集划分为多个小的子数据集。文中具体介绍和分析了粒子群优化算法和空间聚类算法,总结了粒子群算法的相关改进方法,重点对数据记录如何进行编码转化为粒子,确立适应度函数,怎么避免粒子群优化算法局部收敛等问题进行了研究,并且采用了一种满足类内距离小和类间距离大要求的适应度函数,大大提高了分类的准确性。最后详细介绍了本文提出的基于粒子群优化算法的空间聚类算法。在关联规则数据挖掘上,文中重点研究了Apriori算法,并进一步指出了该算法存在两个重要缺点,即产生大量候选项集和多次扫描数据库,并且在处理海量数据时效率非常低,甚至根本不切实际。本文提出了一种基于矩阵按位存储的Apriori改进算法,该算法仅需一次扫描数据库就能完成挖掘任务,而且频繁项集计数的过程中采用位之间的与操作,效率非常高。选取真实的实验数据运用本文的方法进行数据挖掘,实验表明了本文提出的针对海量数据的挖掘方法是有效的,它融合了基于矩阵按位存储的Apriori改进算法的优点,弥补了Apriori算法本身并不适合于对海量数据对象的缺陷。