论文部分内容阅读
随着信息技术和互联网的快速发展,产生了呈爆炸式递增的海量数据。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,如何有效地处理、存储这些海量数据,并从这些数据中挖掘隐藏其中的知识是一项重要而有意义的工作。本文针对大规模海量数据存在的问题,对数据预处理技术、海量数据存储方法等进行介绍,尤其对数据预处理中的重复数据删除技术进行了深入研究改进;在此基础上,对数据挖掘技术中的多视角聚类算法和关联规则算法进行了有针对性的研究和改进,具体包括以下几个方面的工作:1.面对海量数据中存在的问题,在研究数据预处理技术的基础上,对数据压缩、增量备份及重复数据删除技术等数据处理技术进行技术比较,着重针对重复数据删除技术开展深入研究,提出一种基于自适应优化和K-Means的重复数据删除方法。首先通过在分布式存储系统中使用一致性哈希算法,以及在目标机器系统查询中使用Bloom Filter结构算法相结合的索引搜索方式,提升分布式数据索引搜索的效率;同时,通过改进基于Rabin指纹的分块算法,以及用后缀名划分的自适应数据分块优化方法,使数据选择分块方法具有自适应性和更好的数据传输效果;另外,提出基于K-Means的重复数据删除方法,准确识别重复的数据,提高重复数据检测和删除的效率。2.应用数据挖掘中的聚类算法对预处理消冗后的数据进行研究,提出一种基于特征加权和非负矩阵分解的多视角聚类(Feature Weighting and Non-negative Matrix Factorization-Multiview Clustering,FWNMF-MC)算法。FWNMF-MC算法在多视角聚类过程中同时考虑特征权重和数据高维性问题,针对不同特征的差异性,根据每个视角中每个特征在聚类过程中的重要性,自动赋予不同的权值。通过将每个视角空间中的特征矩阵分解为基矩阵与系数矩阵的乘积,将多视角数据从高维空间映射到低维空间。同时,为了有效利用每个视角信息挖掘聚簇结构,最大化每个视角在低维空间的一致性。实验表明,已有的算法相比,FWNMF-MC算法能够取得更好的聚类效果,适用于处理大规模数据。3.应用数据挖掘中的关联规则算法对预处理消冗后的数据进行研究,提出一种基于粒子群优化的关联规则挖掘算法(Association Rules Mining based on Particle Swarm Optimizaton,ARM-PSO)。ARM-PSO算法基于粒子群优化策略,首先找到每个粒子的最优适应值,通过将这些数据转换成二进制值后,计算出相应的支持度和可信度作为最小的阈值。实验结果表明ARM-PSO算法能够快速、客观地给出适合的最小支持度和置信度值,在保证挖掘效率的同时,实现自适应地获得高质量的关联规则,适合处理海量数据集的关联规则挖掘问题。