论文部分内容阅读
聚类算法是数据挖掘中使用频率较高的,无论是批量聚类算法还是基于图论的聚类算法都得到了广泛的应用。聚类分析主要用来将数据之间相似的数据聚集到一起,相差较大的分隔在不同的簇中。本文以家庭用户用电数据为实验数据,首先将数据进行预处理以及特征工程操作,并应用 SMK-means(Mini Batch K-means based on Simulated annealing)算法和 SDM-clustering(Spectral clustering based on Distance function and Mini Batch K-means)算法对家庭用户用电数据进行异常识别,并针对两个改进算法的结果运用 SM-RF(Random Forest based on Similarity Matrix)算法进行异常分类研究。本文主要是将聚类算法基于Hadoop进行并行化实现与性能研究并且采用随机森林算法对识别到的异常进行分类,研究内容如下:(1)针对MiniBatch K-means算法的初始聚类中心是随机产生的,会造成算法的不稳定性,提出了基于模拟退火算法的SMK-means算法,此算法是基于MapReduce分布式计算框架实现并行化,并采用家庭用户用电数据对SMK-means算法进行聚类的准确度、运行时间以及对异常识别的精确率进行检验。实验结果证明,SMK-means算法在稳定性和运行效率等都要优于标准算法。(2)针对谱聚类算法在聚类时采用的K-means算法,仍然存在标准聚类算法的一些不足,因此提出了基于图论的SMD-clustering算法,通过采用SMD-clustering算法对数据进行层次性的抽样,首先是通过对矩阵求解特征值和特征向量,选取前k个特征向量,实现第一层次的抽样;其次,采用批量式算法SMK-means算法,实现第二层次的抽样的同时完成对数据的聚类分析。实验表明SMD-clustering算法在运行效率与对异常识别的准确率上相对于SMK-means有着较好的提升。(3)针对随机森林算法中相似性矩阵的特性,针对相似性矩阵存在的不足,提出了SM-RF算法,引入了路径距离的概念,对于相似度高的样本数据能够更好地被分为一类,提高了分类的准确率。