论文部分内容阅读
随着信息技术的飞速发展,数据不仅大量积累且近年来的增长速度十分迅速,大数据时代已经来临。大数据普遍存在于各个领域,已成为人类发展的重要经济资产,有效的数据分析与挖掘将推动国家、企业乃至整个社会的高效、可持续发展,基于此各国相继开展了相关大数据应用研究计划。又由于对事物观察角度及理解深度的不断扩大加深,实际环境中维度可达到数万甚至更多的高维大数据不断产生。面对高维大数据,分类、聚类等数据分析方法由于受到高维度带来的维度灾难以及大数据量带来的处理负荷的影响,效果往往不尽如人意,效率低下甚至完全不可用。本文分析了高维大数据分析中存在的问题,总结了国内外关于高维数据的降维、聚类、分类方法以及大数据处理技术方面的研究成果。指出对高维数据的特征提取是降低数据维度,减少人工特征选取工作的有利方法。针对采用深层神经网络作为学习模型对高维数据进行特征提取的方式,本文指出了其缺点。对高维数据的分类问题,采用另一种深层神经网络——多层极限学习机作为基本模型构建多标签分类器,并进行了对复合电能质量扰动的分类实验,经过对比,其不仅能够得到更好的分类结果,且分类效率处于较高水平。另外,针对k-means聚类算法虽然具有简单易用等诸多优点但对高维数据适用性较差的问题,采用无监督极限学习机在聚类前先对数据进行降维。经过与不进行降维预处理或采用其它降维算法的对比实验,得出这种方法的聚类结果与实际规律更加相符,且聚类效率较高。在随机矩阵理论基础上提出了一种高维数据特征提取方法——FEMPL,其适用于超高维数据的分析。文中对随机矩阵及其M-P率理论进行了简要说明,由不同的非随机矩阵与随机矩阵的特征值极限谱分布存在差异,引申出可利用此差异进行特征提取的思路,给出了FEMPL的数据矩阵化表示方法及具体的特征构成依据,描述了FEMPL特征提取的步骤。通过对复合电能质量扰动信号进行分类,以及对按月份进行分割的用户用电负荷数据进行嵌入分析两个算例,验证了FEMPL方法的有效性,也说明了FEMPL对数据的组织形式要求十分灵活。由于FEMPL特征提取过程中数据样本之间不存在耦合,十分易于并行化,为了缓解高维大数据的计算负荷,给出了在分布式环境中采用并行化FEMPL方法进行数据分析的基础模型,并以k-means聚类分析为例,采用MapReduce计算模型,将FEMPL与k-means进行结合,给出了分布式并行化的聚类分析过程。