高维大数据分析模型与分布式并行聚类方法研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:daocaoren666666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据不仅大量积累且近年来的增长速度十分迅速,大数据时代已经来临。大数据普遍存在于各个领域,已成为人类发展的重要经济资产,有效的数据分析与挖掘将推动国家、企业乃至整个社会的高效、可持续发展,基于此各国相继开展了相关大数据应用研究计划。又由于对事物观察角度及理解深度的不断扩大加深,实际环境中维度可达到数万甚至更多的高维大数据不断产生。面对高维大数据,分类、聚类等数据分析方法由于受到高维度带来的维度灾难以及大数据量带来的处理负荷的影响,效果往往不尽如人意,效率低下甚至完全不可用。本文分析了高维大数据分析中存在的问题,总结了国内外关于高维数据的降维、聚类、分类方法以及大数据处理技术方面的研究成果。指出对高维数据的特征提取是降低数据维度,减少人工特征选取工作的有利方法。针对采用深层神经网络作为学习模型对高维数据进行特征提取的方式,本文指出了其缺点。对高维数据的分类问题,采用另一种深层神经网络——多层极限学习机作为基本模型构建多标签分类器,并进行了对复合电能质量扰动的分类实验,经过对比,其不仅能够得到更好的分类结果,且分类效率处于较高水平。另外,针对k-means聚类算法虽然具有简单易用等诸多优点但对高维数据适用性较差的问题,采用无监督极限学习机在聚类前先对数据进行降维。经过与不进行降维预处理或采用其它降维算法的对比实验,得出这种方法的聚类结果与实际规律更加相符,且聚类效率较高。在随机矩阵理论基础上提出了一种高维数据特征提取方法——FEMPL,其适用于超高维数据的分析。文中对随机矩阵及其M-P率理论进行了简要说明,由不同的非随机矩阵与随机矩阵的特征值极限谱分布存在差异,引申出可利用此差异进行特征提取的思路,给出了FEMPL的数据矩阵化表示方法及具体的特征构成依据,描述了FEMPL特征提取的步骤。通过对复合电能质量扰动信号进行分类,以及对按月份进行分割的用户用电负荷数据进行嵌入分析两个算例,验证了FEMPL方法的有效性,也说明了FEMPL对数据的组织形式要求十分灵活。由于FEMPL特征提取过程中数据样本之间不存在耦合,十分易于并行化,为了缓解高维大数据的计算负荷,给出了在分布式环境中采用并行化FEMPL方法进行数据分析的基础模型,并以k-means聚类分析为例,采用MapReduce计算模型,将FEMPL与k-means进行结合,给出了分布式并行化的聚类分析过程。
其他文献
堤防滑坡后堤身断面变窄,水流渗径变短,可诱发堤岸渗透破坏及其他险情.以南京市西山河堤防工程为例,对引起滑坡的内因和外因进行分析研究,通过强度折减法反分析堤防岩土体的
依据孔隙结构的球体模型和毛管束模型 ,推导出两种模型的孔隙体积表达式和两种模型分形维数间的关系式。计算结果表明 ,基于毛管束模型的分形维数总比基于球体模型计算的分形
在市场竞争时代,品牌是企业谋取竞争优势、抵御市场风险的战略性资源,是建设创新型国家的重要着力点。当前,发达国家控制了全球90%以上的知名品牌所有权,获取了产业链两端的
Civil3D作为一个面向勘察岩土行业BIM设计及应用的技术方案,已成为实现三维地质建模的常用技术软件。针对Civil3D在三维地质建模中实现钻孔数据可视化的问题,进行克里金(Krig
组分中药是中药现代化发展方向之一,但与目前基于辨证论治的临床诊疗模式和病证结合的中药新药评价理念存在矛盾;针对疾病的病机采取共性方法进行干预,即辨机论治可为组分中
研究铝合金热处理过程中微观组织与性能的演变规律,并建立能应用于工业生产的定量预测模型具有重要学术和工程应用价值。综合近年来关于铝合金时效过程中析出相演变和析出强
<正> 写在前面的话 音乐与人这个问题,在我学习音乐的时候从没有去想过。自我从事音乐艺术教学以后,就迫使我去思考这个问题了。在实践中,我越来越感到如何让人懂音乐,其实并
苦参碱和氧化苦参碱为传统中药苦参(Sophora flavescens Ait)的主要生物活性成分,具有广泛的药理学活性。近年其抗肿瘤作用受到较大关注。苦参碱和氧化苦参碱能抑制肿瘤细胞
<正> 换气技术是笛子演奏中的基本技术之一。在一般情况下,演奏者要根据乐曲中的乐句、乐节的长短来选择时机进行换气。就象人们在说话、写文章时的句逗一样。当音乐进行中出
伴随经济的迅速发展,我国的城市化步伐加快,城市规模扩大,人多车多已经成为各大中城市的通病,社会发展的同时产生了停车难问题。城市土地资源稀少,地上开发接近饱和,人们转向