云环境下家庭用户用电异常识别方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:yijianlou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘中使用频率较高的,无论是批量聚类算法还是基于图论的聚类算法都得到了广泛的应用。聚类分析主要用来将数据之间相似的数据聚集到一起,相差较大的分隔在不同的簇中。本文以家庭用户用电数据为实验数据,首先将数据进行预处理以及特征工程操作,并应用 SMK-means(Mini Batch K-means based on Simulated annealing)算法和 SDM-clustering(Spectral clustering based on Distance function and Mini Batch K-means)算法对家庭用户用电数据进行异常识别,并针对两个改进算法的结果运用 SM-RF(Random Forest based on Similarity Matrix)算法进行异常分类研究。本文主要是将聚类算法基于Hadoop进行并行化实现与性能研究并且采用随机森林算法对识别到的异常进行分类,研究内容如下:(1)针对MiniBatch K-means算法的初始聚类中心是随机产生的,会造成算法的不稳定性,提出了基于模拟退火算法的SMK-means算法,此算法是基于MapReduce分布式计算框架实现并行化,并采用家庭用户用电数据对SMK-means算法进行聚类的准确度、运行时间以及对异常识别的精确率进行检验。实验结果证明,SMK-means算法在稳定性和运行效率等都要优于标准算法。(2)针对谱聚类算法在聚类时采用的K-means算法,仍然存在标准聚类算法的一些不足,因此提出了基于图论的SMD-clustering算法,通过采用SMD-clustering算法对数据进行层次性的抽样,首先是通过对矩阵求解特征值和特征向量,选取前k个特征向量,实现第一层次的抽样;其次,采用批量式算法SMK-means算法,实现第二层次的抽样的同时完成对数据的聚类分析。实验表明SMD-clustering算法在运行效率与对异常识别的准确率上相对于SMK-means有着较好的提升。(3)针对随机森林算法中相似性矩阵的特性,针对相似性矩阵存在的不足,提出了SM-RF算法,引入了路径距离的概念,对于相似度高的样本数据能够更好地被分为一类,提高了分类的准确率。
其他文献
大学生创业对我国实现可持续发展、提升国际竞争力有重要影响,政府部门、高校、全社会各单位应密切配合,形成合力,共同支持大学生创新创业,努力创造各方面的支持条件,将大学
时下,不少党政机关仍存在办公用品及办公经费浪费的现象。记得在二十世纪八、九十年代,很多地方的党政机关都设有一个特殊奖项,那就是“节约奖”。机关根据在职人员节约办公
抗日战争胜利后,形成了政治路线对立的国民党、共产党两大阵营,使中国面临着“两种命运、两种前途”的大决战,斗争的中心是建立一个什么样的国家。到1946年在国共两党之间夹
机电一体化是设备机械类模块、电子计算机模块、电力电子模块等集成融合的一体化,这些部分内容及其之间通过接口耦合、运动传递、物质流动、信息控制、能量转移有机融合集成一
统一电子病历的建设有助于有效利用医疗资源,促进区域医疗信息交换与共享,并加强区域医疗协作与远程医疗服务,从而提高医疗质量。
1.粮食和薯类产品资源精深加工关键设备。如小麦剥皮制粉设备、玉米脱胚榨油设备等.市场年需求量较大。2.油料和油脂精深加工设备。如油料挤压膨化设备、粉末油脂加工成套设备等
目的观察针灸联合推拿疗法治疗膝骨关节炎的临床疗效。方法将90例膝骨关节炎患者随机分为3组。针灸组30例予针灸治疗;推拿组30例予推拿治疗;针灸联合推拿组30例予针灸联合推
江泽民同志在党的十六大报告中指出,“全面建设小康社会,推进社会主义现代化,必须毫不放松地加强和改善党的领导,全面推进党的建设新的伟大工程。”
现行的《企业会计基本准则》指我国于1992年11月第一次颁布的《企业会计准则》(以下简称原会计基本准则)。我国加入WTO以后,会计准则的国际化趋同需要也日益迫切。2006年我国将