基于异常检测的改进K-means算法研究

来源 :浙江农林大学 | 被引量 : 5次 | 上传用户:zhyanhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术引起了信息产业界的极大关注,其原因是我们正处在一个数据爆炸性增长的时代,大数据成为时下最热门的词汇之一,如何从海量数据中快速获得更多有价值的信息成为人们越来越关注的问题。K-means算法作为现今广泛应用于数据挖掘领域的聚类算法,是根据待处理数据集合当中各元素之间的相似程度,对数据集合进行多次划分,最终使同类簇内部数据集合相似度达到最大,不同类簇数据之间差异度达到最大的聚类分析方法。但是K-means聚类算法存在明显的缺陷:聚类结果对异常数据的敏感度较高,算法性能对初始聚类中心选择的依赖性强。本文针对以上两点K-means算法的缺陷,做出以下相应的改进:(1)隔离高度异常数据后选取初始聚类中心,在输入数据后先对每个数据元素的异常度加以计算,拟定异常度系数阈值计算公式,根据选取的离群值过滤比例的不同,过滤相应比例的离群数据点,解决K-means算法对离群点较为敏感性的缺陷。(2)平均差值算法计算初始质心,对剔除了离群数据的正常集合以差值法进行初始聚类中心的计算,确保所得的初始聚类中心尽可能处于簇类中心的位置,以此解决了K-means算法的聚类结果对初始聚类中心选取的依赖性较强的缺陷。将改进前后算法结合多组取自UCI的真实数据集分别进行实验仿真,通过对比多项准则函数对聚类结果的评估,得出结果基于异常检测的改进K-means算法获得的聚类结果准确率提升了约12%,聚类时间减少了约8%,充分证明了改进算法的可行性与有效性。最后对比多种离群过滤比例取值下的实验结果,得出过滤比接近10%时算法聚类效果最优。
其他文献
基质辅助激光解析电离质谱(matrix-assisted laser desorption ionization-mass spectrometry,MALDI-MS)成像技术近年来引起广泛关注并得到快速发展,该技术在分子水平上对生
从轴承的精度、材料与热处理和寿命与可靠性3个方面出发,结合实际测试数据,对国内外6307轴承成品质量做了对比分析,并同20世纪80年代轴承的质量进行了对比,找出了与国外轴承
基于台积电TSMC 0.35μm 3.3V标准半导体工艺,完成一款低电压、超低功耗人工耳蜗植入体芯片设计与流片.首先,基于目标工艺设计一套2.0V低电压标准单元库,完成电路结构设计、
本文以共享单车为例,通过运用消费者剩余和生产者剩余分析社会总福利的变化,得到了共享经济能够改善社会福利的结论。共享经济优化配置了社会上的闲置资源,减少了资源浪费,是
<正>宁波PAC海运有限公司(以下简称"PAC公司")是宁波市一家知名的民营航运企业,主营国内沿海散货运输,公司现有散货船舶5艘,运力达19.66万吨。由于目前经济的持续下行,国内航
目的:观察揉髌手法对兔膝骨关节炎模型血清IL-1β、IL-6、IL-13、IL-26、TNF-α等细胞因子含量的影响,探寻该手法在膝骨关节炎治疗中的获效机制,为膝骨关节炎的临床诊治提供
近年来,鉴于大量新能源电力的并网,加剧了火电机组的调峰强度。在火电机组参与调峰的过程中,锅炉机组的频繁启停使得锅炉工件频繁出现膨胀-收缩的现象,缩短了机组设备的使用
低温铝电解生产工艺是一种创新性的铝电解技术,对于提高铝电解电流效率,降低吨铝直流电消耗效果明显。目前在世界范围内,低温铝电解生产工艺都是一个重要的发展探索领域,对铝
目?目的:探讨托瑞米芬(TOR)协同顺铂(DDP)或表阿霉素(EADM)对p53表达不同的人肺癌细胞株A549、H1299的影响及其机制,并了解p-gp在两种细胞中的表达情况。 方法:人肺腺癌细胞系A549(+
<正>全党深入开展以"为民、务实、清廉"为主要内容的党的群众路线教育实践活动,是党的十八大作出的战略部署。群众路线是党的生命线,也是司法工作的生命线。黑龙江省林区中级