DBSCAN聚类算法的参数配置方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:zww100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,海量数据涌现。在海量的数据中,存在大量无用甚至错误的“脏数据”,这些低质量的数据难以提供有价值的信息。数据质量低的一个方面就是数据异常。本文对数据异常检测问题进行了研究,将基于密度的DBSCAN聚类算法应用于数据的异常检测,并针对该算法在应用过程中对参数设置敏感的问题,提出了邻域阈值(Eps)和点数阈值(Minpts)两个参数的一种配置方法。该方法可根据数据集本身的统计特性以及图表的可视化展示,来为算法确定合适的参数。利用MATLAB工具,编程实现了DBSCAN聚类算法及辅助参数的计算,并在Iris数据集上进行了实验验证。实验结果表明,用该方法进行DBSCAN聚类算法参数的设置是可行的,弥补了DBSCAN聚类算法参数设置的传统做法单靠经验的不足,使得检测结果准确性和可伸缩性更好。
其他文献
与以往的被动相比,中国一些IT厂商推出电子消费产品的频率确实越来越快了。特别是mp3机、微型储存卡、CD唱机等数码设备,客观的说,无论性能、外形毫不逊色于进口货。
近年来在湖南省长沙市出现的体育教学比赛,是旨在提高教学质量、推动学校体育工作的一种新的形式。这种办法的作用究竟如何,怎样组织比赛才能更好地发挥它应起的作用,这在今
如何提高小学生的投掷能力,尤其是女学生,使其顺利通过“考核”及“达标”中的投掷项目,是小学生体育教学中的一个难点。近几年来,我在投掷教学中串插了“羽毛球大战”的游戏
近些时候,体育界对体育或竞技体育能不能“超前”的问题,颇有争议。笔者也想就此粗浅议论. 何谓“超前”?较为一致的认识是,体育或竞技体育的发展水平超出国家的经济水平.但
《真相——裕仁天皇与侵华战争》,《贼巢》,《巅峰投资家》,《并购时代的阴谋轨迹》
提出了一种新的融合思想,即图像应在相似尺度(si milar scale,SS)上进行融合·当融合低分辨率多光谱图像与高分辨率全色图像时,一般的方法没有考虑到插值的多光谱图像和高分辨率的全色图像的尺度不一致性·基于相似尺度的思想,图像融合算法如下·首先,使用“劋trous”离散小波变换分解高分辨率全色图像,使其低通分量与插值后的多光谱图像具有相似的尺度·然后,用加权多尺度基本形式(weighted
标记线跟踪是对心脏进行三维运动重建的前提,提出了基于Bayesian方法的标记线跟踪算法.算法在使用活动网格模型进行跟踪的基础上,通过预测网格节点的位置建立Markov随机场(MR
隐私保持的离群点探测是隐私保持数据挖掘研究的一项重要课题,致力于在保证参与方隐私的前提下进行离群点探测.研究参与方大于或等于2的情况下的隐私保持离群点探测.设计了两个协议,分别针对数据水平分割存储和垂直分割存储的情况进行隐私保持离群点探测.两个协议都使用了一个特殊的概率公钥加密系统,并引进茫然第三方.基于安全多方计算理论,证明了协议的安全性.分析了协议的时间复杂度和通信耗费.与以前的工作相比较,设
小学低年级体育课必须按照小学体育教学大纲和教材,根据儿童的心理特点进行教学。小学一、二年级的学生是七、八岁的儿童,他们活泼、爱动、好奇、好胜、爱表扬、善模仿、想