基于距离的聚类和孤立点检测算法研究

被引量 : 0次 | 上传用户:yxws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析基于距离和基于密度的聚类算法的基础上,提出了基于距离的聚类和孤立点检测算法(Distance-Based Clustering and Outlier Detection Algorithm),对算法进行了较为详细的描述,阐述了算法中各个函数的功能,给出了程序流程图。该算法根据距离阈值对数据点进行聚类,在聚类过程中记录所有数据点的密度,并根据密度阈值确定数据点是否为孤立点,根据类中元素个数判定所得聚类是有效聚类还是孤立点类。该算法时间复杂度是0(n~2),空间复杂度是0(n),其中,n是数据规模。 本文使用Visual C++ 6.0实现了基于距离的聚类和孤立点检测算法、k-means算法和DBSCAN算法,做了大量的对比实验,包括聚类算法和孤立点检测正确性实验;聚类算法和孤立点检测精度实验;算法执行时间实验;参数对聚类和孤立点检测结果的影响实验;数据输入顺序对算法聚类和孤立点精度的影响实验;数据集密度对算法有效性的影响等。 实验结果表明,基于距离的聚类和孤立点检测算法不仅能够对数据集进行正确的聚类,同时能有效进行孤立点检测,有效解决了传统算法只能聚类或只能进行孤立点检测的缺陷;比k-means算法有更好的聚类精度;比DBSCAN算法的聚类效率高;适于均匀密度数据集、高密度数据集的聚类和孤立点检测;可以发现任意形状的聚类,对噪音数据、数据输入顺序不敏感;对参数敏感;但对多密度数据集的聚类及孤立点检测结果不理想。 总之,基于距离的聚类和孤立点检测算法能够准确、有效的发现聚类和孤立点,算法在执行效率、聚类及孤立点检测效果等方面有一定的优越性。
其他文献
税收筹划是纳税人根据现行税法的规定进行的以获取最大税收利益为目的的一种纳税运作行为。税收筹划在西方已经是家喻户晓,在我国尚处于起步阶段。随着中国市场经济体制的建
目的观察在治疗睑球粘连、结膜囊狭窄等结膜囊成形术中应用异种脱细胞真皮基质的临床疗效。方法对2012年1月至2016年1月我科收治的睑球粘连患者13例(13眼)和结膜囊狭窄患者63
在市场经济条件下,每个企业都不同程度地面临着资源短缺的问题。为了合理利用有限的资源,许多企业都在积极探索适合本企业实际情况的预算管理模式,以确保企业战略目标的实现
针对传统农业生产中存在的生态因子失调、生态循环阻断和生产效益下降等问题,运用农业生态新技术构建农业生态工程来加以解决;通过定位观测和统计调查,对农业生态技术的生态
在二维平面凸现三维虚幻空间是西方绘画的主要特征。自文艺复兴线性透视的发现至19世纪印象主义的色彩透视,西方绘画在深度空间的探索走过了几个世纪的道路。本文通对文艺复
国际上商业银行的经营制度主要有两种,即分业经营制度与混业经营制度。在分业经营制度中,银行、证券、保险等金融业务彼此分开经营,强调隔离金融各业之间的风险,以保证金融体
针对渭南市临渭区教师心理健康状况调查结果,认为教师的不良心理健康问题已严重制约了教师潜能的发挥,影响了着教学质量的提升甚至影响着学生的身心健康,并提出了对教师心理健康
设计高消声性能、低压力损失的排气系统是目前汽车噪声控制中的重要课题。传统的排气系统内消声器设计主要根据一维平面波理论,但该理论难以正确模拟三维波动效应等实际因素
利用GPS技术管理员工,不失为一种高科技管理手段。然而,不愿受高科技约束的公司员工却以侵犯隐私权为由,将公司告上了法庭。 The use of GPS technology to manage staff, a
维卡仪是一种检测仪器,用于水泥凝结时间的测定。水泥的凝结时间是水泥性能的重要参数之一,而我国目前关于水泥凝结时间测定的技术水平却很低,基本上停留在手工操作阶段,这种