基于数据密集性的自适应K均值初始化方法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:wormchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方法分为两个过程,第一个过程给出数据密集性的定义,并基于数据密集性选出满足条件的候选初始聚类中心,第二个过程是对选出的候选初始中心进行后处理,使其个数与数据类一致。实验证明,提出的方法有如下优势:1)能够自主发现数据集中数据分布的密集性,并能够合理找出初始聚类中心;2)对离群点和噪声鲁棒;3)减少了K均值聚类算法的迭代步骤;4)易于实现。
其他文献
本文在对生态旅游概念作出科学界定的基础上,针对海南旅游业发展中存在的问题,从海南旅游资源的特点出发,论述了生态旅游是海南旅游可持续发展的必由之路,并就海南生态旅游开发的
叙述球罐液位检测中液位计的选型及其各类型液位计的优缺点、安装注意事项等,并介绍切断阀的选型及控制,为相关部门人员提供参考。
描述了证券业客户流失分析的重要性,客户流失的定义,提出了影响客户流失的各种特征因素。然后根据CRM中的RFM模型,加入客户收益率指标,提出了证券行业客户流失分析的RFM-ROI
成本效益分析是在项目评价过程中运用较多的一种方法,由于其对方案选择具有直观的数量分析优势,被很多教育财务管理采用。本文从教育成本效益分析的重要性入手,研究了影响教
<正> 采用倍压整流电路制作的电子镇流器,虽然用于日光灯照明电路并不理想,但用它来修复断丝显像管倒有独到之处。方法是把电子镇流器接上~220V电源,用其高压输出两端分别去触
在我国社会建设和社会治理的大背景下,广州社会工作借鉴邻近的香港新加坡经验,探索以家庭综合服务中心为平台的项目式政府购买服务。从2010年开始的20条街道试点到2012年底,1
近年来,随着计算机技术与无线局域网技术的飞速发展和广泛普及,信息时代正在转型为智能时代。移动及无线技术作为智能时代的重要标志和依托之一,其优势已经在与人们生活息息
对双向晶闸管控制感性负载的关断过程作暂态仿真研究,并给出不同参数条件下关断电压暂态曲线图。