改进数据竞争聚类算法的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:kittyranger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分析技术在各个领域应用广泛。其中,聚类分析作为一个重要研究方向,获得了极大的发展。数据竞争(Data nCompetitio,DC)算法是一种基于划分的聚类算法,能够排除孤立点带来的干扰,聚类效果稳定;在图像分割与文本聚类等方面已有应用,但仍存在诸多不足之处,需要进一步研究。DC算法通过人为设定聚类数,并且在处理流状、环状以及复杂结构数据集上的聚类效果不是很理想。针对上述问题,研究对比了近几年提出的一些聚类算法在处理不同聚类问题上的优缺点,例如密度峰聚类、谱聚类等;受上述聚类思想的启发,对DC算法提出了相关改进,并将其应用于彩色图像分割。论文的主要工作如下:1.针对DC算法人为设定聚类数以及聚类中心无法自动确定的缺陷,提出了一种自动确定聚类中心的数据竞争算法(llyAutomatica Determine Data nCompetitio,ADDC)。通过数据场模型来替换聚合场模型,并采用数据点势值的高低来描述数据集的分布特征;在竞争后根据数据点的?值分布构造直方图来自动确定临界阈值,筛选出准聚类中心点;其中,利用了数据场的衰减性选出实际的聚类中心点,完成聚类中心的自动确定。在人工与UCI数据集上的实验效果表明,ADDC算法不仅具备了自动确定聚类中心的能力,而且提高了聚类效果。2.针对DC算法不能够有效描述流状、环状和多重尺度分布数据点间相似性的问题,提出了一种基于测地距离与密度调整的数据竞争算法(Data nCompetitio Algorithm Based on Geodetic Distance and Density Adjustment,DC-GDDA)。该算法对自适应相似度函数进行了改进,设计了一种基于测地距离与密度调整的相似度函数,可以准确的刻画数据空间的分布特征;在竞争出簇中心之后,类比密度峰聚类分配数据点的方式,完成聚类。通过多种算法的对比实验表明,DC-GDDA算法的聚类准确度更高,尤其在处理多重尺度、环状和流状数据集时效果更优。3.针对DC算法在处理复杂结构数据集无法有效聚类的缺陷,提出了一种基于密集系数与局部相似性的数据竞争算法(Data nCompetitio Algorithm Based on Dense tCoefficien and Local Similarity,DC-DCLS)。其中,设计了一种密集相似度公式,通过该公式计算各数据点的密集系数来对自适应相似度函数的尺度参数加权,降低了稀疏区域数据点之间的相似性;随后,计算内部数据点的局部相似性指数来进一步挖掘簇的结构信息;在竞争出簇中心之后,类比密度峰聚类分配数据点的方式,完成聚类。通过理论分析与多种算法的对比实验,证明了DC-DCLS算法处理复杂结构数据集的能力,聚类效果稳定。4.将DC-GDDA和DC-DCLS算法运用于图像分割当中。通过SLIC超像素算法对图像进行预分割,并采用了多种算法进行二次分割比较。在Berkeley图像数据集与现实拍摄图像上的实验表明,改进的数据竞争算法与其它几种算法相比具有较好的分割效果。
其他文献
随着互联网和移动智能终端的兴起发展,人类正面临严重的数据过载。为了解决这一问题,推荐系统应运而生。推荐系统通过分析用户的偏好和行为信息,建立用户模型,主动为用户推荐
深度信息在很多计算机视觉与计算摄像学问题中都起着至关重要的作用,如3DTV,虚拟现实,多视图渲染和自主导航等。然而,受主动传感技术精度的限制,现有的深度相机,例如Time-of-
随着国家房地产建设行业竞争发展,室内环境对于人们生活健康的影响越来越被大众所重视,且由于人民对于室内生活舒适度要求的提高,大量房屋建筑被过度装修,使得空气环境质量越来越差,室内空气品质逐渐下降,其中甲醛是室内空气最主要的污染物之一。在现有的研究中发现,光催化氧化技术作为室内空气净化最为有效的方法,具有反应彻底、反应速率快及安全可靠等特点。因此,整合现有光催化净化装置的优势,如何将光催化氧化技术更好
高速公路整个运行系统中,收费管理系统占有非常重要的地位。人员方面,收费员、监控员、管理人员等人员众多;收费管理模式的演变方面,由原来的纯人工模式增加到ETC(高速公路不
近年来,Web服务作为SOA的一种实现形式,在电子商务、企业应用等领域都扮演着愈发重要的角色,其全新的软件组件思维方式,使得系统服务化集成成为一种新的软件复用解决方案。已
伴随着互联网技术的快速发展,原有的IPv4地址已经不能满足日益增长的网络业务需求,继而产生了NAT技术——其出现以及发展强有力地缓解了IPv4地址不足的问题。但NAT技术引起的
SDN(Software Definded Network,软件定义网络)是一种新型的网络创新架构,它是实现网络虚拟化的方式之一,SDN的出现实现了网络设备控制层与转发层的分离。从而通过SDN控制器
Takagi-Sugeno-Kang(TSK)模糊系统在处理高维非线性建模任务时,通常需要更多的模糊规则数,这也进一步降低了其清晰度和解释性,所以本文研究如何稀疏模糊建模。随着异构数据的
由于用户对数据的安全性和隐私性的要求不断提升,越来越多的企业用户开始建设自己的私有云平台,其中以云桌面(Cloud Desktop)应用最为典型。为了增强云桌面的用户体验,向用户
在过程工业中,很多关键的质量参数无法实时在线测量,只能通过实验室离线分析获得,严重制约了过程的监测、控制及优化水平。为此,软测量技术通过建立易测变量与难测变量之间的