基于密度的聚类集成

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:youxiangzhuce126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网技术的迅猛进步,社会步入了大数据时代。人类日常生活中产生了大量的数据。未来,无论是在哪个领域,越来越多的决策将依赖于数据分析。如何合理高效地分析大量数据,找到数据背后有价值的信息,成为新的关注点。聚类集成融合了聚类以及集成学习两种技术。使用此类模型处理问题能够提升最终结果的准确率、鲁棒性以及稳定性。集成过程中,增加半监督信息,可以得到新的模型:半监督聚类集成模型。在某些特定条件下,此模型获得的聚类结果可能会优于无监督聚类集成模型。本文选择近邻传播(Affinity propogation,AP)算法作为基聚类器,在实验过程中,多次设置不同输入参数,以此来获得不一致的基聚类结果。随后使用改进的最大信息系数(Rapid computation of the maximal information coefficient,RapidMic)计算各基聚类结果之间的相关性,用相似性矩阵表示。选取此矩阵来展示样本数据集的密度关系。本文借助等距映射(Isometric feature mapping,Isomap)进行降维,例证样本数据的密度关系能够透过基聚类结果来揭示。通过对密度峰值(Density peaks,DP)算法进行改进,本文设计出可以自动选取拥有较大密度峰值的几个点作为聚类中心的k_DP算法。然后基于此,得到一种新的聚类集成算法KDPE。实验表明,相较几种经典模型,KDPE能够获得更好的聚类集成效果。最后,本文尝试将半监督信息加入新模型,试图通过这种方式改善聚类集成效果。改进DP得到semi_DP后,依赖于这一新的方法,设计得到一种新的半监督聚类集成算法SDPE。通过对比实验,发现在某些特定的半监督比例下,SDPE可以优化聚类效果,一定程度上提升KDPE的表现。
其他文献
随着信息时代的深入人心与互联网技术的飞跃式发展,人们已经把从网络信息的海洋中搜寻出对自己有用的信息作为最主要的信息获取途径,互联网中的搜索服务在人们日常工作和生活
数据中心技术是云计算领域重要的组成部分。作为数据中心领域最新出现的融合型网络技术,光纤通道以太网(FCoE)技术可以提供较高的传输性能,减少网络设备的数量,并且可以保留现有的
移动终端的飞速发展掀起了一场新的社会革命,特别是智能手机应用的高速增长更是改变着现代社会人们的生活方式。从短信息、电子辞典,到移动QQ、飞信、微博、网聊,到网上购物、手
基于P2P(Peer-to-Peer)技术的网络应用是Internet最重要的应用之一。P2P网络以其文件共享和“去中心化”等特点不断引起人们的广泛关注。然而,由于P2P网络规模大、结点动态性
无线传感器网络是由大量资源受限的传感器节点组成,主要用于检测信息的目的,一般传感器节点的运算性能和存储空间大小都受限。随着科技水平的不断提升,无线传感器网络的相关
无线传感器网络(Wireless Sensor Networks, WSN)是一种在监测区域大规模的部署传感器节点,由传感器节点自组织形成的动态网络。这种全新的技术综合了无线通信,嵌入式计算及
近年来,无线传感器网络已经被应用在许多领域并成为一种重要的计算平台。无线传感器网络是由成百上千的传感器节点和-些基站组成。传感器节点可以被分成几个不相交的簇集合。
近年来,随着计算机技术与控制理论的飞速发展,移动机器人的发展受到了国内外广泛的关注。作为一种集环境识别、路径规划与运动控制为一体的高智能系统,它具有重要的科研价值
随着计算机和互联网技术的快速发展,各种计算机软、硬件系统已广泛渗透到人类生产和生活中,然而如何保证计算机系统严格按照人类设计的方式工作已成为当前计算机相关研究课题之
博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的