基于图的聚类分析研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:rscgmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是当前机器学习的一个研究热点,它旨在将数据集合拆分组成若干有意义的簇(也叫“类”),从而实现对数据的解释和识别。基于图的聚类(本文中也简称为图聚类)是一种较新的聚类方法,它先将数据表达为一个图,然后再将聚类问题转化为图划分问题。相比其它聚类方法,许多研究已证实图聚类方法更具有竞争力。本质上,图聚类方法几乎能对任意流形状数据进行聚类,这克服了传统聚类方法只善于对凸形态数据进行聚类的不足,因此获得了广泛地研究。本文的研究内容主要围绕图聚类算法、图优化理论和半监督学习等内容进行展开。研究目的是探究图聚类算法的基本框架,发现图聚类算法的优缺点和提出新的图聚类算法等。作为主要研究成果,在深入探讨了Yang等人在2016年提出的低秩双随机矩阵分解聚类(即Data-Cluster-Data,简称DCD)算法[25]的基础上,本文提出了以下两个新的图聚类算法:1)图优化的DCD(即Graph-Optimized DCD,简称GoDCD)算法。针对DCD算法存在“聚类结果好坏严重依赖于初始相似关联矩阵构造质量”的缺点,我们在GoDCD中引入了用图优化的思想,即将相似关联矩阵和聚类指示矩阵进行交替优化,从而得到了比DCD算法更好的聚类效果。2)半监督的DCD(即Semi-Supervised DCD,简称SSDCD)算法。由于DCD属于无监督聚类算法,没有利用任何先验数据知识(如部分弱标签数据),这往往会得不到更好的聚类结果。而在实际问题中,经常会获得少量的弱标签数据,例如成对约束信息。本文将成对约束引入DCD模型,将DCD从无监督情形推广到半监督情形,从而提高了聚类效果。
其他文献
链路预测是基于目前已存在的连边预测未来存在连边的可能性,可以部分解决复杂网络中缺失信息的还原和预测这一重要问题,已成为复杂网络研究的热点之一。传统的基于马尔可夫链
龙门山断层位于青藏高原东缘,是中国大陆西南地区一个典型的大型逆冲断裂带,与成都平原交界分布。2008年汶川Ms8.0级地震给我国人民的生命财产造成巨大损失。地震之后,有关青
超连续谱是一种频谱展宽的物理现象,这种物理现象涉及到各种非线性效应和色散效应的影响。光子晶体光纤具有其它非线性介质所没有的特性,如可控的色散特性、无截止频率单模传
山西断陷盆地带位于鄂尔多斯块体东缘,空间上位于华北构造区的中轴地带,其动力学背景究竟是受青藏高原北东向扩张的控制,还是受太平洋板块向西俯冲导致的弧后拉张影响,亦或是
长江中下游成矿带A型花岗岩与铀(金)矿床(化)具有密切的时空关系,目前关于区内A型花岗岩的成因存在较大争议,系统地开展A型花岗岩的成因研究,不仅有助于深刻理解长江中下游中生代
部分大陆下地壳和俯冲带深部均发现有地震或者较弱的不稳定滑动现象,因此其根源可能与基性岩在脆性域的力学性质有关。因为断层在不稳定滑动过程中会产生碎屑物质,碎屑物质在
激光光束能量一般呈高斯分布,这种能量非均匀分布的特性会导致材料在局部范围内产生热累积,影响加工效果的一致性,极大的限制了激光技术的发展。光束整形技术可以改变光束的
本文主要研究了Fast-Lipschitz优化。这是2011年,由C.Fischion提出的分布式优化的一种特殊情况。Fast-Lipschitz优化是求解优化问题的一种框架结构,这种框架主要考虑一些特定
在传统、现代乃至于后现代叠加的语境下,媒体在整个社会具有举足轻重的地位。媒介化社会的到来,使得新媒体技术渗透到公众日常生活的各个角落,新媒介正成为连接生活,编制生产
氮肥作为提高粮食作物所必须的营养元素以供给其生长,在提高产量及品质的同时,也因植物不能将氮肥完全吸收,致使土壤盐碱化及水域的富营养化严重。而豆科植物与根瘤菌之间形