基于深度学习的聚类算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:GYQ865739853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代社会数据采集量和传输量的不断增长,数据也朝着高维、无结构化方向发展,数据挖掘成为当今不可或缺的工具。而无监督学习由于不需要人为的标注数据,成为了其中一个重要分支。聚类是一种无监督的将数据按一定规律划分为多个子类的方法。经典算法如K均值、DBSCAN等方法尽管在低维结构化数据上取得了不错的聚类效果,但是由于高维数据存在维度灾难问题,使这些方法很难直接应用。此后大量降维方法被提出并应用于聚类之前的一个先行步骤,然而这类方法也往往需要太多人为假设而无法很好适应高维无结构化数据。面对高维数据可能分布于多个低维子空间的特点,子空间聚类成为了一类高效的算法。它通过将样本划分至多个低维子空间,同时实现了类别划分和子空间分布挖掘。其中,基于自表达的方法也在流形保持上取得了有效的成果,但是面对越来越复杂数据,这类方法也逐渐难以处理各类高维数据,例如语音、图像、文本等。近年来,得益于神经网络和深度学习的发展,其非线性映射能力使得更大规模和更深层次的特征提取得到了可能。利用深度学习来提高聚类性能成为了研究的一个趋势。然而,目前的基于深度学习的算法大多基于欧式距离来作为样本间的相似性,很难保持样本之间真实的分布关系。针对这个问题,本文提出了子空间一致假设和局部保留约束,并且提出了一致子空间聚类网络(SCC)和关系引导子空间聚类网络(RGSC)两种算法。本文通过实验系统地对比了相关方法,通过聚类性能的对比证明了提出方法的有效性。同时实验还对学习到的相似性进行了可视化,并进行了参数敏感性测试。针对这个方法受限于样本规模,本文还将提出的算法扩展到大规模数据集上,并在大规模数据集上进行了实验。
其他文献
西北干旱荒漠区作为我国重要的煤炭开发区域,植被退化、有严重的土地沙化现象,由于煤矿的大规模开采,导致当地原本脆弱的生态环境面临着更加严峻的形势,地表沉陷、地裂缝、地
对氨基苯甲酸经重氮化后再与2-氯乙酰乙酸乙酯反应制得(Z)4-[2-(1-氯-2-乙氧基-2-羰亚甲基)肼基]苯甲酸(1);1与二甲基环己二酮成环后再与对羟基环己胺完成酰胺化反应合成了一种新型H
随着人们生活水平的提高,市场对芳香植物的各种产品如精油疗法、护肤品、香水及用于芳香园林构建等的需求越来越多;同时,以芳香植物为生产原料的工业对其原材料品质的要求更