论文部分内容阅读
随着现代社会数据采集量和传输量的不断增长,数据也朝着高维、无结构化方向发展,数据挖掘成为当今不可或缺的工具。而无监督学习由于不需要人为的标注数据,成为了其中一个重要分支。聚类是一种无监督的将数据按一定规律划分为多个子类的方法。经典算法如K均值、DBSCAN等方法尽管在低维结构化数据上取得了不错的聚类效果,但是由于高维数据存在维度灾难问题,使这些方法很难直接应用。此后大量降维方法被提出并应用于聚类之前的一个先行步骤,然而这类方法也往往需要太多人为假设而无法很好适应高维无结构化数据。面对高维数据可能分布于多个低维子空间的特点,子空间聚类成为了一类高效的算法。它通过将样本划分至多个低维子空间,同时实现了类别划分和子空间分布挖掘。其中,基于自表达的方法也在流形保持上取得了有效的成果,但是面对越来越复杂数据,这类方法也逐渐难以处理各类高维数据,例如语音、图像、文本等。近年来,得益于神经网络和深度学习的发展,其非线性映射能力使得更大规模和更深层次的特征提取得到了可能。利用深度学习来提高聚类性能成为了研究的一个趋势。然而,目前的基于深度学习的算法大多基于欧式距离来作为样本间的相似性,很难保持样本之间真实的分布关系。针对这个问题,本文提出了子空间一致假设和局部保留约束,并且提出了一致子空间聚类网络(SCC)和关系引导子空间聚类网络(RGSC)两种算法。本文通过实验系统地对比了相关方法,通过聚类性能的对比证明了提出方法的有效性。同时实验还对学习到的相似性进行了可视化,并进行了参数敏感性测试。针对这个方法受限于样本规模,本文还将提出的算法扩展到大规模数据集上,并在大规模数据集上进行了实验。