论文部分内容阅读
聚类是一种有效的数据分析方法,被广泛应用于机器学习、模式识别、数据挖掘等领域。聚类的目的是通过利用数据之间的相似性把数据集划分为一些不相交的集簇,使得相同集簇中的数据之间相似性最大,不同集簇的数据之间的相似性最小。对数据集中的集簇进行正确地划分,引起了研究人员的极大兴趣。在过去的几十年中,大量的聚类算法被提了出来。近几年来,大量学者指出很多基于矩阵学习的算法是一种有效的聚类方法。矩阵学习包括矩阵分解、矩阵恢复、子空间聚类等。矩阵学习算法一般学习出原始数据矩阵的低秩表示矩阵,再利用低秩矩阵进行聚类。本论文研究半监督低秩矩阵学习及其应用。为了进一步改进矩阵学习的质量,获得更好的聚类性能,把无监督的矩阵学习算法扩展为半监督学习方法。由于半监督矩阵学习模型融入了数据集中少量的先验信息,因而表现出更加优异的学习性能。从硬约束与软约束两个方面分别提出了半监督非负矩阵分解算法,约束的非负局部坐标分解算法,约束的概念分解算法。同时,研究了这些算法在自然图像、人脸图像、数字手写图像及文本聚类中的应用。本文的主要创新点如下:1.提出一种新的半监督非负矩阵分解模型。非负矩阵分解被证明是一种有效的聚类方法。为了进一步增强非负矩阵分解算法的性能,本文提出了一种新的半监督非负矩阵分解算法,新算法同时把图拉普拉斯及数据集的少量标签信息融入到了非负矩阵分解算法中,获得了半监督的非负矩阵分解算法。该算法在自然图像数据集的聚类实验中获得的聚类精度及互信息都要好于其它类似的经典算法。2.提出一种基于成对约束及图拉普拉斯的非负矩阵分解方法。半监督非负矩阵分解算法直接引入了少量样本的标签信息作为约束信息,这种约束信息可以称为硬约束信息。在聚类过程中,该半监督非负矩阵分解模型所获得的低维分解矩阵的维数必须与数据集聚类的数目严格一致。由于其不能任意地选取分解矩阵的维数,因此导致原始数据矩阵与分解矩阵的乘积之间的重构误差比较大。为了提高该模型的适用性及减小原始数据矩阵与分解矩阵之间的重构误差,本文把成对约束信息及图拉普拉斯正则项同时引入到非负矩阵分解中,提出了一种基于成对约束及图拉普拉斯的非负矩阵分解算法。在人脸及数字手写数据集上的测试结果显示,该算法中原始数据矩阵与分解矩阵乘积之间的重构误差更小,所得到的分解矩阵能更好地拟合原始数据矩阵。3.提出一种约束的非负局部坐标分解算法。由于稀疏表示能增加算法的鲁棒性,优化算法性能,吸引了越来越多研究者的关注。为了获得稀疏的系数矩阵,一些增强系数矩阵稀疏性的正则项被融入到非负矩阵分解算法中。这些稀疏的非负矩阵分解算法大多是无监督学习模型,因此本文提出了一种约束的非负局部坐标分解算法,该算法同时考虑了数据集的局部几何结构信息,系数矩阵的稀疏性及先验信息。在人脸及物体图像的聚类实验中,该算法要优于其它经典类似算法。4.提出一种成对约束概念分解算法。概念分解是非负矩阵分解的变种。非负矩阵分解算法是一种线性的学习方法,当数据集高度线性不可分时,效果往往不太理想。概念分解能够使用核函数把线性不可分的数据集映射到高维线性可分的空间中。但概念分解本质上是一种无监督的学习模型,其没有考虑数据集中的任何先验知识。为了增强概念分解的聚类效果,本文通过精心设计获得了融入成对约束信息的目标函数。通过优化目标函数得到了迭代更新算法,并分析了算法的时间复杂度,证明了算法的收敛性。在图像及文本数据集上的实验表明,该算法获得了较好的聚类效果。