论文部分内容阅读
偏好学习是通过矩阵分解得到潜在特征,广泛应用于数据挖掘和机器学习领域。对于没有任何负项的数据集,非负矩阵分解(Non-negative Matrix Factorization,NMF)将两个非负矩阵相乘来寻找低秩近似。近年来也提出了许多正则化的NMF,但是,仍然存在一些问题:一是由于一些数据中存在噪声和异常值,传统的方法容易产生误差较大的目标函数;二是在加入图正则约束时,计算相似度矩阵邻居关系都是确定的,一旦计算错误就会导致构造的图质量低,进而影响结果性能;三是传统的方法没有充分使用标签信息来指导构建相似矩阵。基于上述提出的问题,本文提出带有l2,1、l1范数和自适应图正则化的偏好学习算法用于聚类,进而加入半监督信息来指导构建相似矩阵。本文具体工作如下:
首先,现在大多数据中存在噪声和异常值,这些数据进入目标函数时都带有误差,所以容易出现少数误差较大的噪声和异常值控制目标函数。本文提出了带有拉普拉斯调节的偏好学习算法。利用矩阵低秩分解来获取潜在偏好特征,从而实现偏好学习,加入图正则提高聚类精度,利用l2,1范数对目标函数调节,从而解决异常值问题。利用l1范数解决稀疏噪声问题。在几个常用的聚类数据集上进行实验,实验证明,本文的方法优于一些经典的聚类方法。
其次,基于图正则的聚类方法通过使用描述数据关系的相似图将数据样本划分为不相交的组。提前构造相似图,一旦出现错误,无法改变,会导致构造的图质量较低。本文提出了一种带有自适应图正则化的偏好学习模型,因引入l1范数和l2,1范数既能解决稀疏噪声问题又能解决异常值问题,更重要的是,在上一工作基础上将自适应图正则化引入以提高聚类性能。在人脸图像,手写识别,UCI和生物等四个应用场景的14个数据集上的实验结果,阐述了该方法相对于7种现有经典聚类方法的优越性。实验结果表明,在ACC和Purity中实现了更好的聚类性能。
最后,针对传统聚类没有利用标签信息指导相似矩阵的构建问题,本文提出了一种基于高斯场及谐波函数的半监督偏好学习算法。在上一工作对数据噪声和异常值不敏感和加入自适应图正则提高了聚类性能的基础上,该方法通过高斯场及谐波函数法引入监督信息指导构建相似度矩阵实现半监督学习。为了解决聚类问题的优化目标,提出了一种迭代更新算法–增广拉格朗日法(Augmented Lagrangian Method,ALM),分别对优化变量进行更新。在4个数据集上进行实验,实验结果表明,该方法优于相比较的7种经典聚类方法,获得了更好的聚类性能。
综上所述,引入标签信息和自适应图正则的半监督聚类,不仅对噪声和异常值不敏感,而且聚类结果得到了很大的提升。相比较于前两种基于图拉普拉斯和自适应图图正则的算法,引入了标签信息和自适应图正则的半监督聚类效果更好。
首先,现在大多数据中存在噪声和异常值,这些数据进入目标函数时都带有误差,所以容易出现少数误差较大的噪声和异常值控制目标函数。本文提出了带有拉普拉斯调节的偏好学习算法。利用矩阵低秩分解来获取潜在偏好特征,从而实现偏好学习,加入图正则提高聚类精度,利用l2,1范数对目标函数调节,从而解决异常值问题。利用l1范数解决稀疏噪声问题。在几个常用的聚类数据集上进行实验,实验证明,本文的方法优于一些经典的聚类方法。
其次,基于图正则的聚类方法通过使用描述数据关系的相似图将数据样本划分为不相交的组。提前构造相似图,一旦出现错误,无法改变,会导致构造的图质量较低。本文提出了一种带有自适应图正则化的偏好学习模型,因引入l1范数和l2,1范数既能解决稀疏噪声问题又能解决异常值问题,更重要的是,在上一工作基础上将自适应图正则化引入以提高聚类性能。在人脸图像,手写识别,UCI和生物等四个应用场景的14个数据集上的实验结果,阐述了该方法相对于7种现有经典聚类方法的优越性。实验结果表明,在ACC和Purity中实现了更好的聚类性能。
最后,针对传统聚类没有利用标签信息指导相似矩阵的构建问题,本文提出了一种基于高斯场及谐波函数的半监督偏好学习算法。在上一工作对数据噪声和异常值不敏感和加入自适应图正则提高了聚类性能的基础上,该方法通过高斯场及谐波函数法引入监督信息指导构建相似度矩阵实现半监督学习。为了解决聚类问题的优化目标,提出了一种迭代更新算法–增广拉格朗日法(Augmented Lagrangian Method,ALM),分别对优化变量进行更新。在4个数据集上进行实验,实验结果表明,该方法优于相比较的7种经典聚类方法,获得了更好的聚类性能。
综上所述,引入标签信息和自适应图正则的半监督聚类,不仅对噪声和异常值不敏感,而且聚类结果得到了很大的提升。相比较于前两种基于图拉普拉斯和自适应图图正则的算法,引入了标签信息和自适应图正则的半监督聚类效果更好。