论文部分内容阅读
半监督学习是人工智能研究领域的一种有效方法,主要是用于解决在标签样本数量不足的情形下模型的训练和分类(或识别)问题。现实生活中受各种主观或客观条件的影响,标签的样本的数量在有些研究领域通常难以满足传统的有监督学习的要求,由此导致有监督学习模型难以得到充分的训练,模型的性能也随之受到影响。半监督学习方法在标签样本有限的情况下,能够通过将大量的无标签的样本融合到模型的训练和参数的估计中,来获得模型良好的分类(或识别)性能,所以说半监督学习是一种在训练样本不足情况下,解决模式识别和分类问题的有效方法。半监督学习算法自提出之日起一直广受模式识别和机器学习领域研究者的青睐,相关的研究工作一直在持续进行,新的研究成果也不断被提出和发表。时至今日虽然半监督的学习算法已经取得了很大的进步,然而距离实践应用还有很长的一段路需要走。算法的分类或识别性能低下是制约半监督学习方法能够被广泛应用于实践的主要障碍。 本论文基于半监督学习方法展开研究,提出了一种基于正交约束的最优反预测方法分别用于聚类和信息检索的中。为了测试我们提出的半监督学习方法的性能,本文基于网络公开数据集分别设计了模式识别和图像检索的实验进行测试,实验结果证明本文提出的方法是有效的,能够提高原有模型方法的性能。本文的主要的贡献如下所示: 1.最优反预测是近几年提出的一种半监督学习方法,由于算法的分类或识别性能较低,这种方法并没有引起很多重视。本文在最优反预测方法的基础上对其进行了改进,提出了基于正交约束的最优反预测方法,并给出了模型的求解过程。本文提出的正交约束的最优反预测方法是通过约束所有聚类的聚类中心两两之间是相互正交来得到的,由此由所有聚类中心构建的列向量矩阵可以分解成为一个旋转矩阵和对角因子矩阵的乘积。通过优化正交最优反预测模型得到的最优旋转矩阵能够对原始数据的维度信息进行相应的调整来最大化的降低重构误差。为了测试算法的分类性能,我们基于多个网络公开的数据集设计了相关的分类实验进行算法性能的验证,如人造数据集、人脸数据集、手写数字字符集、语音数据集以及文本数据集等等。实验结果证明了本文提出的方法的优越性。相比较于原始的最优反预测方法,本文提出的正交约束的最优反预测方法在一些公共的数据集上的分类准确率有30%的提高。唯一要注意的是,由于奇异值分解方法被应用于正交约束的最优反预测模型的优化过程中,使得本文提出的正交约束的最优反预测方法的算法复杂度要稍微高于原始的最优反预测方法。 2.在基于正交约束的最优反预测算法的基础上,本文还将最优反预测算法推广到了核空间中,提出了核化的正交最优反预测算法。针对提出的核化正交最优反预测算法,我们还给出了对应的模型优化方法。为了验证本文方法的分类性能,我们基于人造数据集和一些公开的机器学习和模式识别数据集如人脸数据集、语音数据集、手写数字数据集和文本数据集等设计了一系列的分类实验并与传统的分类方法以及最新提出的U-Adaboosts.MH半监督学习算法进行分类性能的比较。实验结果证明本文的优化方法是可行且有效的。相比较于核化的最优反预测算法,本文提出的核化正交最优反预测方法在算法的性能上也有了明显的提升,虽然提升的幅度不如正交最优反预测对于最优反预测算法那么高。在与最新提出的U-Adaboosts.MH方法在文本分类实验上实验结果显示本文提出的核化正交最优反预测方法在4个分类实验的3个实验中的结果比U-Adaboosts.MH具有明显的优势,而算法的稳定性也要高于U-Adaboosts.MH。唯一的不足之处在于由于核化正交最优反预测的优化算法中涉包含了奇异值分解的操作,致使本文提出核化正交最优反预测方法的算法复杂度要高于原始的核化最优反预测方法。设计出效率更高、性能更优的优化算法是我们今后核化正交反预测方法研究的一个重要方向。 3.在正交最优反预测算法的基础上,本文还提出了一种基于拉普拉斯正则项约束的拉普拉斯正交最优反预测算法,并给出了模型的优化算法。相比较于正交约束最优反预测与核化的正交约束最优反预测,由于拉普拉斯正交最优反预测方法的优化涉及到离散优化的问题,本文提出模型优化算法没能得到一个最优值,算法的性能没有更多的体现出拉普拉斯正则项在模型中的优势。实验结果显示拉普拉斯正交约束的最优反预测算法的性能要略逊于正交约束的最优反预测算法,即便如此,基于拉普拉斯约束的正交最优反预测算法仍然是我们将来研究半监督学习的一个方向,针对这个模型的优化算法的研究是我们今后科研工作的重点。 4.在本文中我们还将基于正交约束的最优反预测的理念应用到了笛卡尔K均值算法上,提出了半监督笛卡尔K均值的量化方法。在半监督的笛卡尔K均值算法中,正交约束的假设被施加到聚类中心矩阵的列向量中,对量化目标函数施加了基于有监督方法构建的拉普拉斯矩阵正则项,以便于将有监督信息隐含的传递给模型来提高模型的性能。由于模型的优化过程中存在着离散优化的问题,导致本文提出的的半监督笛卡尔K均值算法没有表现出比较明显的优势,但是从整体上说性能比无监督的笛卡尔K均值要好一些。找到最优的模型优化算法也是我们今后研究工作的重点。 5.在最优反预测的基础上,我们把稀疏重表示方法纳入到了最优反预测方法的框架下,并将其应用于基于EEG数据的驾驶员警觉度检测中,算法取得了良好的实验效果。