基于最优反预测的半监督学习及其应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhengziwei5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习是人工智能研究领域的一种有效方法,主要是用于解决在标签样本数量不足的情形下模型的训练和分类(或识别)问题。现实生活中受各种主观或客观条件的影响,标签的样本的数量在有些研究领域通常难以满足传统的有监督学习的要求,由此导致有监督学习模型难以得到充分的训练,模型的性能也随之受到影响。半监督学习方法在标签样本有限的情况下,能够通过将大量的无标签的样本融合到模型的训练和参数的估计中,来获得模型良好的分类(或识别)性能,所以说半监督学习是一种在训练样本不足情况下,解决模式识别和分类问题的有效方法。半监督学习算法自提出之日起一直广受模式识别和机器学习领域研究者的青睐,相关的研究工作一直在持续进行,新的研究成果也不断被提出和发表。时至今日虽然半监督的学习算法已经取得了很大的进步,然而距离实践应用还有很长的一段路需要走。算法的分类或识别性能低下是制约半监督学习方法能够被广泛应用于实践的主要障碍。  本论文基于半监督学习方法展开研究,提出了一种基于正交约束的最优反预测方法分别用于聚类和信息检索的中。为了测试我们提出的半监督学习方法的性能,本文基于网络公开数据集分别设计了模式识别和图像检索的实验进行测试,实验结果证明本文提出的方法是有效的,能够提高原有模型方法的性能。本文的主要的贡献如下所示:  1.最优反预测是近几年提出的一种半监督学习方法,由于算法的分类或识别性能较低,这种方法并没有引起很多重视。本文在最优反预测方法的基础上对其进行了改进,提出了基于正交约束的最优反预测方法,并给出了模型的求解过程。本文提出的正交约束的最优反预测方法是通过约束所有聚类的聚类中心两两之间是相互正交来得到的,由此由所有聚类中心构建的列向量矩阵可以分解成为一个旋转矩阵和对角因子矩阵的乘积。通过优化正交最优反预测模型得到的最优旋转矩阵能够对原始数据的维度信息进行相应的调整来最大化的降低重构误差。为了测试算法的分类性能,我们基于多个网络公开的数据集设计了相关的分类实验进行算法性能的验证,如人造数据集、人脸数据集、手写数字字符集、语音数据集以及文本数据集等等。实验结果证明了本文提出的方法的优越性。相比较于原始的最优反预测方法,本文提出的正交约束的最优反预测方法在一些公共的数据集上的分类准确率有30%的提高。唯一要注意的是,由于奇异值分解方法被应用于正交约束的最优反预测模型的优化过程中,使得本文提出的正交约束的最优反预测方法的算法复杂度要稍微高于原始的最优反预测方法。  2.在基于正交约束的最优反预测算法的基础上,本文还将最优反预测算法推广到了核空间中,提出了核化的正交最优反预测算法。针对提出的核化正交最优反预测算法,我们还给出了对应的模型优化方法。为了验证本文方法的分类性能,我们基于人造数据集和一些公开的机器学习和模式识别数据集如人脸数据集、语音数据集、手写数字数据集和文本数据集等设计了一系列的分类实验并与传统的分类方法以及最新提出的U-Adaboosts.MH半监督学习算法进行分类性能的比较。实验结果证明本文的优化方法是可行且有效的。相比较于核化的最优反预测算法,本文提出的核化正交最优反预测方法在算法的性能上也有了明显的提升,虽然提升的幅度不如正交最优反预测对于最优反预测算法那么高。在与最新提出的U-Adaboosts.MH方法在文本分类实验上实验结果显示本文提出的核化正交最优反预测方法在4个分类实验的3个实验中的结果比U-Adaboosts.MH具有明显的优势,而算法的稳定性也要高于U-Adaboosts.MH。唯一的不足之处在于由于核化正交最优反预测的优化算法中涉包含了奇异值分解的操作,致使本文提出核化正交最优反预测方法的算法复杂度要高于原始的核化最优反预测方法。设计出效率更高、性能更优的优化算法是我们今后核化正交反预测方法研究的一个重要方向。  3.在正交最优反预测算法的基础上,本文还提出了一种基于拉普拉斯正则项约束的拉普拉斯正交最优反预测算法,并给出了模型的优化算法。相比较于正交约束最优反预测与核化的正交约束最优反预测,由于拉普拉斯正交最优反预测方法的优化涉及到离散优化的问题,本文提出模型优化算法没能得到一个最优值,算法的性能没有更多的体现出拉普拉斯正则项在模型中的优势。实验结果显示拉普拉斯正交约束的最优反预测算法的性能要略逊于正交约束的最优反预测算法,即便如此,基于拉普拉斯约束的正交最优反预测算法仍然是我们将来研究半监督学习的一个方向,针对这个模型的优化算法的研究是我们今后科研工作的重点。  4.在本文中我们还将基于正交约束的最优反预测的理念应用到了笛卡尔K均值算法上,提出了半监督笛卡尔K均值的量化方法。在半监督的笛卡尔K均值算法中,正交约束的假设被施加到聚类中心矩阵的列向量中,对量化目标函数施加了基于有监督方法构建的拉普拉斯矩阵正则项,以便于将有监督信息隐含的传递给模型来提高模型的性能。由于模型的优化过程中存在着离散优化的问题,导致本文提出的的半监督笛卡尔K均值算法没有表现出比较明显的优势,但是从整体上说性能比无监督的笛卡尔K均值要好一些。找到最优的模型优化算法也是我们今后研究工作的重点。  5.在最优反预测的基础上,我们把稀疏重表示方法纳入到了最优反预测方法的框架下,并将其应用于基于EEG数据的驾驶员警觉度检测中,算法取得了良好的实验效果。
其他文献
目前,以支持多领域协同CAx/DFx技术为特征的复杂产品的虚拟样机技术正成为制造业界产品研究、开发的热点。如何将分布、异构环境中的多领域工具集成起来进行有效的设计仿真工
目标跟踪一直是计算机视觉研究领域的热点问题,其应用领域有视频监控、人机用户接口、虚拟现实等等。视觉跟踪要求在光照变化、遮挡等各种因素的干扰下,能准确有效地跟踪不同
随着数值预报技术的发展,天气预报质量有了很大提高,但目前的数值预报技术已趋于成熟,仅仅依靠数值预报本身无法再使预报水平获得较大程度的提高。多模式天气集成预报是因此
随着工业信息化进程的不断加快,软件行业发展与企业信息化战略关系日益紧密,企业对软件系统的功能性要求越来越丰富,而在成本预算上却希望尽量的降低。SaaS(Software-as-a-Se
随着网络技术的普及和社会信息化程度的提高,各个应用领域所积累的信息资源在网络上飞速增长,网络服务已逐渐成为了人类获取知识的必要渠道,百科知识库正是其中最为广泛应用
射频识别(RFID)技术是一种非接触自动识别技术,该技术凭借标签体积小、成本低、非接触识别、自动识别等特点,已广泛应用于多个领域。但是,由于易受外部环境的干扰和射频信号
随着嵌入式软件的广泛应用以及开发技术的日新月异,相对于硬件的日益稳定,软件却频频出现故障。作为保证软件质量的最有效手段的测试技术,因此越来越引起软件用户以及开发人
作业车间调度问题,经过了半个多世纪的研究,取得的丰富的理论成果。柔性车间调度问题是对作业车间调度问题的扩展,由于其具有路径柔性的特点,相比较普通的作业车间调度问题来
随机共振自从在上个世纪八十年代被提出以来,经过将近三十年的发展,在理论和实验研究中取得了很多成果,也应用于物理、化学、生物学、通信、信息论、电子学、光学、超导、神
目前,我国电子政务进入了快速平稳的发展时期,其在建设过程中积累了大量的决策案例,这些案例记录了当时的决策情景、处理办法、决策执行的结果等。基于案例的推理(Case-Based