论文部分内容阅读
传统的机器学习问题面向的是单一学习机问题,当前多学习机问题正得到越来越多的关注,但目前尚没有研究从宏观的角度来统一来描述多学习机问题。多任务学习是同时求解相关数据集上的既关联又有不同特征的多个学习机;迁移学习则关注于相关历史场景中丰富但又不能直接使用的数据或模型对当前场景建模的增益作用;概念漂移是对不断变化的学习场景进行研究。它们都是直接或间接地对多个子学习机及其关系进行研究,本文统一称之为耦合的机器学习方法。本文提出耦合支持向量学习的框架,期望在此角度下,可以使多学习机问题的研究焦点更多地放在场景之间的耦合特征上。时间自适应支持向量机方法在处理非静态数据集时表现出良好的性能,但仅根据邻接子分类器相似而获得的相关信息并不充分,由此可能会导致训练所得模型不可靠,限制其应用能力。通过定义子分类器序列的相关性衰减函数,提出新的面向非静态数据分类问题的演进支持向量机(Evolving Support Vector Machines,ESVM)。ESVM使用衰变函数以体现子分类器之间的相关程度,通过约束所有子分类器之间的带权差异以求得变化更光滑的子分类器序列,契合了数据中隐藏的渐变概念。在各种数据缓慢变化场景的对比实验中,该文的ESVM方法优于以往方法。虽然时间自适应支持向量机有着从兼顾局部优化和全局优化的角度同时求解多个子分类器的特性,但子分类器之间的直接耦合带来了计算中的矩阵求伪逆问题,因而难以从理论上保证其扩展核函数为Mercer核函数;且对于大数据集,较高的计算代价限制了其实用性。针对此不足,提出了改进型时间自适应支持向量机(Improved Time Adaptive Support Vector Machine,ITA-SVM),用基分类器及一组增量来描述子分类器序列,以避免因直接求解子分类器序列而带来的矩阵求伪逆问题;并结合CVM理论,给出了ITA-SVM的快速算法。ITA-SVM在处理非静态数据集时有着与TA-SVM相当或更良好的分类性能,同时又具有渐近线性时间复杂度的优点。该方法的有效性在实验中得到了验证。传统的回归系统构建方法在训练时仅考虑单一的场景,其伴随的一个重要缺陷是:若当前场景中重要信息缺失,受训所得系统泛化能力较差。针对此不足,以支持向量回归机为基础,提出了具有迁移学习能力的回归机系统,即迁移学习支持向量回归机(Transfer learning Support Vector Regression,T-SVR)。T-SVR不仅能充分利用当前场景的数据信息,而且能有效地利用历史知识来学习,具有通过迁移历史场景知识来弥补当前场景信息缺失的能力。具体地,通过控制目标函数中当前模型与历史模型的相似性,使当前模型能在信息缺失和不足时从历史场景中得到有益信息,得到增强的当前场景模型。在模拟数据和汾酒光谱数据集上的实验研究亦验证了在信息缺失场景下T-SVR较之于传统回归系统建模方法的更好适应性。多任务学习方法旨在借助相关任务中的信息以提高各个子学习机的性能,在理论研究及基因测序、网页分类等实际应用方面都已经取得了较好的成果。然而以往方法仅关注于多个任务之间的关联,而未充分考虑算法的复杂度。当前社会信息量的急剧膨胀对多任务学习提出了新的挑战,较高的计算代价限制了以往各种多任务学习方法的实用性。本文提出了快速正则化多任务学习(Fast regularized Multi Task Learning,Fr MTL)方法。Fr MTL方法有着与正则化多任务学习方法相当的分类性能,又能依据核心向量机技术获得渐近线性时间复杂度,使其在面对大数据集时仍然能够获得较快的决策速度。