论文部分内容阅读
随着信息技术的快速发展,信息数据大量出现在日常生活中。如何高效地从这些信息数据中获取到有用的知识,显得日益重要。在传统机器学习研究过程中,往往需要假设测试数据与训练数据服从相同分布,并且需要大量的训练数据才能训练出性能好的分类器。然而在一些新兴的领域中难以获取大规模带标签的样本。若按照传统的人工专家方式重新标记数据样本,会出现成本高、易出错等问题。迁移学习研究的重点就是如何克服传统机器学习这些缺陷。本文基于已有的研究工作,在张量空间中提出了具有迁移学习能力的支持张量机(Transfer Learning-Support Tensor Machine, TL-STM)算法。支持张量机(Support Tensor Machine, STM)是支持向量机(Support Vector Machine, SVM)在高阶空间的扩展。STM通过在张量空间中训练出一个分类超平面,从而完成对数据的分类与识别。STM在缺少训练数据集的领域中,与传统学习一样无法得到可靠的分类模型。TL-STM算法在缺少大规模训练数据的张量空间中,通过迁移相关领域的知识,从而训练得到性能较好的分类器。本文的具体工作如下:(1)探讨了SVM分类超平面与模型参数之间的关系。由SVM算法在处理高阶数据样本时表现出来的缺陷,引出支持张量机算法。通过探索模型参数之间的关系得出STM模型参数是相互关联的,确定采用交替投影的方式进行模型求解。(2)在二阶张量空间对支持张量机进行迁移学习研究。在训练少量带标签的样本时,结合源领域超平面迁移知识,从而得到目标领域的分类模型。求解分类器时,采用交替投影的计算机制将模型转换成求解一系列二次凸规划问题。通过计算设定的收敛条件,判定函数是否收敛,进而完成模型的求解。最后还对算法的可行性进行了分析与验证。(3)将TL-STM从二阶张量空间推广到高阶张量空间。运用张量学习中的m-模积运算将模型转换成求解关于超平面法向量的凸最优化问题。通过求解若干关于法向量的二次规划问题,判别收敛条件,最终获得高阶支持张量机的迁移学习模型。本文在Matlab与Visual Studio软件平台上对算法进行实验分析。通过与STM在分类性能上的对比结果表明:TL-STM在目标领域缺少训练样本的情况下,结合源领域超平面知识,可以获得一个性能更好的分类器。