论文部分内容阅读
在错误诊断、人脸识别、入侵检测、文本分类等领域,我们经常会遇到单分类问题.以单分类支持向量机为代表的传统单分类算法使用向量作为输入数据,当输入数据为张量时有一定的局限性.近年来,直接使用张量作为输入数据的机器学习算法得到了研究者的广泛关注,并取得了一定的成果.直接使用张量作为输入数据,能够有效的保持数据的结构信息,从而能够充分利用数据所蕴含的信息以提高识别效果;同时,以张量为输入数据的相关模型和算法,可以有效的降低优化问题中待求解的决策变量个数,从而可以避免传统的向量模型在学习过程中容易出现的过拟合等问题,这使得张量算法尤其适合高维小样本问题.因此,本文主要研究基于张量理论的单分类模型和算法,研究工作包括以下几部分内容:1.基于超平面的非线性单分类支持张量机模型.该模型以2阶张量作为输入数据,以最大间隔准则将尽可能多的目标类样本点与原点分开,从而实现对目标类的识别.由于该模型是非凸的,造成求解上的困难,因此我们引入交替投影算法进行模型的求解,并给出了相应的求解算法,分析了算法的计算复杂度.为了验证张量算法的优势,我们将所提算法在向量数据和张量数据上分别进行实验.在向量数据集的实验中,我们主要关注张量模型在高维小样本问题的分类性能,同时讨论张量算法和向量算法在过拟合问题的表现,并给出将向量数据转化为张量数据的基本原则.在张量数据集的实验中,多个数据集数值实验验证了所提模型的有效性.2.基于数据描述的非线性单分类支持张量机.该模型将2阶张量作为输入数据,使用核方法在特征空间中寻找一个最小超球来包含尽可能多的目标类样本点,从而实现对目标类的识别.我们使用交替投影算法求解该优化问题,并给出了算法的计算复杂度分析和收敛性证明.该算法在向量数据集和张量数据集上的实验结果均验证了所提模型的有效性.另外,我们还分析了两种单分类张量算法的等价条件,实验结果也验证了在高斯核矩阵下,两种算法的分类结果是一样的.3.基于超平面的线性单分类支持张量机模型.首先我们从2阶张量入手,给出基于2阶张量的线性单分类支持张量机模型和算法,并在公开的向量数据集上进行了实验.实验的结果说明了所提算法能够有效的提高对目标类的识别,并讨论了参数v在张量分类器的作用.接着我们将2阶张量模型推广至高阶张量模型和算法,并讨论了算法的计算复杂度.在向量数据集和张量数据集的实验中,所提算法在保证分类器性能的情况下,均能大幅提高分类器对目标类的识别.4.基于数据描述的线性单分类支持张量机模型.首先,从2阶张量的线性数据描述入手,将支持向量数据描述模型推广至张量空间,并最终推广至高阶张量模型.模型的求解依然基于交替投影思想,并给出了计算复杂度分析和收敛性证明.数据实验采取高维小样本的向量数据集,来展示张量算法对于高维小样本数据的分类性能以及参数分析;并以人脸数据集和步态数据集来验证所提算法在张量数据集的分类性能.