论文部分内容阅读
基于稀疏表示的分类器是数据挖掘和机器学习的一个重要研究领域。它能够在大量相关样本数据的基础上进行学习并建立一个分类模型,该分类模型通过学习得到的分类函数把未知的数据映射到给定类别中的某一类,从而对未知的数据进行预测。它在金融、安防、人脸识别等领域中有着广泛的应用。本课题在国家自然科学基金(61471124)的支持下,针对基于稀疏表示分类器算法及其改进算法的识别率低、计算速率慢和自适应性差的问题,分别提出了基于核函数和稀疏表示的快速分类器算法、改进的两阶段协作稀疏表示分类器算法和基于核函数和稀疏表示的自适应分类器算法。具体工作包括:一、针对基于稀疏表示分类器识别率低和计算速率慢的问题,本课题提出了一种改进的局部稀疏表示算法,即基于核函数和稀疏表示的快速分类器,它融合了 KNN算法和稀疏表示算法的思想。首先利用核诱导距离寻找测试样本最邻近的N个训练样本,然后通过这些邻近样本找到测试样本的相关类并用它们组成字典,最后,用学习的字典对测试样本进行协作性的稀疏表示,并把最小的重构误差作为最后的分类依据。实验结果表明,该算法具有优秀的识别率和计算速率。二、在上述分类器算法的基础上,本课题研究了改进的两阶段协作稀疏表示分类器的性能。第一个阶段计算出测试样本与每个训练样本的核诱导距离,选出每类训练样本中核诱导距离最小的训练样本来组成字典,对测试样本进行协作性的稀疏表示,选出残差较小的N类训练样本。第二阶段,利用已选出的N类训练样本来组成新字典,再进行一次协作性的稀疏表示,通过最小的重构残差即可判定测试样本应归属的类别。实验结果表明,该算法具有出色的识别率。三、针对局部稀疏表示分类器设计中存在的邻近样本数N如何取值才能达到最优效果的自适应问题,本课题提出了基于核函数和稀疏表示的自适应分类器算法。首先,在训练样本上利用弃一交叉验证的改进方法来得到一个残差曲线函数,利用曲线函数的突变程度来预估一个最合适的最邻近样本数N,然后将该N值用于上述的分类器算法中。证实了该算法很容易达到分类器算法的最好结果。本课题在协作性的稀疏表示分类器算法技术的基础上,提出了局部稀疏表示分类器的改进算法,然后进一步研究了此改进算法关于识别率和N值的自适应问题,并在Matlab平台下完成了软件的开发。实验表明,本课题的设计具有良好的性能和较高的实用价值。