论文部分内容阅读
随着近年来网络技术的快速发展,相应的数据规模也在飞速地增长。对于高维数据分类时SVM的耗时较长计算复杂度较高。虽然PCA-SVM对高维数据分类速率较快,但准确率相对较低。本文在研究非线性降维方法特点的基础之上,提出一种利用LLE方法对SVM进行改进的算法,对高维数据进行LLE降维后采用SVM方法进行分类。结合增量思想实现了基于局部线性嵌入(LLE)的SVM增量学习过程(LLE-ISVM),并将该算法用于MNIST数据库测试和瓷片表面缺陷的分类过程。对于较复杂的含有少量有标签、大量无标签数据集,提出了半监督的TSVM方法,利用LLE方法对其进行修正与改进。实验结果表明,LLE-SVM增量算法对高维数据的运算速度与精度都有所提高,能实现完整增量学习过程,能较为准确快速地实现磁片表面的缺陷分类过程。本文主要内容工作如下:(1)查阅了大量国内外关于SVM、增量学习、流形学习、半监督方法的文献,对于目前传统SVM方法对高维数据处理所存在的问题,提出了一些改进方法。介绍了机器学习、流形学习方法的现状与背景,为下文的算法设计提供了基础。(2)研究了经典的SVM方法,并提出了利用非线性流形方法对其进行降维的改进方法。通过对比ISOMAP与LLE之后选取了局部线性嵌入(LLE)作为非线性降维方法。分析了PCA-SVM对于高维非线性数据处理存在的一些不足之处,利用LLE方法对SVM进行改进,实现LLE-SVM的设计。对非增量的SVM方法而言,当训练数据较大时训练时间往往都很长,于是便采用增量学习的思想对其进行改进。通常增量学习过程SVM的分类超平面仅是由SV集所决定的,而大量数据集中通常只有少数样本带有分类信息,并不需要在每次训练时对全部样本的进行训练。因此提出了利用SV集作为下次增量学习的初始数据集,对新增数据集进行筛选的增量思想。针对含有全部标签的数据样本,将样本利用LLE-SVM算法和增量改进,能有效地处理高维非线性数据集的分类过程,保证一定的速率与准确率。(3)LLE-SVM增量学习方法是一种监督学习算法,仅适用于全部数据带有标签的数据集训练过程。实际过程中获取到全部数据集的正确标签是较为困难的,对给定无标签数据集进行手动标注则需要消耗大量时间。在半监督学习TSVM的分析基础之上,提出了基于LLE的TSVM增量学习算法,算法进行首次训练后,通过筛选出与第一次增量中有与SV集相似的样本以降低算法复杂度,随后将这类数据与原SV集进行TSVM训练后,得到新的分类界面。通过MNIST手写数据库以及实际获得的分割后瓷片表面缺陷的分类测试,该方法对于手写数据集的分类具有较高的准确率,对瓷片分类也能完整实现半监督分类过程。因此LLE-TSVM增量学习方法能较好地适用于半监督分类。(4)最后,本文就LLE-SVM、LLE-TSVM进行总结与展望,确定了未来所需要进行的更多细节的改进部分。测试证明LLE-SVM与LLE-TSVM能够实现大多数情况下的分类过程,有可观的速度保障,但应用于实际的瓷片缺陷检测分类过程中准确率不够高,实用性不够强,准确率尚未达到实际应用的标准,因此仍需对算法进行改进。