论文部分内容阅读
分类作为模式识别、机器学习以及数据挖掘的核心研究内容,已广泛应用在文本分类、网页分类、语音识别、图像识别和生物信息处理等实际问题中。随着信息技术的飞速发展,互联网及数字设备带来海量数据的同时,也使传统的分类算法面临时间和空间上的挑战。因此如何处理大规模分类已成为相关领域备受关注的研究问题。本文在分析了大规模分类算法的研究进展和发展方向的基础上,采用局部学习或全局学习策略,利用聚类特征(CF)树来组织样本,对大规模有监督分类和半监督分类展开了研究,获得了如下成果:第一,提出了带类标聚类特征(CFL)的概念,设计了基于CFL树和局部学习的大规模支持向量机分类算法(CFLL-SVM)。CF树原应用于无监督聚类,它可以高效地实现样本的划分和压缩。本文首先使用无监督聚类和有监督聚类相结合对其进行改进,并设计了适合有监督分类的CFL树。然后运用局部学习的策略,通过CFL树将训练样本划分为多个小的局部子集,对每个子集使用SVM训练局部分类器,并通过该树将各个局部分类器组成一个总的分类器。最后对各个参数对算法的影响进行了分析。大量实验结果表明,该算法可以在不损失精度的情况下,大大提高训练的速度。第二,提出了基于CF树与渐进标注的大规模半监督支持向量机分类算法(CFPL-S3VM)。现实问题往往只有少量的有标记样本和大量的无标记样本,为了利用大量无标记样本学习样本的内在几何结构,本文采用CF树来层次组织大量的无标记样本。然后运用从粗到细的全局学习策略,使用半监督支持向量机从根到叶对树的每一层的各个簇中心(无标记样本的代表)和有标记样本进行学习。在每一层的学习中,获取影响决策面的潜在支持簇和剪去无用的簇以降低下一层的学习规模,同时为避免剪枝引起的信息丢失,采取标注的方法保留剪去的簇的总体信息以提高学习的精度。实验结果表明,对支持向量不多的样本集,该算法在保持精度的同时,只需更少的训练时间。第三,提出了基于CF树和局部图转导的大规模半监督分类算法(CF-LGT)。当样本集的分类界面比较复杂,支持向量比较多时,CFPL-S3VM算法不能有效地通过剪枝以降低学习规模。为此,本文选用局部学习策略,利用CF树划分无标记样本为一系列的局部子集,对每个子集构造一种新的稀疏且具有除噪能力的近邻图后,采用基于图的半监督算法学习,从而降低了内存开销和加快了学习速度。实验结果表明,在有标记样本不是太少的情况下,CF-LGT在内存的开销、分类精度以及学习速度上都有良好的性能。第四,提出了整合全局结构的局部大规模半监督分类算法(LLGS)。当有标记样本很少或分布不均匀时,CF-LGT采取的局部学习策略可能会因为样本的全局结构遭到破坏而降低学习的精度。因此LLGS采用CF树划分无标记样本后,再提取全局结构信息,将其整合到各个局部问题中,最后采用图的方法进行局部学习。实验结果表明,该算法在有标记样本较少的情况下,具有较高的分类精度和较低的内存开销。此外,该算法还可以作为直推式的分类方法用于预测未知样本。