论文部分内容阅读
随着互联网、电子数码设备的飞速发展和广泛使用,尤其是新型崛起的社交软件(网络)微信、QQ、微博充斥在人们的生活中,每天涌现的数字图像信息呈爆炸式地增长,如何才能快速、有效地检索、分类并挖掘出有用信息就成为当今研究的一个重点,而这些研究重点中图像分类的研究聚焦了许多学者的研究目光。机器学习是把无序的数据转化成有用的信息,而在转化的过程中是自动化,不再需要人工过多干预。通常我们所说的监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)是机器学习按照学习形式的不同而划分的。其中机器学习中的无监督学习分类精度不高;监督学习则需要大量的有标记样本进行训练才能得到预想的效果,然而在现实中如果想获取有标记样本,需要大量的人力和物力,所以从1980年左右开始介于二者之间的半监督学习(Semi-Supervised Learning)开始提出并被关注。半监督学习只需要少量有标记样本和大量未标记样本就可以训练并获得分类精度较高的效果,所以半监督学习很好地解决了前面提到的分类精度不高和需要大量有标记样本这两个问题,也逐渐成为目前研究的一个热点。集成学习是在分类的过程中,将若干个分类器集成起来,通过采用某一种组合从而来决定最终分类器的分类结果,以此获得一个比之前单个分类器分类性能更优的组合分类器。所以将集成学习与半监督学习融合的方式是在只给定少量有标记样本的情况下有效提高分类器性能的方式之一。本文主要是在半监督学习的基础上融合集成学习的学习理念,把两种学习方法的优势融合起来,并且引入蚁群聚集信息素浓度作为置信度。在整个学习过程中选出一部分置信度高的未标记样本和一部分置信度低的未标记样本连同其标记类别一起加入到训练集中训练,产生分类性能较好的分类器,主要工作如下:(1)在传统Tri-Training分类算法上进行改进,采用三种不同分类算法生成基分类器,并在分类器组合的过程中,采用准确率加权的方法集成分类器,即Tri-Training-3分类算法。传统Tri-Training分类算法采用一种分类算法生成三个基分类器,这三个基分类器的差异性相对不大,只能通过样本集的差异来提高性能,而本文采用三种不同的分类算法,相应生成三个不同基分类器,再通过有差异的样本集,提高了其分类性能。(2)在Tri-Training分类算法中,将蚁群聚集信息素的计算融入其中,提出了一种基于蚁群聚集信息素的Tri-Training分类算法(Aggregation pheromone metaphor for Tri-Training classification,简称APTTC)。计算蚁群聚集信息素浓度,并将蚁群聚集信息素浓度作为置信度,从而将置信度高的未标记样本(设定一个阈值,大于这一阈值就认为是置信度高的未标记样本)连同其标记类别一起加入到有标记样本集中,从而生成有差异的训练样本集,提高其分类性能。(3)融合Bagging集成学习和Tri-Training半监督分类算法,提出了一种基于置信度重采样的融合Bagging和Tri-Training分类算法(Bagging and Tri-Training based on Confidence Resampling,简称BTTCR)。每次迭代循环,按照置信度的高低进行重采样,选取一定比例置信度高的未标记样本和一定比例置信度低的未标记样本连同其标记类别一起加入到有标记样本集中进行训练。选取置信度高的未标记样本的目的是为了提高分类的准确率,而选取置信度低的样本是为了进行扰动训练,生成差异较大的样本集,从而提高分类的准确率。本文以COREL图像库和Indoor Scene图像集作为实验数据,分别采用上述三种(Tri-Training-3、APTTC、BTTCR)分类算法进行图像分类,并于传统采用同一种分类算法生成三个分类器的Tri-Training分类算法(Tri-Training-NB、Tri-Training-KNN和Tri-Training-SVM)作了对比实验。实验表明,本文的三种方法均可以提高分类算法的分类性能。