图像分类中融合Bagging的Tri-Training算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:fjkdkfjkldsjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、电子数码设备的飞速发展和广泛使用,尤其是新型崛起的社交软件(网络)微信、QQ、微博充斥在人们的生活中,每天涌现的数字图像信息呈爆炸式地增长,如何才能快速、有效地检索、分类并挖掘出有用信息就成为当今研究的一个重点,而这些研究重点中图像分类的研究聚焦了许多学者的研究目光。机器学习是把无序的数据转化成有用的信息,而在转化的过程中是自动化,不再需要人工过多干预。通常我们所说的监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)是机器学习按照学习形式的不同而划分的。其中机器学习中的无监督学习分类精度不高;监督学习则需要大量的有标记样本进行训练才能得到预想的效果,然而在现实中如果想获取有标记样本,需要大量的人力和物力,所以从1980年左右开始介于二者之间的半监督学习(Semi-Supervised Learning)开始提出并被关注。半监督学习只需要少量有标记样本和大量未标记样本就可以训练并获得分类精度较高的效果,所以半监督学习很好地解决了前面提到的分类精度不高和需要大量有标记样本这两个问题,也逐渐成为目前研究的一个热点。集成学习是在分类的过程中,将若干个分类器集成起来,通过采用某一种组合从而来决定最终分类器的分类结果,以此获得一个比之前单个分类器分类性能更优的组合分类器。所以将集成学习与半监督学习融合的方式是在只给定少量有标记样本的情况下有效提高分类器性能的方式之一。本文主要是在半监督学习的基础上融合集成学习的学习理念,把两种学习方法的优势融合起来,并且引入蚁群聚集信息素浓度作为置信度。在整个学习过程中选出一部分置信度高的未标记样本和一部分置信度低的未标记样本连同其标记类别一起加入到训练集中训练,产生分类性能较好的分类器,主要工作如下:(1)在传统Tri-Training分类算法上进行改进,采用三种不同分类算法生成基分类器,并在分类器组合的过程中,采用准确率加权的方法集成分类器,即Tri-Training-3分类算法。传统Tri-Training分类算法采用一种分类算法生成三个基分类器,这三个基分类器的差异性相对不大,只能通过样本集的差异来提高性能,而本文采用三种不同的分类算法,相应生成三个不同基分类器,再通过有差异的样本集,提高了其分类性能。(2)在Tri-Training分类算法中,将蚁群聚集信息素的计算融入其中,提出了一种基于蚁群聚集信息素的Tri-Training分类算法(Aggregation pheromone metaphor for Tri-Training classification,简称APTTC)。计算蚁群聚集信息素浓度,并将蚁群聚集信息素浓度作为置信度,从而将置信度高的未标记样本(设定一个阈值,大于这一阈值就认为是置信度高的未标记样本)连同其标记类别一起加入到有标记样本集中,从而生成有差异的训练样本集,提高其分类性能。(3)融合Bagging集成学习和Tri-Training半监督分类算法,提出了一种基于置信度重采样的融合Bagging和Tri-Training分类算法(Bagging and Tri-Training based on Confidence Resampling,简称BTTCR)。每次迭代循环,按照置信度的高低进行重采样,选取一定比例置信度高的未标记样本和一定比例置信度低的未标记样本连同其标记类别一起加入到有标记样本集中进行训练。选取置信度高的未标记样本的目的是为了提高分类的准确率,而选取置信度低的样本是为了进行扰动训练,生成差异较大的样本集,从而提高分类的准确率。本文以COREL图像库和Indoor Scene图像集作为实验数据,分别采用上述三种(Tri-Training-3、APTTC、BTTCR)分类算法进行图像分类,并于传统采用同一种分类算法生成三个分类器的Tri-Training分类算法(Tri-Training-NB、Tri-Training-KNN和Tri-Training-SVM)作了对比实验。实验表明,本文的三种方法均可以提高分类算法的分类性能。
其他文献
诉讼过程中可能存在逆向选择效应。这种效应对诉讼解决争议的功能有严重的损害。在诉因模糊的前提下,如果司法不公正,则会发生明显的逆向选择效应,导致大部分诉至法院的案件
<正>有一个永恒的话题:学生是有差异的,学生总是要犯过失的。然而人们对待错误的态度存在着很大的分歧。以斯金纳为主的行为主义者不允许学习者在学习过程中出现错误,学习者
近来饲料企业销售人员的流失日趋严重,这不得不令人深思:“为何企业留不住人才呢?”通过本篇的论述,将为你揭示企业留不住销售人员的根本原因。
本文以《牛顿第三定律》为例,从教学目标、教学方法、教学程序、教学评价等方面完整、详细地展示了新课标下物理课堂的展示过程,笔者本着"以学生发展为本"的教学理念,充分发
时间序列是根据时间顺序,对各个观测记录进行排列的数据集合。时间序列数据广泛存在于生产实践和生活的各个领域,因此研究其背后隐藏的信息具有重要的意义。时间序列研究包括
目的考察中药饮片两头尖和桑寄生中微生物污染状况,为中药饮片微生物限度标准的制定提供参考。方法按《中国药典》2015年版非无菌药品微生物限度标准(公示稿)对两头尖和桑寄
受益所有人是英美法上的概念,在美国证券法中为了防止当事人采用表面设计的法律关系逃避责任,受益所有人被明确下来。比较典型的规定体现在归入权制度中。归入权制度是指公司内
报纸
目的 研究经分离培养的骨髓基质干细胞 (MSC)在骨形成蛋白 (BMP)诱导下在体内外的异位成骨效应 ,为研制一种本身具有成骨能力的人造骨材料提供实验依据。方法 分离、培养 W
<正>班主任是班级工作的管理者和引导者。班主任工作就是"心"的工作。一方面,班主任要具备多"心",即责任心、宽容心、公平心、爱心和细心;另一方面,班主任要用心去观察学生的