论文部分内容阅读
随着多媒体技术的迅速发展和因特网的快速普及,数字图像呈爆炸式增长,如何有效地检索、分类、挖掘、利用这些数据成为当今研究的重点,特别是云的出现对从大量图片快速检索带来了非常大的挑战。但是单靠人力进行的数据分析往往要花费非常多的时间,满足不了数据产生速度的要求。因此在这样的背景下,机器学习(Machine Learning)应运产生,机器学习是一种自动化的数据分析方法,不再需要人工过多进行干预。机器学习顾名思义就是利用机器进行学习,主要是利用计算机来模拟人类的学习过程,机器学习是让计算机在现有知识的基础上学习一定的模型,进而进行新知识的延伸。按照学习形式,机器学习可以分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning),半监督学习是介于监督学习与无监督学习的一种学习形式。机器学习中的无监督学习的分类精度不高,监督学习则需要足够的训练样本,然而标记样本的过程是非常费时费力。半监督学习与主动学习都是利用有标记数据和无标记数据进行学习的学习方法,将主动学习与半监督学习相结合应用到图像分类上,在只给定少量有标记数据的情形下能够最大程度提高分类器的性能。本文主要是在半监督学习的基础上融合主动学习的学习理念,把两种学习方法的优势融合起来。在整个学习过程中既选出置信度最高的样例加入到训练集中,又选出学习器争议最大的样例交给专家系统进行标注,然后加入到训练集中,主要工作如下:1)经典的半监督算法co-training算法要求样本集具有充分冗余视图,即样本集要具备两个不同的视图,这两个视图能够分别训练出一个强分类器。但是这一要求在实际情况中很难得到满足,本文采用集成学习中的Bagging算法和RSM算法将初始已标记数据集分成两个视图,即完成了数据集从单一视图转化成多视图,不再要求已标记数据集具有充分冗余视图。2) 整个学习过程中采用两个分类器,一个分类器的训练集由已标记样例组成,另一个分类器的训练集由已标记样例和部分置信度高的未标记样例及其预测标签组成。在本文中,两个分类器的训练集不同,一个是采用已标记样例组成样本集,另一个采用已标记样例和部分置信度高的未标记样例及其预测标签组成样本集,这样可以从多方面对未标记数据进行描述。3) 本文将半监督学习和主动学习的优点相结合,既自行利用大量未标记样例中存在的相关性,又将两个分类器分歧最大的样例交予专家系统进行标注,这样既可以增大训练集,又可以减少将标记错误的样例加入到训练集中的可能。文中通过实验表明了该模型分类的优越性,也证明了该方法的合理性,具有较强的应用价值。