论文部分内容阅读
分类问题是真实世界中普遍存在的问题,同时也是机器学习领域研究的核心问题之一。在真实世界问题的驱动下,分类问题已从单示例单标记分类(传统有监督分类)扩展到多标记分类、多示例分类和多示例多标记分类。上述各种分类问题对机器学习领域的研究人员提出了新的挑战。稀疏表示和集成学习有着坚实的理论基础,是解决分类问题的有力工具,在许多应用领域表现出了优越的性能。因此,针对上述各种分类问题,本论文以单示例单标记高光谱遥感图像分类、多标记图像分类、多标记基因分类、多标记Web页面分类、多示例图像分类和多示例多标记图像分类为具体研究对象,以稀疏表示和集成学习为工具,以提高整体分类性能为主要目的,提出了一些新的解决各种具体分类问题的方法。本论文的研究成果主要包括如下几个方面:1.结合稀疏表示特征及光谱信息特征提出了一种新的高光谱遥感图像数据分类方法。首先利用高光谱遥感图像数据集和机器学习方法得到字典,然后根据字典计算每个像元的稀疏表示特征,最后使用随机森林分类器分别对稀疏表示特征和光谱信息特征进行分类,并对分类结果进行集成。在高光谱遥感图像数据集上的实验结果表明:所提方法与基于稀疏表示特征的方法和基于光谱信息特征的方法相比,能够提高分类结果。2.基于稀疏表示提出了一种新的多标记分类方法。首先利用训练样本集作为字典,将测试样本表示为字典中训练样本上的线性组合,基于l1-最小化方法求得稀疏表示系数,然后利用稀疏表示系数所包含的判别信息提出了一个计算测试样本属于各标记的隶属度的方法,最后根据隶属度对标记进行排序,利用标记的排序结果对测试样本分类。在多标记数据集上的实验结果表明:所提方法与其他方法相比取得了更好的分类结果。3.提出了基于随机子空间集成的多标记分类方法。使用随机子空间方法从多标记数据的整体特征中随机选择多个相同大小的特征子集,然后利用每个特征子集生成多标记基分类器,最后将所有多标记基分类器的输出结果集成起来,得到最终的分类结果。在多标记数据集上的实验结果表明:所提方法的性能优于单个多标记分类算法的性能。4.结合稀疏表示和集成学习提出了一种新的多示例图像分类方法。利用训练包中所有示例学习出一个字典,根据该字典计算示例的稀疏表示系数,然后利用每个包中所有示例的稀疏表示系数计算包特征向量,从而把多示例分类问题转化为传统有监督分类问题,最后利用传统有监督分类方法进行分类。为了进一步提高分类性能,通过改变字典的大小,计算出不同长度具有不同表示能力的包特征,使用这些包特征训练出不同的基分类器,最后对基分类器结果进行集成。在多示例图像数据集上的实验结果表明:该方法与其他方法相比具有更高的分类精度。5.利用退化策略的思想提出了基于稀疏表示和分类器集成的多示例多标记图像分类方法。首先利用基于字典学习的稀疏表示方法计算出多示例多标记图像的包特征,把多示例多标记图像分类问题转化为一个多标记分类问题,然后把该多标记分类问题进一步转化为一个传统有监督分类问题,从而利用传统有监督分类方法进行分类。为了进一步提高分类性能,通过改变字典的大小,重复上述过程可以训练出多个差异性显著的基分类器,最后对基分类器结果集成。该方法在多示例多标记图像数据集上的实验结果表现出优越的分类性能。