论文部分内容阅读
集成学习利用现有简单学习算法共同解决一个问题,能够显著提高一个学习系统的泛化能力,对于未知的对象给出尽可能精确的估计。由于集成学习所具备的优势,近年来对其理论和算法的研究成为机器学习领域的热点之一。然而,为了获得满意的精度,集成大量的基分类器需要大量的存储空间并且使得预测速度明显下降,同时由于集成了大量冗余基分类器,影响了学习系统整体的泛化性。2002年,周志华等人研究首先证实,并非所有基分类器参与集成的效果是最好,并且提出了“选择性集成”的概念。选择性集成学习是在已生成的多个基分类器的基础上,基于某种选择策略只从其中选择一部分用于构建集成分类器。本文在深入学习选择性集成研究以及与其相关理论的基础上,从混合模型方面进行了相应研究,主要完成以下工作: (1)本文提出了将基于聚类的集成修剪和动态选择与循环集成框架相互结合的混合模型。首先基于K-均值聚类算法的集成修剪算法剔除冗余的基分类器。然后,为了避免使用枚举法并且能够获得更好的集成性能,通过改进动态选择与循环集成框架,利用顺序选择策略对处理过的候选分类器集合进行集成学习。在多组实际数据集上进行对比实验,验证该模型处理二分类问题的有效性。 (2)本文将混合模型应用于音乐流派分类,考虑到音乐分类属于多分类问题,为了提高乐曲的识别精度,利用交叉验证对基分类器的参数进行初始化。实验表明混合模型适合处理音乐流派分类问题,并且通过交叉验证优化参数进一步提高性能。 (3)通过问题转化方法衍生出应用于多标记分类的混合模型。在多标记数据集上进行对比实验,实验结果验证了混合模型在多标记问题上的可行性。