论文部分内容阅读
朴素贝叶斯分类器是一种经典的机器学习算法,它通过利用属性的条件独立性假设使学习过程变得简单高效。但是在真实问题中,条件独立性假设并不成立,半朴素贝叶斯分类器通过削弱属性独立性假设来提高朴素贝叶斯分类器的泛化能力,受到了机器学习界的关注。集成学习是有效提高学习系统泛化能力的重要技术,它通过训练一组学习器并将它们集成起来解决一个问题。研究表明,与集成所有已有的学习器相比,选择性集成,即从已有的学习器中选择一部分进行集成,可以获得规模更小且泛化能力更强的学习系统。
本文对半朴素贝叶斯分类器和选择性集成进行了研究,主要取得了以下创新成果:
1.提出了基于广义加性函数的半朴素贝叶斯分类器GBC。与以往通过限制贝叶斯网络结构的方法不同,GBC用广义加性函数来描述变量之间的依赖关系,并基于此使用1-依赖贝叶斯分类器逼近贝叶斯分类器所需要的联合概率。实验表明,GBC算法性能优于很多流行算法。
2.提出了一种基于集成学习的半朴素贝叶斯分类器LODE。该方法通过模型似然对1-依赖贝叶斯分类器(SPODE)的性能进行估计,进而据此加权集成SPODE。研究表明LODE方法在没有显著增加经典算法AODE的计算复杂性的情况下显著提高了分类性能。
3.提出了一种基于正则化框架的选择性集成算法RSE。该方法将选择性集成中的个体学习器选择问题形式化成二次规划问题来求解。它不仅能够利用有标记样本进行学习,当有大量未标记样本存在时,它还能够有效利用未标记样本进一步提高泛化能力。实验表明,与经典集成学习算法Bagging、AdaBoost以及选择性集成算法GASEN相比,RSE算法能够产生规模更小且泛化能力更强的分类器集成。