论文部分内容阅读
分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器;AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的不足。本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆的在线更新问题。具体来说,本文的主要工作和创新点如下:1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树分类器。2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当向矩阵中插入一列(行)数据或删除已有的一列(行)数据时,其对应的中心化矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提出了在线最小二乘线性判别分析(LS-OLDA)算法。