论文部分内容阅读
本文构建了一种基于决策树的自适应集成学习算法,使用自组织神经网络为框架,用决策树作为神经元构建竞争子群,使用迭代的方法在神经元之间进行竞争性训练,并且在数据输出上采用基于贝叶斯的方法动态赋予各个决策树相应的权重。基于该方法,本文在人工数据、德国信用数据、澳大利亚信用数据、国内P2P网贷平台数据上和Lending Club网贷平台数据进行相应的建模,并与其他传统的基于决策树的相关集成学习算法进行性能比较。对比发现,当数据样本存在一个较为明显的子样本边界且数据样本可分割的情况下,例如人工数据与国内P2P网贷平台数据,自适应集成决策树的能够在较低的模型复杂度下获得较高的预测性能;在数据样本不存在一个较为明显的边界的情况下,例如德国信用数据与澳大利亚信用数据,自适应集成决策树的预测性能与普通的决策树类似,性能低于随机森林与梯度提升树。
针对不存在子样本边界的数据集,本文采取了与随机森林一样的投票法对自适应集成决策树进行了相应的改进,改进之后的预测性能有着显著的提升;针对存在子样本边界的数据集,本文采取的基于贝叶斯的动态权重集成方法得到了较好的效果。
在人工数据与国内P2P网贷平台数据的情况下,不需要进行集成便可以得到一个较为良好的预测性能,模型复杂度远低于其他集成学习模型;在德国信用集与澳大利亚信用集的情况下,不采取集成的方法带来的效果略差,但是在加入集成之后效果提升显著,能够达到各种模型的较高水平。
针对不存在子样本边界的数据集,本文采取了与随机森林一样的投票法对自适应集成决策树进行了相应的改进,改进之后的预测性能有着显著的提升;针对存在子样本边界的数据集,本文采取的基于贝叶斯的动态权重集成方法得到了较好的效果。
在人工数据与国内P2P网贷平台数据的情况下,不需要进行集成便可以得到一个较为良好的预测性能,模型复杂度远低于其他集成学习模型;在德国信用集与澳大利亚信用集的情况下,不采取集成的方法带来的效果略差,但是在加入集成之后效果提升显著,能够达到各种模型的较高水平。