论文部分内容阅读
摘 要:本文以GBDT为主要算法在信贷数据集进行分类,与传统的随机森林不同,此算法纵向生成树群并将每一棵树的预测值累加,并且每个决策树仅选定一个指标进行划分。此算法通过计算最佳分割点的方式降序排列取值的方式进行数据降维,将数据预处理工作融合进了算法中。构建决策树的每一部分或指标都根据现有研究成果或实践对比选择最佳的方式放入算法当中。实践证明此改进后的算法能够达到一个较高的准确度,也证明了此算法的优越性。
关键词:GBDT;决策树;分类;信贷;算法
分类是数据挖掘中应用领域极其广泛的重要技术之一, 其是根据数据集的特点构造一个分类器, 利用分类器对未知类别的样本赋予类别的一种技术[1]。
决策树算法是数据挖掘领域中一个活跃的研究方向[2]。作为决策树算法的延申,随机森林(RF)通过投票具有很高的预测准确率,对异常值和噪声具有很好的容忍度,并且不容易出现过拟合,在医学,生物信息,管理学等领域具有广泛的应用[3]。
GBDT采用梯度提升的方式构造树,每棵树都试图纠正前一棵树的错误。将样本数据集输入GBDT模型中,通过计算均方误差并使其最小作为分裂指标,根节点分裂之后,子节点重复同样的分裂方式,直到最底层子节点符合预先设定的条件后停止分裂,最终形成一颗二叉树。
本文采用GBDT模型。并应用不同的激活函数和损失函数进行分析和对比。并使用实验真实的心脏病数据集进行验证,与传统算法做对比,此算法都能够在一定程度上很好地提升准确度。
1 GBDT算法
1.1 算法设计思路
GBDT以回归树为基础,将神经网络误差反向传播的思路嵌套进了回归树中。再以激活函数为“桥梁”,将回归问题转化为了分类问题,并在一定程度上可以更好地实现非线性分类。为了在一定程度上避免过拟合,类似神经网络加入了学习率的概念。
与神经网络以及很多算法对于数据集的要求很高,需要做预处理[4]。与此相比,此模型能够较好的应用于庞大的数据集中,因为它能够通过遍历数据选择最佳划分点以及特征,选择的特征数量可以规定,这种模型可以按照特征的有效性进行排序并选择前几位较为有效的规则进行划分。换句话说,在计算特征值并逆序排序的过程就是数据降维的過程。
总的来说,GBDT的思想是依据神经网络误差反向传播建立起来的。与其需要进行复杂的求导以及很大的运算量不同,通过决策树架构,分析残差迭代生成森林,将预测结果累加从而得到分类结果既不需要太大的运算量,又能够较好的实现分类的目的。
1.2 GBDT算法流程
(1)假定GBDT的训练集是(X,Y),其中X是输入变量,Y是对应的因变量。
(2)计算初始预测值
(3)依照最佳特征构建一个决策树,每个叶子结点的预测值为该叶子结点的均值。
(4)计算损失函数L(f)
(5)将此算法前三步迭代,特征值的选取为遍历数据集得到的最小均方误差的特征逆序排列依次取值。假设迭代m次,构建了m棵树。此时样本的估计值是m次迭代的累加和。在第m+1次迭代中,损失函数的最大化下降方向是它的梯度方向
(6)将fm+1(x)通过激活函数映射进行分类
1.3预测值计算方式的理论解释
回归树的初始值一般用的是选用某一特征的值、均值或者随机生成,在本文中初始值的选定是根据数据值的一个计算公式得出。因为所选取的数据集是二分类问题,所以预测的函数值需要在(0,1),借用神经网络的激活函数函数,可将最终的预测值控制在(0,1)之间。基于此,本文选择公式对数归一化来计算初始预测值。
1.4学习率的计算方式
1.5评价指标的计算方式
为了评估GBDT的预测性能,需要选择损失函数来衡量模型的精度。本文选取了均方误差(MSE),平均决对误差(MAE)以及平均绝对百分误差(MAPE)以及负二项对数似然函数来衡量模型的预测精度。经过替换不同的损失函数计算,发现MSE的预测精度最高,预测效果明显优于其他两种损失函数,故本文选择MSE作为损失函数。
当选择MSE作为损失函数时,其导数即为预测值与实际值之差的倍数。
2真实数据集上算法的实践检验
2.1 数据获取及预处理
此数据选取Lending Club的信贷数据,并通过特征提取评估属性的重要性选取较为重要的特征,再将数据集标准化。然后从此数据集中随即划分占总数量70%的样本为训练集,其余的样本作为测试集。然后使用GBDT进行数据的训练和测试。实践表明,当损失函数选择MSE,并且激活函数为softsign时,准确率最高,甚至能够达到90.6%左右,已经完全能够胜任基于此数据集的分类工作。
3 算法再优化方向
(1)可以尝试将学习率替换为动量更新算法,总而能够切合实际情况计算出合适的学习率。
(2)尝试优化算法使得算法能够自动计算划分特征的数量(构造树的数量),从而达到更有效的分类
参考文献
[1]刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002(06):727-730.
[2]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001(08):18-19+22.
[3]方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(03):32-38
[4]陈雯柏. 人工神经网络原理与实践[M]. 西安:西安电子科技大学出版社,2016.
关键词:GBDT;决策树;分类;信贷;算法
分类是数据挖掘中应用领域极其广泛的重要技术之一, 其是根据数据集的特点构造一个分类器, 利用分类器对未知类别的样本赋予类别的一种技术[1]。
决策树算法是数据挖掘领域中一个活跃的研究方向[2]。作为决策树算法的延申,随机森林(RF)通过投票具有很高的预测准确率,对异常值和噪声具有很好的容忍度,并且不容易出现过拟合,在医学,生物信息,管理学等领域具有广泛的应用[3]。
GBDT采用梯度提升的方式构造树,每棵树都试图纠正前一棵树的错误。将样本数据集输入GBDT模型中,通过计算均方误差并使其最小作为分裂指标,根节点分裂之后,子节点重复同样的分裂方式,直到最底层子节点符合预先设定的条件后停止分裂,最终形成一颗二叉树。
本文采用GBDT模型。并应用不同的激活函数和损失函数进行分析和对比。并使用实验真实的心脏病数据集进行验证,与传统算法做对比,此算法都能够在一定程度上很好地提升准确度。
1 GBDT算法
1.1 算法设计思路
GBDT以回归树为基础,将神经网络误差反向传播的思路嵌套进了回归树中。再以激活函数为“桥梁”,将回归问题转化为了分类问题,并在一定程度上可以更好地实现非线性分类。为了在一定程度上避免过拟合,类似神经网络加入了学习率的概念。
与神经网络以及很多算法对于数据集的要求很高,需要做预处理[4]。与此相比,此模型能够较好的应用于庞大的数据集中,因为它能够通过遍历数据选择最佳划分点以及特征,选择的特征数量可以规定,这种模型可以按照特征的有效性进行排序并选择前几位较为有效的规则进行划分。换句话说,在计算特征值并逆序排序的过程就是数据降维的過程。
总的来说,GBDT的思想是依据神经网络误差反向传播建立起来的。与其需要进行复杂的求导以及很大的运算量不同,通过决策树架构,分析残差迭代生成森林,将预测结果累加从而得到分类结果既不需要太大的运算量,又能够较好的实现分类的目的。
1.2 GBDT算法流程
(1)假定GBDT的训练集是(X,Y),其中X是输入变量,Y是对应的因变量。
(2)计算初始预测值
(3)依照最佳特征构建一个决策树,每个叶子结点的预测值为该叶子结点的均值。
(4)计算损失函数L(f)
(5)将此算法前三步迭代,特征值的选取为遍历数据集得到的最小均方误差的特征逆序排列依次取值。假设迭代m次,构建了m棵树。此时样本的估计值是m次迭代的累加和。在第m+1次迭代中,损失函数的最大化下降方向是它的梯度方向
(6)将fm+1(x)通过激活函数映射进行分类
1.3预测值计算方式的理论解释
回归树的初始值一般用的是选用某一特征的值、均值或者随机生成,在本文中初始值的选定是根据数据值的一个计算公式得出。因为所选取的数据集是二分类问题,所以预测的函数值需要在(0,1),借用神经网络的激活函数函数,可将最终的预测值控制在(0,1)之间。基于此,本文选择公式对数归一化来计算初始预测值。
1.4学习率的计算方式
1.5评价指标的计算方式
为了评估GBDT的预测性能,需要选择损失函数来衡量模型的精度。本文选取了均方误差(MSE),平均决对误差(MAE)以及平均绝对百分误差(MAPE)以及负二项对数似然函数来衡量模型的预测精度。经过替换不同的损失函数计算,发现MSE的预测精度最高,预测效果明显优于其他两种损失函数,故本文选择MSE作为损失函数。
当选择MSE作为损失函数时,其导数即为预测值与实际值之差的倍数。
2真实数据集上算法的实践检验
2.1 数据获取及预处理
此数据选取Lending Club的信贷数据,并通过特征提取评估属性的重要性选取较为重要的特征,再将数据集标准化。然后从此数据集中随即划分占总数量70%的样本为训练集,其余的样本作为测试集。然后使用GBDT进行数据的训练和测试。实践表明,当损失函数选择MSE,并且激活函数为softsign时,准确率最高,甚至能够达到90.6%左右,已经完全能够胜任基于此数据集的分类工作。
3 算法再优化方向
(1)可以尝试将学习率替换为动量更新算法,总而能够切合实际情况计算出合适的学习率。
(2)尝试优化算法使得算法能够自动计算划分特征的数量(构造树的数量),从而达到更有效的分类
参考文献
[1]刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002(06):727-730.
[2]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001(08):18-19+22.
[3]方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(03):32-38
[4]陈雯柏. 人工神经网络原理与实践[M]. 西安:西安电子科技大学出版社,2016.