基于GBDT对信贷数据集的分类研究

来源 :大众科学·上旬 | 被引量 : 0次 | 上传用户：zcxwlh

【摘要】

：

【作者】

：

叶星辰范登科

【出处】

：

大众科学·上旬

【发表日期】

：

2020年6期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文以GBDT为主要算法在信贷数据集进行分类，与传统的随机森林不同，此算法纵向生成树群并将每一棵树的预测值累加，并且每个决策树仅选定一个指标进行划分。此算法通过计算最佳分割点的方式降序排列取值的方式进行数据降维，将数据预处理工作融合进了算法中。构建决策树的每一部分或指标都根据现有研究成果或实践对比选择最佳的方式放入算法当中。实践证明此改进后的算法能够达到一个较高的准确度，也证明了此算法的优越性。
　　关键词：GBDT;决策树;分类;信贷;算法
　　分类是数据挖掘中应用领域极其广泛的重要技术之一，其是根据数据集的特点构造一个分类器，利用分类器对未知类别的样本赋予类别的一种技术[1]。
　　决策树算法是数据挖掘领域中一个活跃的研究方向[2]。作为决策树算法的延申，随机森林（RF）通过投票具有很高的预测准确率，对异常值和噪声具有很好的容忍度，并且不容易出现过拟合，在医学，生物信息，管理学等领域具有广泛的应用[3]。
　　GBDT采用梯度提升的方式构造树，每棵树都试图纠正前一棵树的错误。将样本数据集输入GBDT模型中，通过计算均方误差并使其最小作为分裂指标，根节点分裂之后，子节点重复同样的分裂方式，直到最底层子节点符合预先设定的条件后停止分裂，最终形成一颗二叉树。
　　本文采用GBDT模型。并应用不同的激活函数和损失函数进行分析和对比。并使用实验真实的心脏病数据集进行验证，与传统算法做对比，此算法都能够在一定程度上很好地提升准确度。
　　1 GBDT算法
　　1.1 算法设计思路
　　GBDT以回归树为基础，将神经网络误差反向传播的思路嵌套进了回归树中。再以激活函数为“桥梁”，将回归问题转化为了分类问题，并在一定程度上可以更好地实现非线性分类。为了在一定程度上避免过拟合，类似神经网络加入了学习率的概念。
　　与神经网络以及很多算法对于数据集的要求很高，需要做预处理[4]。与此相比，此模型能够较好的应用于庞大的数据集中，因为它能够通过遍历数据选择最佳划分点以及特征，选择的特征数量可以规定，这种模型可以按照特征的有效性进行排序并选择前几位较为有效的规则进行划分。换句话说，在计算特征值并逆序排序的过程就是数据降维的過程。
　　总的来说，GBDT的思想是依据神经网络误差反向传播建立起来的。与其需要进行复杂的求导以及很大的运算量不同，通过决策树架构，分析残差迭代生成森林，将预测结果累加从而得到分类结果既不需要太大的运算量，又能够较好的实现分类的目的。
　　1.2 GBDT算法流程
　　（1）假定GBDT的训练集是（X，Y），其中X是输入变量，Y是对应的因变量。
　　（2）计算初始预测值
　　（3）依照最佳特征构建一个决策树，每个叶子结点的预测值为该叶子结点的均值。
　　（4）计算损失函数L（f）
　　（5）将此算法前三步迭代，特征值的选取为遍历数据集得到的最小均方误差的特征逆序排列依次取值。假设迭代m次，构建了m棵树。此时样本的估计值是m次迭代的累加和。在第m+1次迭代中，损失函数的最大化下降方向是它的梯度方向
　　（6）将fm+1（x）通过激活函数映射进行分类
　　1.3预测值计算方式的理论解释
　　回归树的初始值一般用的是选用某一特征的值、均值或者随机生成，在本文中初始值的选定是根据数据值的一个计算公式得出。因为所选取的数据集是二分类问题，所以预测的函数值需要在（0，1），借用神经网络的激活函数函数，可将最终的预测值控制在（0，1）之间。基于此，本文选择公式对数归一化来计算初始预测值。
　　1.4学习率的计算方式
　　1.5评价指标的计算方式
　　为了评估GBDT的预测性能，需要选择损失函数来衡量模型的精度。本文选取了均方误差（MSE），平均决对误差（MAE）以及平均绝对百分误差（MAPE）以及负二项对数似然函数来衡量模型的预测精度。经过替换不同的损失函数计算，发现MSE的预测精度最高，预测效果明显优于其他两种损失函数，故本文选择MSE作为损失函数。
　　当选择MSE作为损失函数时，其导数即为预测值与实际值之差的倍数。
　　2真实数据集上算法的实践检验
　　2.1 数据获取及预处理
　　此数据选取Lending Club的信贷数据，并通过特征提取评估属性的重要性选取较为重要的特征，再将数据集标准化。然后从此数据集中随即划分占总数量70%的样本为训练集，其余的样本作为测试集。然后使用GBDT进行数据的训练和测试。实践表明，当损失函数选择MSE，并且激活函数为softsign时，准确率最高，甚至能够达到90.6%左右，已经完全能够胜任基于此数据集的分类工作。
　　3 算法再优化方向
　　（1）可以尝试将学习率替换为动量更新算法，总而能够切合实际情况计算出合适的学习率。
　　（2）尝试优化算法使得算法能够自动计算划分特征的数量（构造树的数量），从而达到更有效的分类
　　参考文献
　　[1]刘红岩，陈剑，陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报（自然科学版），2002（06）：727-730.
　　[2]唐华松，姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究，2001（08）：18-19+22.
　　[3]方匡南，吴见彬，朱建平，谢邦昌.随机森林方法研究综述[J].统计与信息论坛，2011，26（03）：32-38
　　[4]陈雯柏. 人工神经网络原理与实践[M]. 西安：西安电子科技大学出版社，2016.

其他文献

视觉信息辅助无人机侦察目标定位技术

摘要：无人机侦察是一项对技术要求很高的工作，而目标定位作为无人侦察作业中的一项重要内容，其对于工作的开展会造成直接影响。从以往的经验来看，传统无人侦察目标定位受量测设备、平台等多项因素影响，这都降低了定位的精准度。下面，针对视觉信息辅助无人机侦察目标定位技术进行全面分析，希望文中内容对于相关工作人员，以及整个行业的发展都可以有所作用。　　关键词：无人机;视频信息;侦察目标;定位技术　　随着科技的

期刊

食品安全法实施后的若干思考

摘要：近年来，随着人民生活水平的不断提升，食品安全问题也获得了人们更高的重视。为保障食品生产行业秩序，提高食品生产质量，我国全国人民代表大会常务委员会通过了《食品安全法》，对于人们所关注的食品安全问题进行了约束，但从实际应用的角度上来看，仍然存在着诸多的问题，在下文中我们就具体对于《食品安全法》实施后的一系列问题进行了研究分析，希望可以为促进食品生产领域的稳定发展贡献一份力量。　　关键词：《食品

期刊

人工智能在计算机网络技术中的应用

摘要：现时代，计算机网络技术作为最具有代表性的现代科学技术，已经被应用和普及到各大领域，是人工智能技术产生的前提和基。人工智能已经成为数字化及网络化时代的象征性技术，已经被应用到计算机网络技术中，促进计算机智能化发展，由此可见人工智能对计算机网络技术的重要性。对此，笔者根据自己对人工智能及计算机的了解，分析了人工智能在计算机网络技术中的应用，希望对计算机智能化发展起到积极作用。　　关键词：人工智

期刊

民族地区博物馆社教活动在文化传承中的价值体现

摘要：博物馆作为公共文化服务的场所与载体，在向公众展陈文物之余发挥其博物馆社会教育职能，在当今文化传承中同样有着重要的价值与意义。民族地区博物馆针对性地开展社教活动，能够更好的进行文化传承。人们在相应的活动之中，能够感受到传统文化的力量和价值。以文化传承为重要引领，能够彰显出社教活动的具体价值，让民族地区博物馆社教活动顺利开展，让文化传承工作顺利进行。文章阐释了民族地区博物馆社教活动在文化传承中

期刊

中小企业财务管理信息系统的设计与实现

摘要：近年来，随着我国经济发展水平的不断进步与提升，我国的金融行业也获得了突飞猛进的发展。对于中小企业而言，行业及市场情况的变化不仅会影响其发展方向，更会对其财务管理工作的开展造成干扰。通过构建其财务管理信息系统，一方面能够强化信息的收集水平，另一方面也能有效提升信息处理工作的开展效率。本文主要针对中小企业财务管理信息系统的设计与实现进行了简要的探讨分析，从财务管理信息系统的重要性入手，提出了有

期刊

大型综合医院治安管理实践与探索

摘要：目的本文旨在对大型医院的治安管理进行实践与探索。方法通过对大型医院的治安管理现状及提出有效的措施，分析其的重要性。结果通过回顾分析，梳理出综合的、完整的方案以解决现有的医院治安问题，从而提升患者的就医体验及促进医院的良性发展。结论治安管理有利于大型综合医院更好的发展。　　关键词：综合医院;治安;管理　　一、引言　　医院是社会保障体系中的重要的部分，以服务于广大民众为宗旨，为社会提供

期刊

论当前如何加快建设法治中国

摘要：党的十九报告不仅形成了习近平新时代中国特色社会主义思想，而且也包含了丰富的法治思想。这是因为党的十八大以来，伴随着我国社会主义建设的不断深化，各项法治改革也取得了极大成效，法治建设取得长足进展。依法治国是中国共产党领导人民治国理政的基本方式，法治思想在党的十九大报告中出现的频率之高，体现了其分量之重。所以加强学习和领会习近平新时代中国特色社会主义法治思想，有利于建构科学的法治理念，有利于加

期刊

浅谈企业档案部门立卷制度

摘要：部门立卷制度从1955年明确提出，部门立卷制度对于理顺档案工作关系和划清档案整理分工起到了重要作用，并且推动了档案工作的繁荣和发展。但随着计算机网络的飞速发展，5G时代的到来，无纸化办公模式普及，实现高效利用档案的需求对规范化档案管理提供巨大挑战，部门立卷制度的实施效果还有待提高。　　关键词：部门立卷，部门立卷制度，立卷流程，档案部门职责　　随着公司“省五星级”档案馆的创建，对规范化档案管

期刊

从清朝文献中士人对“大黄”“茶叶”的态度见清朝的衰亡

摘要：大黄茶叶作为我国传统的药材饮品，在长期的对外贸易中一向扮演着重要的角色，特别是茶叶在中外贸易中一向是占据首位的。但是在清朝，茶叶大黄除了作为重要商品以外，也同样作为清朝衰亡的见证物，清楚的展示了清朝一步步走向衰亡的过。　　关键词：大黄茶叶;鸦片战争;清朝　　自鸦片战争始，泱泱大国清朝仿佛陷入了绝境，战无不败，但同一时期遭受美国冲击的日本却能迅速迎头赶上，这其中最大的原因就在于士人的意识与

期刊

环境监测对环境治理的促进性思考

摘要：根据我国目前的实际情况来看，在进行环境治理时一定要重视实际效果和具体质量，对于环境中土质和气体以及环境等部分实施全面检查，找出环境中存在的有害物体，根据实际需求和特点进行完善，这样才能解决发展过程中存在的主要问题。本文在研究过程中首先对环境治理和检测具有的重要意义进行了介绍，之后对促进检测方案和制度完善的具体方法进行了深入研究，在综合实际需求的情况下提出了完善方案，希望可以通过这种方式确保

期刊

基于GBDT对信贷数据集的分类研究

与本文相关的学术论文