基于人工智能算法的残缺样本分类预测

来源 :科学与财富 | 被引量 : 0次 | 上传用户:i_love_snj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文将人工智能算法——随机森林应用到了信息残缺的样本的分类预测中。通过准确度、ROC和AUC等分类性能指标的计算发现随机森林算法对带标签的信息残缺样本的分类预测能力令人满意。
  关键词:人工智能;随机森林;分类预测
  一、引言
  自从2016Alphgo与韩国围棋世界冠军李世石的大战后,以深度学习为代表的人工智能技术再次进入人类视野。人工智能顾名思义,是研究开发用于模仿和拓展人类智能的技术科学。简单说就是用计算机程序来实现人类智能的技术。人工智能大体分为模式识别、机器学习、智能算法、数据挖掘等子领域。本文关注的就是其在数据挖掘领域的具体应用,即大数据信息的分类预测等。
  在数据分析的过程中,我们经常遇到这样的应用场景。大量样本,每个样本又包含了多个特征。这里的特征其表现形式可能是多样化的,可以是数字型特征,可以是文本型特征等等,符合大数据的信息特征,同时所有的样本又自带标签或者类别归属。所需解决的问题可能是如何从这些复杂的信息中“学习”到样本的标签是如何由样本自带的诸多特征来决定的。这样即使有新的样本,也能根据其标签获取它的类别。
  二、基于人工智能的大数据预测
  泰坦尼克号的沉没是大家熟知的航海悲剧。我们可以从获取船上乘客年龄、性别、舱位等多方面的信息,同时也确知这些乘客生还与否(生还记为1,否则记为0)的标签。我们试图从每位乘客的如上信息中推断这些信息与其标签的对应关系。乘客部分信息如表一所示:
  从中不难发现每位乘客包含姓名,年龄,票号,性别等多个特征信息。而标签则是幸存与否,用0和1区别。鉴于年代已久原始信息留存未必完全,故有部分信息缺失只能以“NaN”记录,为便于数据分析,这些缺失数据以对应该特征在所有乘客里的均值代替。乘客总计有1316人。现在我们的任务就是从这1316人的特征及所带标签出发,建立分类预测模型,从而实现由样本的特征信息就能判别其生还或是死亡。
  我们选择随机森林模型训练并测试数据从而建立分类预测模型。首先将1316条数据分为训练集和测试集,其比例为1:3。训练集用来训练模型,测试集用来测试模型的性能。由于模型中的参数需要设置。我们采用网格验证法,即将随机森林中的决策树的数量分别设为120, 200, 300, 500, 800和1200,每颗决策树的深度设为 5, 8, 15, 25和30,从而进行参数的交叉验证来选择最有参数组合。它的具体含义是在模型训练时决策树数量和决策树深度这两个参数共计30种组合,看哪个组合能使得模型的预测准确率最高。
  三、模型性能
  在由训练集进行随机森林的模型训练后,测试集用来测试模型的性能,即测试集中的乘客信息经训练好的模型进行预测,看与其真实的标签是否相符。由于采用了泛化性能更好的随机森林,此次预测的准确率达到了0.8632。考虑到原始数据中不少信息都是缺失的,这一预测的准确率已经非常可观。另外我们还可以通过ROC和AUC来反映模型的性能。图1是此次预测的ROC曲线图。图中蓝色曲线是此次预测的ROC曲线,它代表模型对正类样本正确分类的比率(tpr)和对正类样本错分的比率(fpr)对比。之所以需要tpr和fpr这两个指标是因为,在评价模型预测性能的时候仅依靠准确率是不够的。比如某个测试集有99个正类,1个负类,那么即使全都预测为正类,正确率也有99%,但若全都预测为负类,则正确率只有1%了。所以整体的准确率不足以体现正类或负类样本分别被正确归类的情况,这时就需要tpr和fpr来更细致表现模型的性能了,尤其是在数据集中的正类负类严重不平衡的时候。图中这条蓝色曲线(ROC)越靠近左上角表明性能越好。另外,这条蓝色线下的面积(AUC)越接近1表明模型的性能越好。本次预测得到的AUC为0.8583。作为一个有不少缺失信息的分类问题而言,这个结果是非常不错的。此次预测最优的参数组合是120棵决策树和树的深度为5。这意味着由120棵深度为5的决策树构成的随机森林能对训练集的拟合效果最好。
  四、结语
  采用随机森林的预测模型本质上就是利用了人工智能技术挖掘数据的本质特征和规律。随机森林的优点在于它是有多棵决策树组成的。在对训练集拟合时体现出两个“随机”。一是抽样的随机性,即若训练集包含N个样本则在训练集中随机有放回地抽样N次组成用于训练的样本集,这么做能体现模型的泛化性能又能保持每次训练结果的相关性;二是特征选取的随机性,即在利用决策树进行预测分类时每棵决策树都是随机地在所有特征中选取一部分进行筛选实现子节点的分裂,这样就能避免总是利用所有特征来进行子节点分裂所带来的过拟合的危险。随机森林算法是集成式算法的代表,尽管近年来出现了很多其它集成式算法,但作为一种经典的数据挖掘算法仍频频见诸于应用。
  参考文献:
  1、结合随机森林面向对象的森林资源分类 王猛等 测绘学报 2020 第49卷 第2期 P235-244
  2、采用單类随机森林的异常检测方法及应用 张西宁等 西安交通大学学报 2020 第2期 P1-8
  3、基于随机森林的黄土地貌分类研究 曹泽涛等 地球信息科学学报 2020第3期 P452-463
  4、基于随机森林的网络入侵检测方法 芶继军等 计算机工程与应用 2020 第56卷 第2期 P82-88
  5、基于随机森林的驾驶人驾驶习性辨识策略 朱冰等 汽车工程 2019第41卷 第2期 P213-218
  6、基于级联随机森林与活动轮廓3DMR图像分割 马超等 自动化学报 2019第4卷第5期 P1004-1014
其他文献
摘 要:随着国际经济环境的变化,国内企业的发展压力越来越大,竞争加剧。企业为了获得更好地发展机会,赢得市场地位,不断加强内部管理,积极推进业财融合体制建设,实现业务、财务、信息“一体化”。以“一体化”为指导思想,以企业战略实现为统一目标,各部门之间协同协作,相互支持,保证企业可持续发展。  关键词:业财融合;问题;应对举措  1业财融合的特点  所谓的“业财融合”是指:业务经验与财务管理结合在一起
期刊
摘 要:在经济大力发展的推动下,我国建筑业阵地也在不断扩大,为经济发展注入新鲜血液的力量。建筑工程具有两个关键性因素,施工的顺利进行以及施工安全的保障,而高效的财务管理工作是有效保障建筑工程质量的重要前提。本文就新经济形势下,围绕建筑施工企业财务管理工作进行了一系列深入分析与研究,希望能够对建筑施工企业财务管理的健康发展有所帮助。  关键词:新经济;建筑施工企业;财务管理分析  0.引言  在社会
期刊
摘 要:日化行业快速发展得力于社会和科技进步,大众日益重视皮肤护理和日常保养,在国内市场上国外产品占比高,行业竞争异常激烈。本文以不断提高企业核心竞争力的上海家化为例,基于财务杠杆理论研究企业资本结构的优化。  关键词:财务杆杠;资本结构;财务风险  筹集生产经营资金,采用不同的筹资方式,企业将承担不同的资本成本。债务资本成本普遍低于权益资本成本,企业可以借助财务杠杆优化资本结构,通过提高债务资本
期刊
摘 要:在经济全球化的影响下,银行业受到了前所未有的挑战,全球化使全球银行处在同一平台上竞争,银行间竞争加剧,促进了银行转型升级,加速了各国金融体制的改革。我国积极应对经济全球化现状,开展金融体制改革,促进银行业转型升级。小商业银行在金融改革中拥有特殊作用和地位。小商业银行的存在为中国银行业注入了新鲜血液,它带来了新的思想、新的观念、新的手段,推动着整个行业从垄断经营逐步转变为公开竞争经营,提升了
期刊
摘 要:市场营销战略的价值,在于能够提升企业的市场竞争力、影响力,辅助企业开拓市场空间,而能否制定与当前经济市场环境相适应、与企业当前发展目标相匹配的市场营销战略,是其价值能否发挥的关键。在新经济背景下,我国市场经济状态发生了变化,企业要想寻求长效稳定的发展,就必须跟随时代变化,创新市场营销战略思维,转变传统思路,借助于科学可行的市场营销战略,为企业的发展寻求更多的空间,拓宽市场发展前景。  关键
期刊
摘 要:目前城市道路及其路面上的塌陷已经逐渐成为阻碍我们城市公共建设快速发展的重要组成因素,对于我们城市的整个现代化工程建设以及人们的日常生活都带来了诸多的不便。引起车辆道路两侧路面严重塌陷的组成因素有很多,其中道路两侧路基严重塌陷是一种引起车道路面严重塌陷的主要组成因素。基于此,本文对这些引发我国路基结构沉陷的原因关系进行了深入分析,并据此结合其长期发展趋势分别提出了几种相应的具体应对对策措施。
期刊
摘 要:随着社会的发展,全球大部分国家都买入了发展的中期建设,在国内,随着经济的发展和全球化的融合,大部分民众进入了中产收入的阶层,随着国民经济收入的增加,大家的总体消费水平在增加,越来越多的人对精神消费的需求超过了对物质消费的需求,因此生态旅游开始发展迅猛,以健康和绿色为主打的生态旅游方式变得越来越流行,在国家森林资源丰富的基础上,立足于森林的生态旅游变成了近年的研究热点。本文通过对生态旅游的深
期刊
摘 要:根据广东省农产品进出口统计,广东省的进口额和出口额均在全国省市的上游部分。如果全国农产品贸易受人民币汇率波动影响较大,很大程度上广东省内农产品进出口贸易也将受到不小的影响。本文通过近年广东省农产品进出口现状数据分析,运用J曲线效应构建简单模型,利用近年来广东省主要农产品出口数据与人民币汇率进实证分析,并提出对策建议。  关键词:人民币汇率;农产品进出口贸易;J曲线效应  一、广东农产品现状
期刊
摘 要:经济新常态背景下,国民经济迅速发展,为中小企业的发展提供了良好的环境和支持动力。但随着中小企业数量的增多,企业与企业之间的竞争压力也随着增大,中小企业在融资方面存在的问题也逐渐显现。本文首先对目前中小企业融资现状进行了全面的阐述,并进一步对中小企业融资中存在的问题进行了剖析,最后分析新常态下如何更快更好的解决中小企业的融资问题,有效推动中小企业持续健康的发展。  关键词:经济新常态;中小企
期刊
摘 要:城市园林绿化是指在生态系统上合理规划绿色植物的种植方案,采用科学的方法栽种植物,目的是美化城市和提高生活环境,维持城市的生态平衡。目前很多城市都提倡绿化工程,而园林绿化能保证生态效应平衡发展,还有净化空气的作用。因此,植物的选择也非常重要,要选择合适的树木,适合当地气候得花草树木,这样既能保证成活率,也能让城市绿化景观维持长久的美化效果。本文阐述当前园林绿化种植的特点,并提出园林绿化种植技
期刊