机器学习分类方法的应用

来源 :科学与财富 | 被引量 : 0次 | 上传用户:cartman8148
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文通过对机器学习中各类分类方法的学习之后,对输血服务中心的数据集采用决策树(分类树)、Adaboost、Bagging、随机森林、支持向量机、最近邻方法和神经网络等七类方法对其进行分类,并采用五折交叉验证法评价预测精度,结果发现支持向量机的是最好的分类方法。
  关键词:机器学习;分类;交叉验证
  1.引言
  分类就是经典统计中所说的判别,当因变量有多个水平且自变量也有分类变量的情况下,判别分析就不可用,此时就要采用机器学习或数据挖掘的方法,比如决策树的分类树、Adaboost、Bagging、随机森林、支持向量机、最近邻方法和神经网络等。
  2.数据实验
  本文研究的數据来源于the UC Irvine机器学习数据库,下载地址:http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center。该数据集有748个观测值,5个变量,分别是: Recency - months since last donation(定量);Frequency - total number of donation(定量);Monetary - total blood donated in c.c.(定量);Time - months since first donation(定量);Class -whether he/she donated blood in March 2007(定性)。最后一个分类变量的水平为:Class(whether he/she donated blood in March 2007 )有两个水平:1=献血,0=没献血。通过对数据的查看,可以用前四个变量作为自变量来预测作为因变量C (最后一个变量)的类别。
  3.机器学习
  机器学习能使计算机在没有明确编程的情况下自主学习。不同于传统方法的模型驱动,机器学习是数据驱动,它探索构建了从数据中学习并对数据进行预测的算法。传统的统计模型对数据的分布都有一定的要求或假定,但在现实中,真实的数据可能并不满足那些假定或要求,若再用传统方法,它们的某些优良性质将不能得到,甚至得出的结论都有可能错误。此时选择机器学习的方法将更加合理,它不需要对数据分布做任何假定,且产生的结果也可用交叉验证的方法进行评价。
  3.1 决策树分类(分类树)
  决策树分类是通过一定的规则对数据样本进行分类的过程,当数据结构为连续形变量时,称为决策树回归。使用R软件的程序包rpart.plot进行决策树回归,得出的分类结果如决策树如表1。
  其中,行是真实类,列是预测类。一共有138个观测值被分错,误判率为0.184492。再利用函数Fold()所产生的5个随机数据集做五折交叉验证,给出测试集的分类平均误判率为0.2271857。
  3.2 Adaboost分类
  Adaboost是Boosting的一种,是一种组合方法,这里用的程序包是adabag,分类结果如表2。
  表里一共有101个观测值被分错,误判率为0.135026。通过五折交叉验证,给出测试集的分类平均误判率为0.2592931。
  3.3 Bagging分类
  Bagging分类是一个最简单的基于分类树的组合方法,它利用了自助法放回抽样。这里用的程序包是adabag中的函数bagging(),分类结果如表3。
  表里一共有133个观测值被分错,误判率为0.1778075。通过五折交叉验证,给出测试集的分类平均误判率为0.2271857。
  3.4 随机森林分类
  随机森林也是从原始数据抽取一定数量的自助法样本,程序包randomForest包含了随机森林函数randomForest(),分类结果如表4。
  表里一共有63个观测值被分错,误判率0.08823529。通过五折交叉验证,给出测试集的分类平均误判率为0.253915。
  3.5 支持向量机分类
  支持向量机分类是用程序包e1071中的svm()函数和程序包kernlab中的ksvm()函数来做SVM分类,两个不同函数的分类结果分别如表5和表6。
  表里一共有158个观测值被分错,误判率为0.2112299 。
  表里一共有138个观测值被分错,误判率为0.184492。通过五折交叉验证,给出测试集的分类平均误判率为0.2339329和0.2151588。
  3.6 最近邻方法分类
  最近邻方法可能是所有算法中最简单的方法,它基于训练集对测试集进行分类。用程序包kknn中的kknn()函数来对输血中心的全部数据做分类,程序代码中选项的默认值为:k=7,distance=2(Minkowski距离),分类结果如表7。
  表里一共有110个观测值被分错,误判率为0.1470588。通过五折交叉验证,给出测试集的分类平均误判率为0.2526174。
  3.6 神经网络分类
  人工神经网络是由大量的节点构成,其相关原理是,将上层节点的值加权后传递给下一层,依次传递到最终输出节点,再根据输出节点的误差大小情况给前面节点层一个激励或者抑制的信号,从而改变权重,最后经过反复传递,达到输出误差在某个范围内。利用程序包nnet的函数nnet()对输血中心的全部数据进行拟合,得到误判率为0.2348993,此时的size=2。
  通过五折交叉验证,给出测试集的分类平均误判率为0.2312573,此时size=2;当size=1时,误判率为0.2326264;当size=3时,误判率为0.2379597。当size增大时,误判率也随之增大,通过比较可知,size=2时最为合适。
  4.结果分析
  运用以上八种方法来对输血中心数据拟合的五折交叉验证测试集的误判率归纳如下表8所示。
  由表可知,在八种方法的五折交叉验证测试集误判率中,误判率最低的是支持向量机(ksvm)为0.2151588,其次是决策树和bagging,误判率最高的是adaboost为0.2592931。故针对输血服务中心的数据而言,进行分类最好的方法就是采用支持向量机分类法。
  参考文献:
  [1]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2013:54-69.
  [2]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001,18(8):18-19.
  [3]宋捷,吴喜之.一种新的Boosting回归树方法[J].统计与信息论坛,2010,25(5):9-13.
  [4]王鸿斌,张立毅,胡志军.人工神经网络理论及其应用[J].山西电子技术,2006(2):41-43.
  [5]王定成,方廷健,高理富,等.支持向量机回归在线建模及应用[J].控制与决策,2003,18(1):89-91.
其他文献
摘要:在进行信息技术教学时,如何进行问题情境创设尤为重要,毕竟这种教学方式有利于激发学生的学习积极性,培养其解决问题的能力。本文将先阐明提高信息技术教学问题情境创设的策略,再明确信息技术教学中进行问题情境创设的步骤。  关键词:高中教学;信息技术;问题情境创设  在当今这个时代,信息技术可以说是和互联网连接最紧密的课程,教师在进行课堂教学的时候,要充分发挥学生的自主学习能力,而将情境创设引入课堂教
期刊
摘要:英语是国际交流中所使用的主要语言。对于高校学生来说,提高英语能力十分有必要。这不仅需要培养学生的英语兴趣,还需要从英语这门语言的文学层次对学生进行教育。了解英语语言文学知识,能够使学生更好的摆脱传统的英语学习方式,更加自主、有兴趣、有方法的进行高效学习。本文主要探究英语语言文学学习对学生英语学习能力的影响,为高校的英语教学提供相应的策略。  关键词:英语语言文学;高校;习得能力;影响  引言
期刊
摘要:随着我国利率市场化改革深入,股份制银行传统存贷利差空间缩窄,以净利息收入为主、粗放式的经营模式受到挑战。本文剖析了利率市场化对我国股份制银行经营的影响,并提出合理化改革建议。  关键词:利率市场化;股份制商业银行;改革建议  一、主要影响  (一)利差盈利模式不再持续  利率市场化改革前,存贷款利差一直是股份制商业银行主要收入来源,占比主营业务收入大。改革以来,一方面股份制商业银行为了取得存
期刊
一、序言  儿童与青少年的生理与心理都处于一个迅速发展的阶段,父母的陪伴与教养在这一阶段发挥了极其重要的作用,它不仅影响儿童自尊发展的水平,而且影响自尊发展的速度和方向。  但是男性与女性的性格、思想等方面的差异必定会带来父母教养方式的不同,父亲在教养方式上更多扮演的是惩罚与严厉,而母亲在给予更多的温暖、理解的同时,也给予了更多的拒绝、否认。本文针对研究父母关系对孩子自尊影响差别,结合现实数据与国
期刊
摘要:思辨能力在我国也被称为思维能力与批判性思维,其本身是人的情感特质与认知能力的统一,在情感方面,包含了自信、开放等,在认知方面,包含了分析、推理和评价。思辨能力是元思辨能力的进一步发展,英语是我国高校中的重要基础教学内容,只有加强学生思辨能力的培养,英语教学效果才能得到进一步改善。本文对大学英语教学思辨能力培养模式构建进行初步的分析。  关键词:大学英语教学;思辨能力;培养模式  大学英语的教
期刊
摘要:10kV配电线路运行和维护的主旨还应是预防第一,适当应用新技术,也能算作配电线路运维与检修工作的一大努力,如能远距离实施监测的在线监测系统的应用可实时对线路运行情况加以把握。新技术的应用还能促进电网系统的快速发展,提高故障自动隔离和非故障段快速恢复供电的能力。  关键词:10kV配电线路;运维;检修  我国城镇环境与地形因素复杂,大部分配电线路建设于野外,且10kV配电线路点多面广,分布较为
期刊
摘要:数控加工专业课程,在教学过程中容易遇到各种困境。如何让学生把握数控加工专业技能的要点,并且运用在自己的操作实践中,这需要学生对编程知识,首先做到认知方面的熟记,并且逐渐达到熟练综合应用。微课的引入,可以让学生反复观看相关的操作细节以表象的形式在学生头脑中反复的演练,从而在实践操作中提高学生的操作成功率。  关键词:微课;数控加工;应用  引言  随着信息化时代的到来,网络技术开始在我国变得大
期刊
摘要:美国大学的通识教育经过数百年的发展已形成了一个完备的体系,我国的通识教育在上世纪末才慢慢发展起来,存在目标不清晰、结构不合理等问题。对比中美研究型大学通识教育课程,学习美国的成功经验,为我国通识教育的发展提供启示。  关键词:通识教育;中美研究型大学;课程  一、通识教育缘起  通识教育最早可以追溯到亚里士多德提出的“自由教育”,其内涵是提升公民基本素质,培养健全人格。1828年,美国的帕卡
期刊
摘要:高校体育资源是我国公共资源的重要组成部分,高校体育资源社会共享一方面对缓解我国体育资源不足与人们日益增长的体育需求之间的矛盾,促进我国体育公共服务体系建设,推动全民健身计划实施,构建和谐社会有着积极的作用;另一方面高校体育资源社会共享也有利于高校体育资源的整合和挖掘,促进高校体育教育的改革。本文将从云南省地方高校体育资源及社会共享现状入手,分析其制约因素,为有效利用和开发高校体育资源、探索一
期刊
摘要:高职院校作为我国高等教育的重要组成部分,其目标是培养生产、建设、管理、服务一线的高级技术应用型人才,实验室在担负培养应用型人才的任务中起着举足轻重的作用。因此实验室的建设和管理水平直接关系到实验实训课程的质量,从而影响到培养目标的实现和培养人才的质量。  关键词:高职院校;实验室;建设与管理  1.引言  在我国的教育体系中,高职院校处在至关重要的位置,特别是在专业技术人才培养方面。高职院校
期刊