基于多个元模型的Stacking算法研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:simwwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网行业的蓬勃发展,人们在互联网上产生了海量的数据,机器学习在互联网的许多场景中得到了广泛的应用。在理论研究中,集成学习是机器学习中的重要研究方向,而其中的Stacking算法已经得到了广泛的研究与应用。但是目前对于Stacking算法的研究主要集中在基模型和元模型的选择和参数的调整上,很少对其结构进行研究。本文对Stacking算法进行了研究,并在此基础上对其结构进行了一定的改进,提出了一种基于多个元模型的Stacking算法。与原始的Stacking算法相比,改进后的算法采用了多个元模型,并通过结合策略对元模型的输出进行结合。我们将基于多个元模型的Stacking算法应用到一个基于文本数据的分类任务和房价预测中,验证了算法的正确性和有效性。本文的整体结构分为3部分:首先是对研究背景和意义的叙述,其次是对原始Stacking算法和改进后的算法的阐述,最后将改进后的算法应用于分类与回归问题。其中,算法对分类与回归问题的应用是本文的核心内容,两者都包含了特征工程、模型训练、模型评估和模型预测等阶段。但是特征工程、结合策略和评价指标等内容不同。本文的主要工作包括以下几点:1)在回归问题和分类问题中,分别在2个数据集上对基于多个元模型的Stacking算法的有效性进行了验证。在回归实验中,均方根误差分别为0.145和0.5814;在分类实验中,准确率分别为0.8341和0.9391,均优于其它方法。2)验证了算法性能并不随着元模型数量的增加而提升,而是要综合考虑各个元模型单独的性能表现和差异性。在分类问题中通过差异性度量中的“不合度量”衡量了各个模型之间的差异性,并以两个差异性较低的模型为基准,证明了各个模型之间具有较高的差异性。3)在每个数据集上对各个模型的训练时间和测试时间进行了测试,证明了改进后的算法以较小的时间成本获得了较好的效果。4)测试了算法在元模型和基模型相互独立的条件下的预测表现。证明了基于多个元模型的Stacking算法并不要求基模型和元模型各不相同,只要基模型之间和元模型之间各自具有差异性,并且各个模型的性能接近,就能获得较好的效果。5)与其它主流集成学习算法进行了比较,证明了改进后的算法优于Bagging、Ada Boost和随机森林等其它主流集成算法。
其他文献
检察宣传工作既是党的新闻工作的重要组成部分,也是检察工作的"窗口"和"桥梁"。但由于种种原因,基层检察宣传工作存在宣传力量薄弱,宣传时效性不强等问题,导致不少人不了解检
珠三角地区作为我国改革开放的前沿阵地,经济发展迅猛,广州作为都会大城市,吸引了大量外国人在此居住,特别是在广州市越秀区外国人集中程度较高,但是对于外国人的管理却并不
目的探讨中医药治疗再生障碍性贫血(aplasticanemia,AA)的组方规律。方法应用文献检索方法检索1979—2009年在中国知网(CNKI)、维普资讯网(VIP)、万方数据知识服务平台收录的
搭建车载排放测试试验平台,选择轻型车和中型车进行了实际道路排放测试,建立了排放数据与行驶工况数据对应的数据库。引入比功率的概念比较了机动车排放随比功率和速度的变化
<正>本研究立足于真实的话语语料,结合会话语境将例句以"轻微的断定"、"疑问"、"劝诱"三种意义区分,按各自不同的对应形式逐项加以标注、统计,分析日语终助词「の」与汉语最
新编昆剧《李香君》在新的话语环境中,突破了历史事件对追忆者的拘囿。在对其进行通观和解析后发现,它通过戏剧冲突的构置凸显了个体生命的主体性,进而阐释了人心危异、人生
近似数量系统是古老并具有进化基础的前人类的数感,它以独立模式与近似形式来表征和辨别数量。近似数量系统敏锐度反映了个体辨别数量时的精确程度,与个体数学成绩之间存在正
编者按 1月6日,最高人民检察院召开检察新闻宣传工作座谈会,听取中央新闻媒体、网络媒体、中央有关单位新闻宣传部门负责人对检察新闻宣传工作的意见建议。座谈会上,与会同志结
报纸
伊氏锥虫(Trypanosoma evansi)是一种真核的单细胞血液鞭毛虫,寄生于几乎所有的脊椎动物体内,能通过蝇、虻作为媒介(vector)在动物之间传播,也可通过生食感染动物的肉和血经