【摘 要】
:
集成学习是一类非常重要且实用的机器学习方法,但集成学习不是一种特定的机器学习方法,它是通过生成并组合多个基学习算法来完成任务。该工作有效地促进了信息融合、数据建模
论文部分内容阅读
集成学习是一类非常重要且实用的机器学习方法,但集成学习不是一种特定的机器学习方法,它是通过生成并组合多个基学习算法来完成任务。该工作有效地促进了信息融合、数据建模、数据挖掘等领域的发展。基学习器的融合是集成学习研究领域的一个热点话题。现有的集成学习的融合方法大致可以分为以下三种:1)平均法;2)投票法;3)学习法。投票法是集成学习问题中常用的融合方法。投票方法多种多样,大致可以划分为加权投票和非加权投票。以往的对于集成学习里的基学习器的融合的投票方法都过于简单,效率低下,因此本文对集成学习的融合阶段展开了研究,主要研究工作如下:(1)提出了一种新的基于真值发现的异质集成分类方法ECTD-S。该方法在计算的过程中,首先初始化基分类器的权重,也即基分类器的可信度,然后根据真值发现的推理规则推理得出类别的可信度,接着再根据推理规则迭代更新基分类器的可信度。算法在达到收敛条件时停止迭代,得到最终的类别预测结果。实验结果表明,ECTD-S在查全率、查准率和F1值上均优于对比算法,证实了该方法用于异质集成分类的有效性。(2)提出了一种新的基于真值发现的同质集成分类方法ECTD-B。首先对原始训练集做Bootstrap有放回抽样得到多个训练子集,基于这些训练得到多个同质基分类器,然后对测试集进行初步预测得到初步的预测结果。在最终预测阶段,首先初始化基分类器的权重,基于真值发现的推理规则得到类别的可信度,然后根据推理规则迭代更新基分类器的可信度。在算法收敛时,得到最终的预测结果。该方法可在预测阶段动态设置基分类器权重。实验结果表明,ECTD-B方法具有较好的分类性能。
其他文献
为了解决存储负载过高的问题,存储系统中引进了纠删码机制。纠删码能显著降低系统的存储负载,但是纠删码在修复失效节点时,会造成系统的网络带宽严重拥塞。因此,如何快速地读写数据、快速修复失效数据的同时尽量减小系统网络带宽消耗是一个亟待解决的问题。针对上述问题,基于FUSE文件系统,设计并实现了支持分布式存储的P-MBR系统,实现了MBR编码的并行化。具体来说包括以下几个方面:(1)研究了MBR编码的并行
三元复合正极材料LiNixMnyCo1-x-yO2(x>0.5)因具备高容量、热稳定性好、对环境友好等优点而成为锂离子电池的研究热点之一。本课题以NaOH为沉淀剂,氨水为络合剂,采用共沉淀法
随着科技的发展,单核处理器难以满足不断增长的计算需求,于是多核技术飞速发展并成为市场主流,任务调度问题是多核实时系统中一个很重要的问题,主流的多核实时系统调度方式主要分为两类:全局调度和划分调度,划分调度由于没有任务迁移引起的开销成为应用中的主流策略。但是现有的研究中针对带有资源访问的任务的划分算法对于任务之间的资源竞争开销计算的优化不足,关于任务资源相似度和负载均衡之间的决策效果较差,因此,设计
王易是晚清民国时期的词学家、词人,学术成果丰硕,影响较大。王易存世词作一百余首,所撰写的《词曲史》是民国时期重要的词学理论成果。然而,一直以来,研究者对于王易的关注度不够,尤其是对其词学理论、词作的考察尚显薄弱。基于此种情况,本论文将在考察王易家世、生平、交游、著述的基础上,着重对王易的词学思想、词体创作进行重点研究,进而判定王易的词学成就,考察王易在民国词史中的地位和影响,同时也为进一步、更全面
随着电力市场的发展,电力系统短期负荷预测将直接影响到电力市场的决策和电网的调度。对于电网而言,精准电力短期负荷预测可以制定有效的发电计划,避免不必要的电能浪费。对
物理方案参数不确定性量化是减小参数不确定性,提升气候系统模式模拟水平的重要方法,但是当前常用的进化算法等在复杂的气候系统模式上的应用需要极高的时间和计算成本,急需
随着网络技术的迅速发展和普及,网络交通监控、信用卡欺诈检测等领域产生了海量的数据流,这些数据流除具有快速海量的特点外,还含多个标记且标记数据大量缺失,标记会随着数据
在移动群智感知(Mobile Crowd Sensing,MCS)系统中,任务分配是系统提供高效可靠感知服务必不可少的过程之一。然而,在大量并发的任务场景中,参与者动态变化的状态与任务特征
研究背景及目的:大段骨缺损的治疗是骨科临床面临的难题,其核心问题是难以获取足量的高活性骨修复材料。选择性细胞滞留技术(selective cell retention,SCR)是贴近临床的组织工程骨构建策略,提高MSCs与材料的粘附效率是提高SCR构建的骨移植物成骨活性的关键。脱钙骨基质(demineralized bone matrix,DBM)是临床常用的SCR富集材料,可通过增加额外粘附位点
组合测试是一种通过检测软件系统因素中所有取值组合来查找故障的软件测试方法。软件的本身因素及其之间的相互作用都可能引发故障,随着技术的不断发展,软件复杂度的持续增加