基于梯度提升模型的负相关学习算法的研究与应用

被引量 : 0次 | 上传用户:angelcaoxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文的第一个工作是关于集成学习的研究。在机器学习领域,我们把具备从经验知识中学习能力的系统或者模型叫做学习器。一般来说训练出一个学习能力较弱的模型比训练出一个学习能力较强的模型所要耗费的代价小得多。集成学习是一类特殊的机器学习方法,其思想是不直接训练一个强学习器,而是通过组合一批弱学习器来得到一个学习能力强的集成学习器。集成学习算法性能好坏主要取决于两个因素:基学习器自身的性能好坏以及基学习器之间的差异性。目前常用的集成学习算法包括Bagging、Boosting等,在提升每个基学习器性能的同时,其实也是在以一种隐性的方式维持了基学习器之间的差异性,从而使得最终的集成学习器的性能达到最佳。负相关学习(Negative correlation learning,NCL)是一种常用于神经网络集成的集成学习算法,它是把基学习器之间的差异性作为一个显性的度量标准引入到神经网络的损失函数中去,进而影响神经网络的训练。通过调整影响因子可以权衡基神经网络之间的性能与多样性,以谋求获得一个性能最优的集成神经网络模型。我们借鉴NCL的思路,提出了一种新的集成学习算法。NCL最早提出是使用神经网络作为基学习器,而且目前有关NCL的研究大多数还是采用神经网络作为基学习模型,主要原因是神经网络具有一个显性的损失函数,而且训练神经网络的BP算法是一种采用梯度下降方法来最小化该损失函数的优化算法。我们比较了神经网络与另外一种常用的学习模型:梯度提升模型(gradient boosting machine, GBM)之间的相似性,提出可以用GBM代替神经网络来实践负相关学习的思想,设计出一种新的集成学习算法:GB-NCL。论文给出了GB-NCL算法的设计思路以及详细的步骤,并且通过实验比较了GB-NCL与原始基于神经网络的NCL算法以及梯度提升算法的分类性能。实验结果表明GB-NCL算法相比于这两种算法,拥有更好的性能。论文的第二个工作是基于GB-NCL算法设计并实现了一种新的用于解决高光谱遥感图像分类问题的分类算法:RCASSL。高光谱遥感图像分类的特点是标记样本少,未标记的样本多,而且人工标记遥感图像的像素点属于什么地物类别的成本比较大。前人的做法主要有两种:第一种,利用主动学习算法,从大量未标记样本中挑选出最值得标记的像素点让人类专家来标记其所属的地物类别。这种方法的特点是新增训练样本的质量高(类标号百分百正确),但是数量少。第二种,利用半监督学习算法,用已训练出来的分类器赋予一些未标记样本类标号,并将其视为真实可用的样本,添加到训练集中,我们称之为“伪标记”样本。这类算法可以大大提高训练样本数量但是无法保证新增的伪标记样本的类标号一定正确。数量多,质量不好,这是半监督学习算法的特点。我们提出不妨将主动学习与半监督学习结合,并且引入一套“伪”标记样本验证的机制,对通过半监督学习引入进来的伪标记样本进行校验,将不合格的伪标记样本剔除出去,从而既能够获得足够多的训练样本,又能够保证训练样本集的质量。拥有了更大更完备的训练集,训练出来的分类器也就自然会有更佳的性能。根据这种想法我们在论文中针对高光谱遥感分类设计了RCASSL算法。RCASSL在训练分类器的时候不仅采用带标记的样本,而且使用半监督学习引入的伪标记样本。我们采用GB-NCL算法校验半监督学习方法引入的伪标记样本,提升伪标记样本集的质量。我们在高光谱遥感数数据集上对比了RCASSL算法、MCLU-ECBD算法以及RCASSL-NoPLV算法。MCLU-ECBD算法是一种常用的主动学习算法。RCASSL-NoPLV算法是去除掉伪标记样验证环节的RCASSL算法。实验的结果表明,在引入相同多的标记样本情况下,RCASSL算法的分类性能最强。RCASSL与MCLU-ECBD的对比结果说明结合半监督学习可以提升主动学习算法的性能,RCASSL与RCASSL-NoPLV的对比结果说明我们采用GB-NCL算法实现的伪标记验证机制的有效性。
其他文献
人们慢慢了适应21世纪信息化时代的生活节奏,手机用户和网络用户数量不断增加,微博、微信等的出现和发展使传统新闻编辑模式必须走一条创新路、强化创新意识且拓宽新闻编辑思
<正>有的人外出后,会出现水土不服的现象,在此建议您到了外地,第一道菜先食用当地产的豆腐,在一定程度上可以预防水土不服。水土不服是旅行中最常见的病症,当一个人从长期生
期刊
煤矿机电设备的正常使用对煤矿安全生产具有重要作用。本文主要分析煤矿机电事故的原因,并提出预防煤矿机电事故的技术措施,以期给相关部门改进工作提供一些有益借鉴。
<正>一、理论框架——劳动法与民法的关系在现代法的体系中,民法与劳动法是彼此独立的法律部门,虽然《劳动合同法更加强调对劳动关系的规制,当涉及职位工作量、工作时间、劳
不论在什么年代,单位都是将利益的最大化当成永远的发展目标。提升效益是单位运作工作的重点。然而效益的获取必须经由财会系统展现出来,单位同时经由财会管控等活动的开展实
本文从产业结构现状与趋势两个角度对中国国内产业结构与国外产业结构的相同指标予以比较。结论显示中国产业结构与国外产业结构有一定差距,但有些指标正在接近国际水平,这将有
倒爆是车用柴油机使用中常见的一种不正常现象。本文介绍了一种尚在研制中的能防止柴油机倒爆的喷油泵。
<正>所谓政商关系,广义上是政治与经济的关系,中观层面可以理解为政府与企业的关系,狭义上则是官员与商人的关系。认识和把握好政商关系的内在规律,构建和引领好"要相敬如宾,
<正>铸型标本直观、可全真模拟正常或异常管腔结构形态、走行等,是医学学科的一种教学材料和佐证。所以,在影像医学等相关学科飞速发展的同时,利用铸型标本来证实影像学的相
员工建言行为作为一种员工参与管理的方式,能够帮助企业改善工作流程、提高决策质量,受到了企业管理者的广泛关注。但是,调查研究发现国内企业中员工建言数量偏少,为鼓励建言