深度森林算法优化及应用的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wuyonghong1974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络在视觉和音频的分类任务上取得了巨大成功,引起深度学习技术的再度崛起。尽管深度神经网络性能强劲,但它仍存在一些瓶颈,例如需要大量的训练样本、性能依赖调参、结构需要预设置、理论分析困难、对硬件配置要求高。从数据获取的角度来看,即使在大数据时代,收集完全标记的样本也是非常昂贵和耗时的,甚至需要领域专家对样本进行人工标注。鉴于深度学习技术的强大优势,克服深度神经网络的上述缺陷,探索非神经网络的深度学习技术在中小型数据集上的应用是很有意义的。2017年,深度森林被提出作为深度神经网络的可替代品。该模型是一个多层的级联结构,每一层是一组独立森林(单元)的集成。和深度神经网络相比,深度森林的超参数很少、适用于中小型的数据集、模型的复杂度可以自适应确定、算法的可解释性更强。深度森林和深度神经网络在性能上具有很高的可比性,并且训练时间远少于后者。深度森林不仅是一个分类算法,也可以被视为一个深度学习框架,通过赋予其单元不同的功能,把它应用在不同的分类场景上。本文以深度森林为研究对象,从算法优化和应用的角度出发,提出了四种改进模型,分别是基于集成剪枝优化的深度森林、应用于样本不平衡问题的深度森林、应用于偏标签问题的深度森林、应用于联合用药预测的深度森林。主要的研究工作概括如下:(1)深度森林的每一层是大量决策树集成的集成,其中性能不好的决策树会给模型的预测带来负面影响、性能相似的决策树会给模型带来冗余。为了解决这个问题,本研究提出一个基于特征向量化和量子游走的集成剪枝方法用于优化深度森林的单元,最终实现了一个模型精简、性能提升的改进版深度森林。(2)在不平衡学习中,用倾斜数据训练深度神经网络会造成两个明显的缺陷,一是分类结果倾向多数类,二是样本不足的时候容易造成过拟合,尤其是在少数类样本稀少的情况下更不利于建模。本研究为深度森林设计了一个全新的单元,通过把合成上采样技术融入到提升算法的迭代过程,更加关注处于分类边界的少数类样本,进而提高整体模型对少数类的识别能力。(3)偏标签学习是半监督学习的一个分支,一个偏标签样本对应多个候选标签,其中只有一个是真实标签。偏标签学习的任务就是从这种训练数据中学习一个分类器,从而对未知样本的类别进行精准预测。由于分类器在学习过程中不能直接获得训练样本的真实标签,进一步加大了分类的难度。本研究使用一个改良的纠错输出编码算法作为深度森林的单元,把一个半监督学习问题转化为多个监督学习问题的组合;同时设计了一种具有不确定性的模型评估方法用于满足半监督学习情况下深度森林级联的增长;最后把改良的单元嵌入重构后的级联框架,实现了一个改进的深度森林处理偏标签样本的分类问题。(4)联合用药疗法被广泛地应用在癌症治疗中,多种药物结合使用可以同时靶向癌细胞中的多个分子或多种疾病,有效地降低肿瘤对单一药物的耐药性。然而,为特定病症筛选所有可能的药物组合是不切实际的,因为随着药物数量的增加,将导致需要搜索的药物组合数量发生指数级激增。针对联合用药样本维度高、特征冗余度大、数据不平衡等特点,本研究设计了一种基于数据复杂度降维的极限树森林和一种基于重采样的随机森林作为深度森林的单元。所提的模型可以很好地解决联合用药预测的分类难点。上述四个模型都是基于深度森林算法的改进,在各自的应用领域中,对比当前最先进的算法,在性能上均有较大提升,模型的可解释性也更加直观,对探索非神经网络的深度学习技术具有一定的指导意义。
其他文献
绿色发展理念要求要把握好绿色与发展之间的关系,其中发展是目标,绿色则是实现发展的途径与模式。考虑到中国当前所面临的气候与环境挑战,绿色发展模式是推进经济、环境和社会可持续的重要选择。基于此背景,本文主要围绕中国有色金属工业的绿色发展来展开讨论与分析。如何推进与实现有色金属工业的绿色发展是本文研究的重点问题。本文的主要研究内容包括:(1)基于DEA-Malmquist分析框架,本文从全要素能源绩效、
学位
研究民办高校内部治理结构问题,从最根本上讲是为了激发教师的积极性和创造性,使教师的教学、科研以及社会服务等工作都处于一个高效的状态。那么,如何来评判民办高校治理结构是否合理有效,这就需要一个合适的角度。从绩效评价角度来研究无疑是一个重要的视角。当前,绝大多数民办高校都开展了校内绩效评价,但绩效评价的效果却是令人担忧。一般认为,如果绩效评价促进教师积极性发挥和办学目标的实现,那么效果就是好的,反之亦
学位
介绍了某石油化工有限公司乙烯装置裂解气压缩机透平单试技术,内容包括:透平单试目的、透平单试前应具备的条件、透平单试前辅助系统投用步骤等;对透平的机械性能例如透平现场跳车、透平远程跳车、透平电子超速、透平独立超速、透平TTV阀行程等进行测试;根据施工现场工程建设进度及外部制约因素提出了具体的透平单试方案,并介绍了在实际单试过程中遇到的异常情况及相应的处理方法。
期刊
随着经济全球化不断加深和科技革命的不断推进,保修服务呈现新的特点。一方面,专业化的第三方维修服务企业兴起,成为维修服务供应链的重要组成;另一方面,高科技含量的产品要求高技术水平的维修。因此,第三方维修服务提供商(MSP)成为品牌商(BO)外包维修服务的潜在选择,是否获得技术使用权决定了维修企业是否有能力维修特定产品。在供应链视角下,研究保修服务中的技术授权策略具有重要的理论意义和现实意义。本文分析
学位
大豆的品种直接关系到大豆制品的质量和出油率,目前主要采用对大豆中蛋白质及脂肪等含量的检测来实现对大豆品种的鉴别。这种鉴别方式破坏了大豆本质,并且存在检测费用高、效率低、精度差的问题。本文基于高光谱成像技术和机器学习理论,研究了大豆品种无损快速鉴别方法。采集并建立了4个品种(每个品种200粒,共计800粒)大豆的高光谱原始图像及光谱数据集。研究了利用归一化、均值中心化、小波变换、S-G平滑滤波以及矢
期刊
随着复杂的科学技术和社会问题越来越依靠多门学科的联合攻关,培养跨学科人才对创造新知识与提升国家核心竞争力具有愈加重要的战略意义。自20世纪末,我国高校纷纷开始尝试推进跨学科博士生培养,但进展并不顺利。目前我国跨学科博士生培养面临着诸多问题和困境,例如顶层设计与跨学科政策支持的不足、博士生受制于传统学科结构的藩篱以及导生和生生之间的跨学科交流较少等。与我国相似的是,英国跨学科博士生教育起步也较晚,然
学位
本文首先对三大产业劳动收入份额数据进行核算,并做描述性分析。接着讨论产业劳动收入份额影响因素及其与总体之间的关系。再次,以此为基础先分析劳动收入份额对经济增长的影响,随后进一步讨论劳动收入份额对收入差距的影响。最后从社会整体的角度,设计综合性指标完成对其的评价,同时也就劳动收入份额与其变化关系展开探讨。对三大产业劳动收入份额考察结果显示:(1)多数省份总体劳动收入份额表现出近似U型变化趋势,二、三
学位
<正>众多学者、科学家曾经做过预测,21世纪将是生命科学大发展的时代。进入21世纪以来,生命科学技术的确有了比较大的发展,对人体基因的检测、精准测序就是其中成果之一。这一技术的进步,使得医生可以提前发现人体中的一些早期癌症,并且用于临床研究。基因检测技术的进步让科学家和相关研究者更了解我们的身体和一些疾病的发病原因,例如困扰许多人的拖延症。最近,德国科学家就发现了我们"患上"拖延症的原因——拖延基
期刊
孟加拉国是一个经济高速增长、拥有经济增长潜力的人口大国。孟加拉国作为发展中国家,最近经济规模大幅上升,是其经济增长潜力的表现之一。1990年以前,孟加拉国经济增长的来源主要为发达国家的外国援助以及贷款。1990年代早期,孟加拉国政府开始放松愿意到孟加拉国投资的国家。在孟加拉国国家经济转型期间,其制造业凭借廉价的劳动力与低生产成本吸引投资,发挥了关键作用。孟加拉国FDI的大门借此敞开,并创造了数以百
学位
2013年11月政府层面正式提出“发展普惠金融,鼓励金融创新,丰富金融市场层次和产品”同时伴随着市场中各式各样的普惠金融公司、民间借贷、互联网金融如雨后春笋般出现。大力发展普惠金融已是时之所向、大势所趋。银行、消费金融公司、电商平台等纷纷抢滩消费金融,人们的消费、借贷习惯正随之不断改变。但受限于居民消费习惯及技术手段,传统的贷款营销手段已不能满足客户的借款需求,整个行业面临着巨大的机遇与挑战。如何
学位