基于选择性集成学习的迁移学习算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:woodcock9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习是基于统计学的机器学习,其中一个基本的假设条件就是训练和测试数据来自相同的特征空间并且具有相同的概率分布。然而,在很多实际应用中,这种假设往往并不成立,导致传统的机器学习技术对这种问题的解决失去了效力。近年来,迁移学习(transfer learning)作为一种新的学习典范被用于处理这种挑战。迁移学习最大的特点就是利用从旧的源领域学习到的知识帮助一个新的目标领域完成学习任务,使得传统的从零开始的学习变为可以积累的学习。目前学者们已经提出很多方法用于解决迁移学习文本分类问题,比如利用支持向量机、人工神经网络等等。尽管研究表明这些方法取得了比较好的分类性能,但是单一模型用于解决迁移学习问题存在着一定的局限性,因此有学者提出使用集成学习解决该问题。然而,集成学习需要多个基模型,这就增加了时间和空间复杂性,同时泛化能力差的基模型也会影响最终的分类效果。在原始集成系统中选择一个子集用于构建集成系统可以很好的解决这个问题,该方法被称为集成剪枝,也可以称为选择性集成(selective ensemble)。选择性集成技术可以有效解决集成学习中存在的高计算复杂度的缺点。本文提出了一种新颖的基于知识杠杆的RankRE-TL算法用于解决迁移学习文本分类问题。该算法将基于知识杠杆的迁移学习机制同基于减小错误的排序准则RankRE(Rank-based Reduce Error evaluation measure)结合完成迁移任务。RankRE准则的设计原理是选择一个候选分类器,使得其并入到当前子集成系统后形成新的子集成系统的泛化误差最小。RankRE-TL算法针对源领域数据和目标领域已标注数据分布存在一定相似性,但两域之间已标注数据数量严重失衡的问题,提出了一种动态数据重组的方法来解决该问题。通过将大量源数据利用Bootstrap技术按不同比例选取多个训练子集分别与少量的目标域训练数据结合得到多个重构的训练集,然后分别训练分类器得到原始集成系统。另外,与传统的选择性集成技术构建验证集的方式不同,RankRE-TL设计了一种新的方法来构造剪枝集。然而基于RankRE评估准则的选择性集成算法是一种贪婪的算法,容易限于局部最优解。为解决该问题,同时为了更有效地迁移源域知识,本文提出了一种融合TrSVM与选择性集成方法GASEN的迁移算法TrGASVM。其中,TrSVM首先在基于动态数据集重组的基础上训练多个源域模型,得到多个支持向量集(SV)。对每个SV集,按照其与目标领域训练数据的相似度分配权重,并和目标域训练数据组合得到新的训练集,最后在各训练集上分别训练模型得到迁移SVM集成系统。GASEN算法是基于组合优化的启发式算法,利用遗传算法实现对集成中模型的选择,不仅具有遗传算法的优点,也可以避免贪婪集成剪枝所具有的局部最优问题。TrGASVM融合TrSVM和GASEN用于迁移学习,这样不仅具有TrSVM算法的优点,也结合了GASEN的优势,因此能够更有效的对源域知识进行迁移。
其他文献
人口老龄化的日益加深,促使养老服务需求迅猛扩张,机构养老已成为老人养老的主要方式之一。我国近年来一直致力于提升养老机构的服务质量,但是由于缺少养老机构统一的服务质
风冷式热泵机组是常见的中小型空调系统之一,其能效比略低于水冷机组,当环境温度较高时,风冷机组会出现电耗功增加、制冷量以及制冷性能系数降低等问题。本文在焓差室内对比
文章主要研究了在外界周期信号驱动下及双耦合下的非线性耦合振子全同步行为。对于经典的Rossler,Lorenz和HR neuron混沌振子构成的系统,分析了在以上两种情况下系统全同步行
目的:通过观察抗血管生成药物安罗替尼(Anlotnib)对血管内皮细胞(Vasscular endothelial cells,VECs)介导的肿瘤免疫逃逸的影响,揭示血管内皮细胞表达的程序性死亡受体1(Program death receptor 1,PD-L1)蛋白在抗血管生成治疗中的作用和影响。初步探讨安罗替尼对于血管内皮细胞表面PD-L1蛋白表达的影响、及其对肿瘤内免疫细胞分布的影响。方法
近年来,随着移动互联网的飞速发展和物联网技术的日趋成熟,各种无线网络和无线终端设备的使用越来越普及,一系列的无线通信新技术和新标准也应运而生。各芯片厂商和设备制造
随着图像处理技术的发展,人们对高分辨率图像的需求日益增大。二值图像,即拍摄后灰度集中在两个峰值区域的图像,是图像中的一个重要组成部分,在实际中存在着广泛的应用,比如
纳米科技是当今科学技术发展的重要推动力量,极大的促进了物理、化学、医学、生物以及材料等众多领域的研究与发展。光波具有穿透性好、非接触、高灵敏以及操作灵活等特点,是
能源的利用与人类生产和生活息息相关,对经济社会发展也起到推动作用。近年来,随着能源危机影响不断加剧以及应用煤炭、石油等不可再生能源对环境破坏的问题越来越突出。能源利用逐渐向着可再生能源转变。可再生能源的利用能够减少环境污染,有利于环境保护。可再生能源中,生物质成型燃料的应用,不仅可以对农林废弃物进行利用,变废为宝,还能够产生可观的经济和社会效益。目前,由于成型设备存在的问题以及成型燃料质量参差不齐
随着软件项目规模的扩大,高效复用代码成为软件开发者们的共识,其中使用应用程序编程接口(Application Programming Interface,即API)是代码复用的一种重要手段。通过接口文
干扰对齐作为一种新型的干扰管理技术,以其能获得远优于传统通信技术的网络自由度,大大提升无线通信系统的网络容量的性能优势而获得学术界的广泛关注和深入研究。目前大部分