弱监督场景下可重用机器学习技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:frankcody
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习技术,尤其是深度学习技术,在很多实际应用场景中发挥了巨大的作用。但是传统机器学习在训练和应用的过程中需要满足以下特性:训练数据量大、数据分布恒定和样本标记充分。然而实际的应用场景中可能会出现一些特殊的情况:训练数据量少、数据分布变化和样本标记不完全。这些场景导致机器学习模型训练和应用过程中缺乏足够有效的监督信息(Supervision),给机器学习技术的发展带来了巨大的挑战。这些场景可以被统一称为弱监督场景(Weakly Supervised Scenes)。弱监督场景下机器学习技术的主要研究内容是在数量有限、非恒定、不完全的监督信息下设计高效实用的机器学习技术,吸引了研究者的广泛关注。经过大量的调研分析和实验研究,本文认为弱监督场景问题的有效解决方案之一是研究可重用(Reusable)的机器学习技术。具体地,本文针对弱监督场景下的训练数据量少、数据分布变化和样本标记不完全问题,从可重用角度出发提出了一系列适用于弱监督场景的机器学习方法:1.适于弱监督场景的半监督小样本学习技术。对于机器学习和视觉识别任务来说,在训练数据有限的情况下训练模型是一项非常重要的任务。针对训练数据量少这一弱监督场景,本文综合小样本学习技术(Few Shot Learning)和半监督学习技术(Semi-Supervised Learning)提供相应的解决方案。具体地,小样本学习技术从观察到的包含已有类别的小样本任务中学习一种元层面的归纳偏好,并且期望元模型可以在包含未见到的类别的小样本任务上表现良好。在传统的半监督学习任务中,无标记样本可以用来对模型空间进行平滑处理。类似地,本文在小样本学习任务中提出了“无监督任务”的概念来平滑元模型空间,提出的方法为TACO。学习到的光滑元模型可以增强包含未见类别小样本任务上的泛化性。2.适于弱监督场景的可重用性度量技术。传统的机器学习假设训练数据和测试数据是同分布的,然而复杂多变的现实场景会导致测试数据分布偏移的问题。针对数据分布变化这一弱监督场景,本文从迁移学习技术(Transfer Learning)角度进行研究并提供相应的解决方案。目前很少有确定性的量化方法来评估领域之间的可重用性。本文提出了一种新的基于元迁移特征来度量重用性的方法Meta Trans。Meta Trans通过历史迁移经验训练一个元迁移模型,这个模型可以用来预测迁移性能提升的程度,并且训练过程同时考虑了任务间的可迁移性和目标域上的判别性。同时,本文提出了一种多任务学习的框架,可以同时从历史迁移经验中学习通用的和任务具体的经验。3.适于弱监督场景的深度多示例高效超参数重用技术。传统机器学习需要充分的标记信息,然而现实场景下数据标注需要耗费大量成本。针对样本标记不完全这一弱监督场景下的难点,本文利用多示例学习技术(Multiple Instance Learning)提供相应的解决方案。经典的多示例学习技术关注的核心问题是挖掘出重要示例。然而,由于选择过程的不可微性,这些方法很难适用到深度学习。本文主要关注深度网络中的重要示例检测问题,基于硬选择(Hard Selection)提出了一种可以端到端挖掘重要示例的深度多示例框架,称为深度多示例选择(DMIS)。同时,本文提出了一种方差标准化的方法使得调整超参数的过程更加容易,可以有效减少弱监督场景下超参数搜寻过程中的资源消耗。
其他文献
学位
近年来,微流控技术由于其样品消耗少、处理量高、混合时间短、消除交叉污染等优点引起了国内外学者的广泛关注,在化学材料合成、细胞工程和生物检测等诸多领域中均获得了快速的发展。微液滴的产生是微流控的基本操作之一,对其相关机理研究具有十分重要的意义。由于目前在微通道压力研究方向上所做工作较少,本文内容可以对现阶段的研究作补充,并为之后微通道的相关研究提供参考。本文运用实验手段在低毛细管数下(小于0.01)
学位
学位
太赫兹(terahertz,THz)波,是指频率分布在0.1 THz到10 THz之间的电磁波,由于其在电磁波频谱上的特殊位置而具有很大的理论研究价值以及实际应用前景。长久以来,由于缺少稳定的连续波太赫兹源,以及缺少有效的太赫兹波检测技术,太赫兹波的研究与应用一直处于一个缓慢的境地,一度被人们称为“太赫兹空白”,目前国内外已有较快的发展。约瑟夫森结作为超导电子学的基本元器件,由两个弱耦合的超导体构
学位
学位
学位
双水杨酸酯是由2个水杨酸分子形成的酯类化合物,具有抗炎特性。临床实验证明双水杨酸酯对改善代谢紊乱具有有益作用,但是双水杨酸酯调控、改善机体代谢过程的机理不清。AMPK是新陈代谢和线粒体稳态的守护者,能够在细胞水平上监测能量平衡。能量平衡在人类疾病(如T2D,癌症和炎症性疾病)的发生发展中具有核心作用。本论文旨在研究双水杨酸酯与AMPK通路激活的关系,探讨其在治疗代谢性疾病中的作用机制。我们使用C5
海洋约占地球表面积的71%,在地球物质和能量循环中起着至关重要的作用。随着“挑战者”号(1872-1876)的第一次全球性科学考察以及大洋钻探计划(Ocean Drilling Program,ODP)和综合大洋钻探计划(Integrated Ocean Drilling Program,IODP)的持续实施,已证明深海及海底沉积物环境拥有极其丰富的生物多样性并在驱动元素地球化学循环中发挥重要作用