面向深度半监督学习的伪标签生成算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sleepyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度学习广泛用于各领域并取得了优异表现,但是这往往需要大量标注数据的支持。大量标注数据的获取意味着高昂的成本与苛刻的应用条件。因此,随着深度学习的发展,如何在实际场景下突破数据限制,成为目前重要的研究目标,而半监督学习正是其中一大研究方向,它通过利用大量的未标记数据辅助少量的标记数据进行学习,很好地减轻了深度学习的数据需求压力。伪标签生成方法是当前半监督学习的重要组成部分。所生成的伪标签质量的优劣会很大程度影响半监督学习的最终效果。而本文正是聚焦半监督学习中的伪标签生成方法,针对一般场景设置下的半监督学习以及具有极少标签量情况下的半监督学习场景,提出优质伪标签的生成方法。首先,针对一般半监督学习问题,本文提出了基于最优传输理论的伪标签生成方法。当前的半监督学习的伪标签生成方法多仅考虑模型输出结果且多忽略生成标签的类别分布问题,因此本文考虑在模型输出结果的基础上,引入有标记数据进行辅助并增加类别均衡约束。本文基于最优传输理论在上述约束条件下的标签生成问题统一成一个线性优化问题,通过求解该优化问题得到最终的伪标签。在求解该优化问题过程中,本文引入Sinkhorn-Knopp算法进行近似快速求解,避免了不可计算问题。当然,本文也给出了基于该标签生成方法的完整半监督学习过程。除此之外,本文根据半监督数据设置,在CIFAR-10、SVHN等经典的图像分类数据集上进行实验,验证了该方法的有效性。其次,针对稀疏半监督学习问题,即半监督学习数据中有标记数据量极少的情况,本文提出了基于泊松正则的伪标签生成方法。为解决在该极端情况下,当前大部分半监督学习算法的训练效果会大幅下降的问题,首先,本文在有限标签数据量的情况下,更加充分地挖掘已有信息,提出在利用模型输出结果的基础上,引入语义信息引导伪标签生成。在分析了利用拉普拉斯正则进行语义信息引入在标签量过少情况下的问题后,引入泊松正则项进行替代,结合泊松正则与模型输出结果约束得到了适应极少标签场景的半监督学习优化式。最后,本文使用经典的图像分类数据集并随机挑选极少数据作为有标记数据构成了模型训练数据集,在对比当前其他半监督方法的情况下,有效验证了本文所提出的基于泊松正则的标签生成方法的有效性。
其他文献
近年来,以互联网为媒介的电子媒体迅速发展,网络新闻作为基础应用之一正在影响越来越多的网民,拥有巨大的市场前景。然而在感受着网络新闻带来的快捷化信息便利的同时,网络新闻文章数目庞大、文章质量参差不齐、阅读过程耗时延长等弊端也日益显现。在这种时代背景下,自动文本摘要技术逐渐受到关注:文摘结果可推送给用户,吸引用户点击提升用户阅读效率,进而提高用户对产品的依赖性;作为中间结果代替原文本参与信息检索过程,
学位
心血管疾病是近年来不容忽视的公共卫生问题,随着社会与经济的高速发展,心血管疾病的患病率在逐渐上升。冠心病是患病率最高的心血管疾病,而冠脉CT造影技术则是有效、非创伤性的冠脉相关疾病评估与诊断方式。实效性强的冠心病计算机辅助诊断方法是智慧医疗在心血管临床场景应用中的关键技术。然而受限于冠脉狭窄的复杂性和不确定性,基于冠脉CT造影的自动冠脉狭窄分析依然是一项具有挑战性的任务。本文设计了局部Transf
学位
学位
随着强化学习的迅速发展。其他行业的研究人员也不断的将强化学习思想应用到自己的研究领域中。随着以强化学习为核心的应用不断增多,强化学习存在的问题也逐渐的暴露出来。其中最主要的一个问题就是强化学习的效率问题,强化学习在完成运动规划任务的过程中,需要与环境进行大量的互动,如果没有一个好的探索策略,会大大延长智能体学习的时间。除此之外,强化学习需要使用奖励函数来激励学习,而在实际应用中,外界环境往往是复杂
学位
随着人工智能时代的到来,机器学习应用的领域越来越广泛。伴随着数据处在爆炸的时代,机器学习在训练数据规模和计算等问题上正面临诸多严峻的挑战。比如,现有的数据管理技术无法直接为机器学习数据提供智能的存储,现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,目前尚无高效的连接顺序选择算法等。为了推动数据库内机器学习的发展,使智能数据管理技术赋能机器学习,本文研究了支撑数据库内机器学习的关键智能
学位
随着互联网的蓬勃发展,视频资源日渐丰富,公共场所的监控摄像头越来越多,网络视频的流量飞速增长,信息传播速度进一步加快,导致视频信息的安全性问题逐渐暴露出来,因此基于视频的暴力行为识别越来越受到关注,而从视频中自动识别犯罪场景变得至关重要且具有挑战性。目前,在暴力行为识别任务上,主流的方法是基于深度学习的,但普遍会存在两个问题,(1)目前很多深度学习网络模型都是基于C3D网络结构作为骨干网络进行识别
学位
改革开放以来,我国经济增长突飞猛进,各项事业取得了显著成就,但是消耗资源、消耗人力的粗放式发展也带来许多弊端,我国人口、资源、环境的矛盾越来越突出,可持续发展的压力越来越大,产业结构不合理、资源浪费严重,因此必须转变依托要素驱动的经济发展方式,走创新驱动的新路,科技创新才是经济发展的不竭动力。从国内看,推进科技创新是形势所迫,但从国际范围看,创新驱动已是大势所趋。近年来,我国也在不断鼓励大众创业、
学位
随着软件产品的广泛应用,软件缺陷也随之增多,其中包含的安全漏洞如果不被尽早修复,会被恶意攻击者利用攻击系统造成安全风险,因此出现了利用机器学习的方法来帮助安全专家在缺陷追踪管理系统中检测安全缺陷报告。但是近年来,随着对抗样本概念的提出,在原有数据上添加微小扰动便能降低原始分类模型的准确率,暴露了机器学习模型本身存在的脆弱性。针对以上问题,本文对安全缺陷报告检测模型进行了对抗攻击方法的研究,具体工作
学位
短视频时代,戏曲等传统文化的传承问题值得关注。短视频传播是传播秩序重建的重要环节,有助于中华优秀传统文化内核深植于人类交往的精神世界。2018年,戏曲与短视频的联姻实现了传统文化现代化、数字化的传承与传播。在短视频强大传播能力的加持之下,戏曲逐渐表现出新的生命力。豫剧作为河南地区传统文化的代表,作为全国最大的地方戏,其在与短视频结合的过程中,展现出了超前的时代敏感性和接纳能力。相较于传统的豫剧传播
学位
在小天体探测任务过程中,小天体的三维模型对探测器的着陆、导航等任务起到至关重要的作用。在探测器处于接近阶段且距离小天体几十千米时,通过窄视角相机拍摄的观测图像只包含小天体轮廓信息,无法得到小天体表面清晰的纹理细节。本文提出了一种基于轮廓的小天体三维建模方法,能够生成低分辨率的小天体三维模型,可为后续的小天体高精度建模任务和着陆导航任务提供初值。本文主要从以下两个方面进行展开研究,一是在不考虑相机外
学位