深度学习中的无标签目标域自适应问题研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yongsheng0550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十多年来,基于深度学习的智能信号与信息处理技术高速发展,人类提前进入了智能时代。在智能信息处理技术中,信息分类是最基本也是最常用的应用之一。尽管在众多标准化数据集上,深度学习的分类模型取得了媲美人工分类的准确率,但许多实际场景与模型训练时的场景有着明显差异,尤其许多实际场景的数据无法预先获得标签信息,使得经典深度学习模型的泛化能力面临严峻的挑战。域自适应理论利用应用领域的数据来实现自适应的模型调整,有效克服了深度学习模型依赖于训练数据分布的缺陷,同时满足了应用领域的复杂性和多变性需求,因而成为当前深度学习的研究热点之一。本论文从无标签目标域的自适应问题出发,面向深度学习的两个热点应用领域—图像分类和新药筛选,分析深度学习模型在泛化性方面的不足。在此基础上,通过研究度量学习、伪边缘以及筛选回归等新的深度学习理论、方法和技术手段,提升模型在复杂和多变环境下的泛化性能。本论文的主要贡献和创新工作如下:(1).针对图像分类中易误分类的问题,分析了传统域自适应(Domain Adaptation:DA)方法在源域和目标域特征分布对齐时,源域与目标域图像分类误差之间的关系。本文结合度量学习准则,通过在源域引入具有动态边缘的三元组损失函数,进一步控制域对齐后目标域图像分类的误差,并据此提出新的DA算法:度量学习协助的域自适应算法MLA-DA(MetricLearning-Assisted Domain Adaptation:MLA-DA)。该算法在源域图像的分类学习中有针对性地增加分类边距,使得域对齐后分类边界相对目标域图像更加宽裕。理论和实验结果表明与经典域对齐算法相比,MLA-DA算法在目标域图像分类上具有更好的鲁棒性和泛化性能。(2).针对图像分类中通用域自适应(Universal Domain Adaptation:UDA)问题,分析了源域图像分类器在目标域图像分类的概率分布,并探索该分布与公共类别集识别的关系。提出了一种利用伪边缘(Pseudo-Margin:PM)的通用域自适应方法,实现公共类别集的精准识别。此外,面向实际应用中目标域图像的类别集完全未知的场景,提出了一种表征源域图像类别在目标域图像中出现概率的模型,并构造了伪边缘向量。然后通过基于伪边缘向量的类级加权对抗训练,尽可能地将公共类别集图像样本的特征分布对齐。实验结果表明,基于概率模型和伪边缘的图像通用域自适应理论,能够准确地识别公共类别集的图像,并取得较好的未知目标域图像分类性能。(3).为解决多源图像分类中多样性和差异性的矛盾,提出了联合域对齐的技术,同时对齐多个不同的源域图像之间、源域图像与目标域图像之间的公共类别集样本分布,并开创性地提出通用多源域自适应(Universal Multi-Sources Domain Adaptation:UMDA)理论。在此基础上,设计了一种通用多源自适应网络(Universal Multi-Sources Adaptation Network:UMAN),进一步提高通用图像分类的性能。UMAN以基于伪边缘的通用图像分类的研究为基础,提出联合的多源域图像分类器和对抗损失,有效消除各域样本分布之间的差异,并显著降低系统的复杂度。理论和实验结果表明,采用联合的多源域图像分类器和联合的域对齐损失函数,能够提升深度学习模型的泛化性和鲁棒性,特别是在源域数量多、差异大的复杂场景下。(4).上述研究探索类别关系的连续表达对无标签目标域自适应提供的参考,本文进一步将离散的分类问题一般化为连续的回归问题,并应用于药物虚拟筛选(Virtual Screening:VS)上,进一步验证无标签目标域自适应对基于深度学习的回归模型泛化性能的提升潜力。首先,针对已测定与未测定的分子数据之间的分布差异问题,根据实际待筛选数据库的先验分布,构建新的分子虚拟筛选的标准数据集,用以综合地评价深度学习模型在实际虚拟筛选中的性能。在此基础上提出一个新的实际虚拟筛选(Real Virtual Screening:Real VS)模型。该模型从其他相关靶标的数据中迁移丰富的源域信息,利用域自适应理论适配迁移信息,以减少训练和测试数据分布不一致对模型泛化性能的影响,从而提升模型在目标靶标上的分类筛选能力。此外,本文采用图注意力机制研究了Real VS模型分类筛选结果的可解释性。实验结果表明,与常用的深度学习方法相比,所提出的Real VS模型明显提升了的分类筛选性能,且具有较强的可扩展性和鲁棒性。(5).上述研究发现图像分类中的小样本集问题在药物虚拟筛选中更为明显,该问题导致深度学习模型容易过拟合于训练数据,从而难以泛化到无标签的目标域上。针对此问题,本文提出一种新的基于虚拟对抗训练的特征子空间增强(Adversarial Feature Subspace Enhancement:AFSE)技术,以进一步增强深度学习模型在小样本集条件下的泛化性能。具体地,通过特征子空间中的虚拟对抗训练,使得模型在取得更高的特征平滑度的同时,保留对活性值悬崖的表征能力,从而提高深度学习模型在小样本集目标任务上的泛化性。实验结果表明,AFSE方法可运用在多种常用图神经网络上,在大量系统构建的药物虚拟筛选数据集中,取得了多项性能的提高,包括命中高活性分子的比例、预测分子活性的精度,和按活性排序分子的匹配度。论文最后对全文进行了总结,并对基于深度学习的无标签目标域自适应理论未来的研究方向进行了展望。
其他文献
劳动确证人的类本质,其展现的属人性即劳动幸福的属性。劳动属人性的提升即劳动幸福程度的提升。这种提升的动力不是来自外部,而是来自劳动自身所包含的二重性矛盾运动。劳动二重性不仅是理解马克思政治经济学的枢纽,也是理解马克思资本主义批判理论的密匙,因而具有丰富的哲学意蕴。在马克思对黑格尔劳动理论的批判中隐藏着劳动二重性思想的出场路径,异化劳动批判理论则构成其主体内容。哲学意义上的劳动二重性是指劳动积极性和
通过对服装设计专业进行课程思政改革与探索,将美育观念厚植于人才培养理念与专业建设当中,对人才培养具有一定指南作用。文章将在研究“大美育”趋势的基础上,深入挖掘服装设计专业美育功能,从思想、目标、意义等角度解读服装设计课程的美育价值取向,致力构建服装设计专业课程思政教学体系,对解决当今专业教学存在的“专业思政两张皮”“以美育人浮于表面”等问题具有借鉴意义。
美育和思想政治教育都是立德树人不可或缺的重要组成部分,二者虽各有侧重但总体目标一致,尤其是在学生的价值观念培养、心灵塑造等方面发挥着非常重要的作用。高等艺术院校既有美育融入思想政治教育的优势,也有思想政治教育融入美育的必要,探索推动美育与思想政治教育相互融合,对于整合高等艺术院校育人资源和学科优势,优化育人体制机制和提升人才培养质量,具有积极意义和现实价值。针对当前高等艺术院校思想政治教育中面临的
近年来,文本分类技术在机器学习和深度学习理论的支撑下进步斐然,各类深度神经网络分类模型在基于多种公开数据集的实验中展示出了可媲美人类的分类效果。遗憾的是,该技术在给我们带来极大便捷的同时也暴露出安全隐患。研究表明,当前提出的许多文本分类模型严重依赖文本的统计分布规律,并不能够很好地反映文本语义层次的高级特征。这导致基于深度学习的文本分类系统可能会面临对抗风险,即攻击者可通过对文本的关键字、词和句等
方面词情感三元组抽取旨在从评论文本中识别方面词、评论观点词及情感极性。针对现有研究容易忽略三元组中部分实体与其情感极性在标记空间中的关联关系,并且较易出现三元组边界识别错误的问题,提出一种基于表格填充的多类别统一及边界标记模型(MUBTM)。首先,采用双仿射注意力机制学习词对间的交互,并构建多类别统一标记空间;然后,利用标记空间的对称性结构化约束与级联二进制边界约束,限制词对间的概率分布;最后,根
服装设计课程作为高校艺术课程中的重要组成部分,在艺术教学中占有重要地位。此学科极为重视对美的研究,如何发现美、感受美、创造美是这门课程永恒的探究主题。课程教学需要不断完善,传统教学模式已经很难适应新的发展要求,将美育教学融入服装设计课程势在必行。目前,美育融入服装设计教学仍处于初步探索的阶段,需要高校、教师、学生和社会多方面共同努力。本文分析美育融入服装设计课程的现状,提出建立教学所需的信息化资源
为缓解单人制机组运行(SPO)场景中由飞行员负荷与疲劳引发的飞机操控精度降低所带来的飞行员诱发振荡(PIO)问题,分析了飞行员操作增益和时延对飞机振荡的影响作用,建立了基于生理指标和外部条件的认知能力评估模型,并以此设计了飞行员诱发振荡自适应调节策略,通过建立认知能力与飞行员操作水平的对应关系,实现了基于飞行员身体状态和外部条件所需为输入的飞行员诱发振荡抑制。最后,以A320机型为例设置模拟场景,
少数民族生育转变是中国人口转变的重要组成部分。研究少数民族生育转变为认识中国生育转变历程提供了多样视角。使用历次全国人口普查和1%人口抽样调查微观数据描述了不同少数民族生育指标的变化,并使用分层线性模型区分了民族内部以及民族之间的差异如何解释不同民族生育行为的差异。研究发现,各民族的总和生育率都呈现下降趋势,2000年以后大多数民族的总和生育率接近或低于更替水平,部分民族的总和生育率近年来略有回升
从市场因素、计算方法、施工因素等方面对造价控制的影响因素进行分析;从市场价格、造价管理、执行管理等方面提出造价控制措施,并制订具有针对性的解决方案,以保证造价控制效果。
自然保护地和生态保护红线战略对于维护国家和区域生态系统安全、保障我国可持续发展具有重要的意义。加强对以国家公园为主体的自然保护地体系的游憩活动及负面清单管理研究,有利于自然保护地战略的推进和生态保护红线的落实。本文通过分析世界5大洲的50个国家公园的管理指导手册,整理出国外国家公园中游憩活动、社区管理、基础设施修建等关于生产、生活、游憩行为等管理的负面清单,重点梳理国家公园内禁止和限制开展的活动,