基于分布匹配的无监督域自适应研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lucien001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习算法往往假设训练集与测试集分布一致。然而,在实际应用中,由于采集设备、环境条件不同等因素,导致测试数据分布与训练数据分布不一致。当模型应用到目标测试数据时,性能大幅下降。一种解决方案是用标注的目标数据来微调模型,可是数据标注过程成本高昂。为了解决这个问题,无监督领域自适应探索把源域所学知识迁移到目标域,进而提升目标域性能并节省标注成本。现有的无监督领域自适应算法通过分布对齐的方式以求解决源域与目标域之间的域差异这一挑战,并取得了不错的效果。然而,这些算法还存在以下问题:(1)仅考虑单尺度域不变特征的学习,无法解决需要多尺度判别特征的任务;(2)当由于隐私保护不可访问源域数据时,算法无法进行领域自适应。针对以上存在的两个问题,本文分别对多尺度域不变特征学习问题和无源数据领域自适应问题进行探索。首先,针对多尺度域不变特征学习问题,本文提出了一个多尺度多目标域对抗网络,该网络包含一个多尺度模块用于全局和局部信息的提取。同时,通过多域对抗学习多尺度域不变特征,从而更好地处理多尺度判别任务。本文将该方法应用于闭角型青光眼检测任务,在一个真实眼前节相干断层扫描图像数据集上验证了该方法的有效性。其次,针对无源数据领域自适应问题,本文提出了一个原型特征生成与自适应算法。针对源域数据不可访问的问题,本文设计了一个原型特征生成策略,该策略为每个类别生成代表性的原型特征。基于生成的原型特征和目标数据伪标签,本文设计了一个原型特征自适应策略,该策略把每个伪标注的目标样本与对应类别的原型特征对齐。同时,采用置信度重加权和早期学习正则化缓解模型对噪声标签的学习,从而在不访问源域数据下把源模型适应到目标域。在三个基准数据集(即是Office-31、Office-Home和Vis DA)上的大量实验验证了该算法的有效性和优越性。此外,还证实了所提出的原型特征生成策略可以帮助传统无监督领域自适应方法解决无源域数据的问题。
其他文献
文本口令是目前应用最广泛的身份认证方式之一。随着人们安全意识的提高,长口令越来越受用户和系统管理员欢迎。口令猜测算法能有效识别弱口令,指导用户构造更安全的口令。然而目前国内外对长口令猜测算法的研究较少。因此对长口令猜测算法的研究是具有现实意义的。目前已泄露的真实口令集中,长口令的占比较低(Rockyou口令集中长度不小于12的口令占5.5%)。这约束了传统数据驱动猜测算法对长口令的猜测效率。由于可
学位
超低湿度(<250 ppm)的监测在一些重要的工业生产中发挥着极为关键的作用。对于超低湿度的检测,目前主要依靠于传统的电子传感器,但其价格十分昂贵,且使用过程中需要额外的外部电源驱动以及复杂的信号接收系统,携带不太方便,致使应用场所受限。相比之下,基于颜色可视化的比色湿度传感材料有着巨大的优势与潜力。然而,现已报道的可视化湿度检测材料/体系的检测范围绝大多数都在2500 ppm(10%RH)以上。
学位
无监督预训练学习致力于通过设计可适用于大规模数据学习的前置任务,从而帮助神经网络从海量未标注的数据中得到通用的表征。近年来,在计算机视觉和自然语言处理中,无监督预训练模型都取了巨大的成功。在计算机视觉中,无监督预训练模型作为一种通用的网络表征,它对下游任务中图像分类、检索、目标检测、图像分割都有着关键性的影响。大量工作表明,预训练模型的好坏往往决定着下游任务的收敛速度与准确度。对于计算机视觉的任务
学位
在现实社会中,很多场景可以用图结构表示,如论文引用网络,社交网络等。图上的社区发现是图结构分析的重要内容,并有着重要的现实意义。例如,在社交网络中,同一社区的用户之间喜好较为相近,因此能够帮助商家进行更精确的广告推送。与图上的其他问题,如节点分类、链路预测问题不同,社区发现通常需要使用无监督的方法来解决,即在训练过程中不能使用任何数据标签,因此是非常有挑战性的问题。同时,在现实场景中,图结构不会一
学位
卷积神经网络的运行通常需要大量的存储与计算资源,这些限制条件使它们很难部署移动端或嵌入式设备中。因此需要通过神经网络模型压缩、轻量级卷积核设计与神经架构搜索等方式来降低神经网络的参数量与计算量。网络模型压缩是一个工作量大且困难的工作。神经网络架构搜索是在由各种卷积核构成的搜索空间中进行自动的网络架构搜索,输出较优的轻量级网络架构。因此,轻量级卷积核的设计是一项至关重要的工作。本文主要研究轻量级卷积
学位
随着信息收集技术的快速发展,人们可以便利地获得海量信息,但同时也引发了信息过载的问题。人们需要消耗大量的时间和精力筛选出自己需要的信息。推荐系统是缓解信息过载的重要工具,它可以有效地对信息进行筛选,实现个性化的信息推荐。传统的推荐算法主要面向用户的整体偏好进行建模,不能有效地捕捉用户短时期内的兴趣偏好。本文研究的序列推荐算法基于用户在一定时间内与系统的有序交互,不仅可以精确地表征用户的当前意图,还
学位
手性胺类化合物是一类重要的有机化合物,因其具有一定的碱性和潜在的生物活性,在不对称合成领域备受关注。其中,手性α-氟代-β-氨基羟吲哚类化合物具有潜在的药物活性,手性1,3-二胺衍生物可作为潜在的手性配体,因此,发展两类化合物的不对称合成的方法学具有一定的理论意义和应用价值。众所周知,含碳亲核试剂与亚胺的不对称Mannich反应是构建手性β-氨基酮(酯)化合物最有效直接的方法。为此,本论文主要针对
学位
纳米材料和纳米器件在绿色催化、能源存储、传感检测以及治疗诊断等领域中的出色表现在现代科学中引起了广泛的关注。事实上,这些纳米材料的特性很大程度上取决于它们的纳米尺寸,表面改性和聚集程度。超分子大环化合物是一类多功能的大环主体分子,而且根据他们自身独特的空腔结构、易功能化、主客体络合能力等特点可以通过共价或者非共价相互作用修饰在无机纳米粒子表面,形成以大环芳烃为基础的有机-无机杂化纳米平台。无机纳米
学位
活动图在软件需求分析中发挥着重要作用。它帮助业务参与者在软件建模过程中理解系统的组织和运转特征。然而,人工绘制活动图需要花费大量时间和精力。因此,实现需求文本生成活动图的自动化流程具有重要的研究意义与应用价值。为了提高活动图的自动化生成质量与绘制效率,本文提出一种基于需求文本分类的活动图自动生成方法。本文的研究工作主要包括:(1)提出了一种基于语义特征融合的需求文本分类方法。根据软件工程需求文本的
学位
刺玫果是植物山刺玫的果实,主要生长在中国东北、内蒙古等地。它富含黄酮类、维生素、三萜、多糖、有机酸等多种化学成分,具有预防心血管疾病、保肝、增强免疫力、抗氧化、抗疲劳、抗衰老、抗肿瘤等药理作用。黄酮类化合物作为刺玫果中的主要活性物质被广泛关注和研究,但其水溶性差和渗透性低等缺陷,导致总黄酮的生物利用度较低,药物疗效受限。近年来,纳米技术在医药领域上展现出良好的应用前景,目前已经被广泛应用于解决难溶
学位