无监督领域适配方法研究

来源 :吉林大学 | 被引量 : 1次 | 上传用户:zty85633278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的增长和计算能力的提高,机器学习技术已被成功应用于许多领域。传统的机器学习方法需要大量有标签的训练数据,且要求训练数据和测试数据满足独立同分布假设。然而,实际环境复杂多变,传统机器学习方法的应用条件很难被满足,这极大地限制了机器学习技术在现实场景中的应用。领域适配放宽了传统机器学习中训练数据和测试数据之间的独立同分布约束,因而能够从相关领域(源领域)中挖掘知识,并利用得到的知识解决当前任务(目标领域)中标签稀缺的问题。当目标领域中完全没有可用的标签时,如何从源领域获取与目标领域相关的知识并提高源领域的模型在目标领域中的性能是一个具有挑战的问题,这一问题被称作无监督领域适配。在无监督领域适配中,根据模型是否使用了深度神经网络结构,可分为浅层领域适配和基于深度学习的领域适配,本文分别对这两类问题展开研究。此外,领域适配方法的性能主要受两个因素的影响,即特征的可迁移性和可判别性。由于领域间差异的存在,适配过程在提高可迁移性时会舍弃领域特有信息,从而导致可判别性的损失,反之,在保留各领域的判别信息时,会导致可迁移性的减弱。因此,可迁移性与可判别性的增强与平衡是提高领域适配方法性能的关键。本文对增强可迁移性和可判别性进行研究。本文的主要研究内容与贡献如下:(1)针对浅层无监督领域适配问题,提出双加权领域适配方法(Double Weighted Domain Adaptation,DWDA)。一方面,DWDA中的分布匹配加权策略衡量各类别的条件概率分布匹配之间及其与边缘概率分布匹配之间的相对重要性,对分布差异较大的分布匹配给予更高关注。另一方面,DWDA中的样例加权策略衡量各样例的相对重要性,对可适配性高的样例给予更高关注。两种加权策略的结合提高了方法的适配性能。实验在三个公开数据集上展开,实验结果表明DWDA取得了优于对比方法的性能,两种加权策略的有效性也得到了验证。(2)针对基于深度学习的无监督领域适配中可判别性增强问题,提出基于特征拼接的领域适配方法(Feature Concatenation for adversarial Domain Adaptation,FCDA)。FCDA为每个样例生成两个不同的视图,以特征拼接的方式集成两个视图中的互补信息,从而提升特征中蕴含的判别信息量。本文还通过实验验证了FCDA中对抗训练得到的两个视图满足一致性与互补性原则。实验在四个常用的数据集上进行,验证了FCDA的有效性。(3)针对基于深度学习的无监督领域适配中可迁移性增强问题,提出基于Softmax的原型构建与适配方法(Softmax-Based Prototype construction and Adaptation,SBPA)。SBPA使用分类器的Softmax输出构建源领域和目标领域的原型,可以充分挖掘每个样例中蕴含的判别信息,同时可以缓解由不准确的伪标签导致的原型偏差。SBPA通过原型对齐实现类级匹配,更可靠的原型有助于提升类级匹配的效果。此外,SBPA在共享特征提取器的基础上增加残差块,显式建模领域间的特征分布差异以调整特征提取器提取的目标领域特征,从而进一步降低领域间的特征分布差异,增强特征的可迁移性。实验在四个标准数据集上进行,验证了SBPA的有效性,尤其是在当前最难的领域适配数据集DomainNet上,SBPA展现出明显的优势。(4)针对基于深度学习的无监督领域适配中可迁移性和可判别性增强问题,提出同时增强可迁移性和可判别性方法(Enhancing Transferability and Discriminability Simultaneously,ETDS)。ETDS包含两个领域特定的模块,用于显式捕获领域特有信息,这有利于在领域共享特征中保留共有信息,从而增强特征的可迁移性。ETDS驱使特征靠近其相应的原型,通过强化聚类假设增强特征的可判别性。此外,本文还提出一个平衡策略,根据原型的可靠程度控制源领域原型和目标领域原型的相对贡献,进一步提升方法的性能。实验在四个数据集上进行,验证了ETDS的有效性,且ETDS在当前最难的领域适配数据集DomainNet上展现出明显的优势。
其他文献
牙周炎是发生在牙周支持组织的慢性炎症性疾病,导致牙槽骨进行性破坏,是成人失牙的主要原因。传统的牙周炎治疗手段,如龈上洁治术、龈下刮治术、翻瓣术和膜龈手术等,均以控制炎症和减少牙周袋深度为目的,而不能重建受损的牙周组织。引导组织再生术(GTR)是以修复牙周支持组织和创建新的牙周附着为目的的治疗手段,其原理是利用膜性材料作为物理屏障,防止牙龈上皮和结缔组织侵入缺损区,为牙周膜细胞和成骨细胞创造足够的空
学位
为了研究前黑色素小体蛋白17(pre-melanosomal protein 17,PMEL17)基因第10外显子上有关显性白羽突变的基因频率和基因型频率在雪域白鸡群体中的分布情况,试验采用PCR-RFLP方法分析基因型,利用POPGENE 1.32软件计算基因型和基因频率,用SPSS 20.0软件进行哈代-温伯格平衡适合性检验。结果表明:雪域白鸡群体中PMEL17基因有Ⅱ、Ii和ii 3种基因型
期刊
多发性硬化(MS)是一种以中枢神经系统(CNS)白质脱髓鞘为特征的自身免疫性疾病。目前MS的缓解期治疗以DMT药物为主,但其疗效有限,且可能出现严重的不良反应,因此探寻新的治疗方法极为重要。实验性自身免疫性脑脊髓炎(EAE)作为MS的经典动物模型,在MS的科学研究中被广泛应用。CD4+T细胞中的两种细胞亚型Th1、Th17可释放促炎性细胞因子,破坏血脑屏障,并向中枢迁移,诱导CNS炎症,导致白质脱
学位
变应性鼻炎(allergic rhinitis,AR)是指特应性个体鼻黏膜暴露于变应原后发生的主要由免疫球蛋白E(immunoglobulin E,Ig E)介导的的非感染性慢性炎性反应。AR主要表现为打喷嚏、鼻痒、鼻塞和流清水样涕等症状。流行病学调查表明,在过去的几十年中AR的发病率逐渐增加,目前影响全世界人口的10%~40%。AR不仅影响生活质量,也可造成巨大的社会经济负担,已经成为全球性健康
学位
背景及目的孢子丝菌病(Sporotrichosis)是申克孢子丝菌及其卢里变种引起的皮肤、皮下组织、黏膜及淋巴系统的感染性疾病,偶可播散至全身引起多系统的损害。近年来孢子丝菌病发病率逐年上升,目前常用的治疗方法主要有抗真菌药物、光动力、温热疗法、冷冻和外科手术等,但效果不尽人意。随着对孢子丝菌病发病机制研究的不断深入,人们发现NOD样受体热蛋白结构域相关蛋白 3(NOD-like receptor
学位
报纸
目的:1.建立局部视网膜内铁离子过载的动物模型。探究视网膜内铁离子过载导致的视网膜退行性改变。2.探究视网膜内铁离子过载导致年龄相关性黄斑变性(Age-related macular degeneration,AMD)的发生机制。3.探究氘代二十二碳六烯酸(Deuterated-docosahexaenoic acid,D-DHA)对铁离子导致AMD改变的保护作用。4.探究膜铁转运蛋白和铜蓝蛋白对
学位
生物医学文献是生物医学领域获取知识的主要来源,这些丰富的知识在推动着健康、治疗理念、预防保健以及医疗管理等方面有着重要意义。呈指数级速度增长的医学文献因所涉及的内容巨大,已远远超出人类以传统方式获取知识的能力。从海量的电子文献中准确地获取有价值的、关键的医学知识,成为研究热点。本文针对信息抽取中语义信息丢失、外部资源利用不充分以及样本信息利用率不高等问题,以生物医学文本信息表示、语义知识利用及深度
学位
核糖核酸(Ribo Nucleic Acid,RNA)是生物体中重要的生物大分子,可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥,同时相同家族的非编码RNA(non-coding RNA,ncRNA)具有相似的功能,因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关
学位
医学的数字化发展带来了大量的生物医学数据,对这些数据的建模有助于研究人员诊断和治疗疾病,理解疾病的发病原理。生物医学数据主要分为生物组学数据和医学数据两种类型。生物医学数据具有复杂性,数据存在大量的冗余特征和噪声,很多特征可以被其他数据所代替,并且特征之间高度相关。对生物医学数据的精准建模及预测结果,关系到医学决策。生物医学数据挖掘的关键是设计出高性能模型。机器学习是生物医学领域建模分析的重要方法
学位