单源鲁棒领域适应算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:shkarenwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统机器学习算法大多假设训练数据(源领域)和测试数据(目标领域)是独立同分布的。然而,现实数据多在开放动态环境中收集,使得源领域数据分布有别于目标领域数据分布。领域适应(Domain Adaptation)方法利用标记丰富的源领域来辅助具有相似分布的未标记的目标领域的学习,以有效缓解数据分布偏移问题。已有的领域适应方法大多聚焦于学习领域间不变特征表示,以缩小领域间数据分布差异。然而,这些方法在对齐领域间数据分布时,弱化了不变特征表示的判别能力,导致模型的泛化能力弱。此外,已有的领域适应方法依赖于未标记的目标领域数据在模型训练阶段是可使用的假设,而实际场景中,目标领域数据大多是动态产生的,因而只能获取到非常有限的目标领域数据,甚至目标领域数据在模型部署之前是未知的。这些问题给已有的领域适应方法带来了极大的挑战。本文在单个源领域数据可用场景下,针对模型训练阶段,未标记的目标领域数据可使用时,所学模型泛化能力弱,以及模型训练阶段,目标领域数据不可使用等问题开展了领域适应研究。本文主要研究内容如下:(1)针对模型训练阶段,未标记的目标领域数据可使用场景下,所学模型泛化能力弱问题,提出一种基于双重表示自动编码器的领域适应算法DRAE(Dual-Representation based Auto Encoder),该算法通过学习双重表示来获取具有强判别能力的不变特征表示,以提高模型的泛化能力。该算法分为三个学习阶段:首先,将源领域和目标领域所有数据放在一起训练,通过增大领域内的类间距离,以及缩小领域间的条件分布和边缘分布差异来学习全局特征表示。其次,利用源领域标签信息和目标领域伪标签信息,将两个领域中的原始数据根据所属的类别划分到多个局部子集,并基于局部子集学习局部特征表示,以此来保留每个类的类判别信息。最后,对以上两种特征表示进行加权获取双重表示,并基于此双重表示,在源领域上构建预测模型对目标领域数据进行预测。在Reuters-21578、20Newsgroups、Amazon Review、Office-Caltech10数据集上,与基线算法相比,DRAE取得了更高的平均分类准确率,分别为93.4%、97.4%、91.1%、54.2%;在Office-Home数据集上,DRAE取得了可竞争力的性能,平均分类准确率为65.0%。(2)针对模型训练阶段,目标领域数据不可使用问题,基于特征和类标签之间的因果关系在相似领域保持不变以及所有的特征都是二进制的假设,提出一种基于实例加权和双分类器的鲁棒领域适应算法SRDC(Sample Reweighting and Dual Classifiers)。该算法不需要使用未标记的目标领域数据,仅利用单个源领域中数据构建预测模型,对未标记的目标领域数据进行预测。该算法包含两个学习阶段:特征选择和实例加权。首先,通过特征选择筛除部分与类标签无关的特征,以完全去除这部分无关特征和类标签之间的虚假相关,同时消除这些无关特征对实例加权的影响。其次,根据特征的取值将实例划分到处理组和对照组,通过实例加权平衡每个特征所对应的处理组和对照组的数据分布,来评估每个特征和类标签之间的因果效应,以去除残留的无关特征和类标签之间的虚假相关。SRDC在训练模型时构建两个分类器,通过最小化这两个分类器的参数差异来学习一个较优的决策边界,以进一步提高模型的泛化能力。在合成数据集上,相比基线算法,SRDC取得较小的均方根误差值;在两个真实数据集Amazon Review、Office-Caltech10上,SRDC取得了最高的平均分类准确率,分别为75.70%、46.87%。(3)针对模型训练阶段,目标领域数据不可使用问题,基于特征和类标签之间的因果关系在相似领域保持不变的假设,提出一种基于因果自动编码器的鲁棒领域适应算法CAE(Causal Auto Encoder)。该算法将自动编码器和因果结构学习统一到一个模型中,从单个源领域中学习因果特征表示,并基于因果特征表示构建一个能泛化到任意与源领域具有相似分布的目标领域的鲁棒的预测模型。自动编码器用于学习原始数据的低维特征表示,以此来捕捉变量之间的非线性关系并减少数据中噪音的影响。因果结构学习模型用于将此低维特征表示拆分为因果特征(马尔科夫毯)表示和任务无关表示。自动编码器和因果结构学习模型相互约束、相互提高。CAE在三个真实数据集Office-Caltech10、Amazon Review和Reuters-21578上的平均分类准确率分别为46.86%、77.29%、67.03%,取得了比基线算法更好的性能。
其他文献
目的 探讨系统性红斑狼疮(SLE)与孕产妇不良妊娠结局的相关性。方法 收集2018年6月—2020年5月天津市中心妇产科医院收治的120例SLE合并妊娠患者的临床资料,根据临床妊娠结局分为正常组和不良妊娠组。比较两组人口学资料、SLE疾病活动度、妊娠期合并症、用药情况及实验室指标差异,采用多因素Logistic回归分析SLE与孕产妇不良妊娠结局的相关性。结果 120例SLE妊娠患者中,足月生产55
期刊
乳腺恶性肿瘤是当今中国社会女性人群发病率最高的肿瘤之一,目前乳腺肿瘤良恶性的鉴别最主要的手段是超声检查。超声医生根据临床实践经验,分析乳腺超声图像中的肿瘤相关特征,并与BI-RADS(Breast Imaging Reporting And Data System)标准相匹配,从而实现乳腺病变的良恶性分级诊断。可见,现有人工阅片方式是一个主观判断过程,诊断结果受医生的临床经验、知识水平、疲劳程度等
学位
报纸
近年来,随着我国高速公路交通量的迅速增长及旧路服务水平的降低,需对早期修建的公路进行改扩建升级。同时伴随近年全球极端天气的频发,形成众多地质灾害和道路水毁,造成严重的安全隐患和经济损失。改扩建工程由于其特殊性,与新建公路相比,其水毁防控措施更为复杂。因此提前预防改扩建公路中可能发生的水毁问题,对于保障行车安全,降低道路养护成本,提高经济效益具有重要意义。本文对黄土地区公路的水文地质特征进行调查分析
学位
采用传统的精酿黄啤酒加工工艺方法,在麦汁发酵前添加螺旋藻和菠菜混合浸提液酿制绿啤;将成熟后的精酿绿啤在25℃室温和4℃低温条件下二次发酵15d,采用GC-IMS联用技术对不同温度条件下精酿绿啤二次发酵后挥发性风味的差异变化进行比较分析。试验结果共定性出精酿绿啤中挥发性风味物质46种,包括酯类挥发性化合物21种,醛类挥发性化合物9种,另有酮类化合物2种及乙酸、2-乙基呋喃、二甲基硫醚各1种。通过比较
期刊
目前,脱除NOx的技术主要有选择性催化氧化(SCO)+吸收和选择性催化还原(SCR)两种方法。催化剂是两种脱硝技术的核心。国内外学者通过不同的过渡金属氧化物复合及改性等方式以提升催化剂活性和应用性,并取得了一些很有意义的成果。通过金属离子掺杂,还原处理等方法对载体改性可以增加催化剂氧空位、改善其比表面积、表面活性物质的分布和氧化还原性能,从而提高催化剂的活性。如何进一步拓宽催化剂的活性温度窗口,构
学位
为解决当前循证教学研究中存在的“制证不足”和“用证不力”两个主要问题,研究者在5A循证实践步骤的基础上,开发了适用于中小学教师的6A循证教研模式。该模式结合教学实际,细化和规范了5A循证实践操作步骤,使教师易于用证,同时增加了“教研论文写作”环节,使教师用证之后能制证。该模式在理论上实现了“用证”与“制证”的有机结合,在实践上有助于推动教师从“用证者”向“制证者”身份的转变,促进教师的专业发展。
期刊
含铝含能材料在民用和军事中有着重要的应用,但其燃烧机理尚未得到很好的表征,阻碍了纳米铝含能材料的进一步发展。本文首先基于第一性原理方法开发了适用于含铝含能材料体系的CHONAl元素的含低梯度修正的反应力场(ReaxFF-lg)。利用该力场,对纳米铝/炸药复合体系、纳米氢化铝/炸药复合体系进行了反应分子动力学模拟研究。研究了初始反应机理、能量释放规律和产物生成规律。此外,还研究了氢化铝的晶相转变受锂
学位
江苏省某化工企业对生产线高浓度印染废水进行深度处理,在焚烧减量化基础上,将膜分离浓缩工艺与冷冻结晶、蒸发结晶耦合,对焚烧产生的固体废弃物进行资源化利用。该项目已顺利进入生产阶段,装置运行稳定,运行结果表明,产品品质达到再利用要求,符合预期效果。
期刊
在第五代移动通信(The Fifth Generation Mobile Communication,5G)时代,通信规模不断扩大,节点密度持续增加。相比城市中完善的通信体系,偏远地区的基建会遇到包括交通与成本等更多挑战,但该类地区又往往存在持续性大规模监测的需求。因此,利用低成本无人机巡航技术为偏远地区传感网提供通信服务的方案应运而生。在后5G(Beyond 5G,B5G)时代,空天地通信一体化
学位