基于自动编码器的领域适应方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:stone88822
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域适应方法由于能够有效克服传统机器学习中需获取大量标签和模型重新训练的问题,成为近年来的热门研究问题之一。领域适应方法利用源领域中潜在的信息为目标领域训练一个高置信度的分类器。自动编码器由于具有健壮的特征表示能力,成为领域适应任务中的常用模型之一,并取得了很好的效果。尽管基于自动编码器的领域适应方法具有较强的泛化能力,但在实际应用中仍存在一定的不足,如在训练新的特征空间时边缘降噪自动编码器(m DA,Marginalized Denoising Autoencoders)只采用了线性函数来获取数据潜在的特征表示,难以捕获源领域与目标领域数据间的非线性关系;对于领域之间差异过大时的效果不理想等问题,给已有的领域适应任务带来了极大的挑战。本文基于自动编码器模型,围绕文本数据的分类问题来学习研究,主要工作如下:(1)针对m DA采用线性函数进行训练,并在之后的特征提取仅仅使用非线性映射来获取数据的非线性关系,捕捉到的数据特征并没有很好的体现数据的非线性。本文提出了一种基于双重约束边缘降噪自动编码器(NFDC,Nonlinear crossdomain Feature learning based Dual Constraints)的领域适应方法。该方法在学习数据的特征表示时,使用核函数来捕捉源领域与目标领域数据的非线性关系,我们首先引入了最大均值差异(MMD,Maximum Mean Discrepancy),在训练的过程中MMD可以衡量源领域与目标领域之间的距离,并进一步降低两个领域之间的分布差异。其次,我们引入了流行正则化(MR,Manifold Regularization),MR用来保存数据的几何结构信息,在进行特征映射后数据可以保持在空间位置相对不变性。最后利用训练好的特征表示所构成的特征空间得到最终的分类器,利用该分类器对目标领域进行分类。实验结果表明,该方法在领域适应任务上优于基线算法。(2)针对源领域与目标领域之间分布差异过大导致领域适应任务不理想的问题,提出了一种Co-training指导下(ARCT,Autoencoder Representation learning guided by Co-training)的领域适应方法。该方法采用中心矩差异(CMD,Central Mean Discrepancy)来得到领域间共有的特征和领域间私有的特征,通过这两个特征学习得到两个不同类别的分类器,然后这两个分类器进行Co-training协同训练得到目标领域的伪标签,接着利用伪标签构建新的分类器并对目标领域进行分类。实验结果表明,该方法在领域适应任务上优于基线算法。
其他文献
“十四五”规划纲要提出,要加大对大数据,工业智能,区块链等新基础设施的投资,信息化程度将进一步加深。网络信息科技也随之提升,然而有的人却会利用技术对人们的隐私与财产安全带来巨大威胁。网络信息安全面临全新的,繁杂的挑战。入侵检测系统作为网络安全领域的一个重要组成,在面对异常入侵,用户误操以及内部攻击时提供及时的防护,所以研究入侵检测系统已经成为相关从业人员重点研究方向。近年来随着深度学习在语音识别、
在工业生产中安全是首要任务,但日益复杂的工业现场环境给安全生产带来了极大挑战。当前工业现场常用的安全监测方法有:基于人工的巡查方法、基于机器视觉三维成像的目标识别方法、基于卷积神经网络的目标识别方法。人工巡查的检测精度、频率和范围都是有限的,因此基于机器视觉三维成像和基于卷积神经网络的目标识别方法得到了广泛应用,并能够运用于极端恶劣环境中,但基于机器视觉的三维检测方法自动化程度仍然不高,往往需要辅
老年人口的快速增加是一个迫切的社会问题。近些年来,科研人员在研究如何能够让老人在家中安全养老付出过很多努力。研究发现,行为识别是判断一个人是否具有生活自理能力的重要评估方法。该方法通过监测老人的行为可以得知其认知水平和健康状况,并在必要时能够及时做出预警。这对于提高老人的健康水平和居家生活质量至关重要。然而,要想能够尽可能准确识别老人的行为,至少需要准确的数据、合适的特征和符合老人活动规律的模型。
无线传感器网络(Wireless Sensor Network,WSN)常被应用于灾害预警、医疗监测、工农业生产、国防军事等各个领域。在WSN中,一方面节点电池容量有限导致网络寿命有限,另一方面广播特性使得通信干扰严重、吞吐量低,这两点是制约WSN大规模部署的重要因素,然而这两个问题相重叠使得系统模型更为复杂。为了有效提高网络吞吐量、延长网络寿命,本文提出将串行干扰消除(Successive In
化工园区作为一个易燃、易爆、有毒重大危险源高度集中的区域,一旦发生火灾、爆炸或毒物泄漏扩散等事故,将造成一系列的连锁反应,并产生灾难性的后果。为此,利用大数据、人工智能等高新技术提高化工园区风险感知、监测预警、协同救援和应急处置的能力,已成为新发展格局下的重点领域之一。其中,化工园区应急物资分配是开展危化品事故应急救援的基础,是体现化工园区应急管理能力的一个基本要素。主要研究在危化品事故发生后,如
高分辨率SAR(Synthetic Aperture Radar)图像在卫星遥感、灾害监测等领域具有重要实际研究应用价值,但实际SAR成像分辨率往往难以满足应用需求。传统SAR图像超分辨率重建方法对模型和先验知识要求较高,重建效果往往不理想;无监督式生成对抗网络模型通过训练学习高低分辨率图像之间映射关系,减少先验知识依赖,重建图像效果明显优于传统方法,但博弈对抗式训练方法往往会使重建图像产生“伪影
互联网的迅速普及打破了信息传播的专业门槛,使得越来越多的人们可以通过社交媒体方便地获取信息、分享和表达观点,这极大的丰富了人们的日常生活。然而,由于社交媒体的用户数量巨大,出于各种目的捏造的虚假新闻层出不穷。再者,随着技术的进步,虚假新闻不再单纯的以文本的形式传播,更多是通过文本、图片和视频结合的方式进行扩散,极大地增强了虚假新闻的迷惑性,也使得以往仅仅依赖文本内容进行分析的虚假新闻检测方法不再适
随着人们对于自身安全以及公共安全的日益重视,视频监控系统遍布世界各地。海量的视频数据得以保存,如何快速地且智能化地分析和处理视频监控系统拍摄到的视频以及图像数据,是当下亟待解决的问题。作为智能监控系统中的一种不可或缺的技术,行人重识别(person Re-identification,Re-ID)受到了学术界的重视,其主要任务是在跨摄像头视域下匹配同一目标行人。近年来,随着深度学习技术的逐渐成熟,
遥感图像分割是理解遥感图像的基础,在防灾减灾、环境治理以及城市规划等领域有着重要作用。在过去,人们常常使用与图像分割有关的传统方法来处理遥感图像。传统的图像分割方法不管是在分割的精度还是分割的效率都是很低的。近年来,随着深度学习在计算机视觉领域的广泛应用,尤其卷积神经网络的在提取特征的显著优势,使得图像在分割的速度和精度上都得到了很大的提升。同时,基于深度学习的模型可以实现便捷的端到端的训练学习。
随着互联网,尤其是移动互联网的快速发展,人们在互联网上留下了的大量包含情感信息的评论。对海量用户评论进行文本情感分析,可以挖掘出人们对产品、服务的真实情绪、态度和意见。这些信息有利于消费者做出选择以及商家、服务平台对产品服务进行优化,尤其是用户评论中被消极评价的意见目标,简称消极情绪意见目标。抽取用户评论中消极情绪意见目标,可以帮助商家更有针对性的改进自身产品或服务中的问题,帮助消费者了解产品或服