域适应关键问题研究及在皮肤病诊断中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a36020a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习要求训练数据和测试数据服从独立同分布的假设,且需要大量有标注的数据才能训练出较理想的模型。在实际应用中,环境的变化或采集条件的限制使得采集的数据不能满足独立同分布的假设,导致模型的泛化能力显著下降。在这种数据存在分布差异的场景下,需要重新收集、标注数据并构建新的模型。然而,采集并标注业务场景数据是非常昂贵的,在某些场景中甚至是不可能的。域适应的出现正是为了解决上述数据分布存在差异的学习问题。域适应是迁移学习的子领域,是机器学习领域重要的研究方向,在计算机视觉、自然语言处理、生物信息学等领域都有广泛的应用场景,它通过将辅助领域上学习到的知识或者模式应用到不同但相关的目标域中,一方面能实现对已有知识的重用,使传统的从零开始学习变成可积累的学习;另一方面,由于放松了传统机器学习中训练数据和测试数据必须服从独立同分布的假设,使得参与学习的领域数据可以服从不同的分布,能够有效地解决跨领域的学习问题。尽管对域适应的研究已经较为充分,但现有域适应方法仍存在特征拟合不充分,跨域泛化能力不足,域间分布适配不足以及多源域中的负迁移等若干关键问题。本文围绕域适应研究及在皮肤病诊断中应用的若干关键问题开展研究,提出解决方法,然后将提出的方法在皮肤病的诊断中进行验证,开展应用技术研究。论文的具体研究内容如下:(1)针对传统域适应中特征拟合不充分的问题,提出结构保持和分布对齐的判别迁移子空间学习框架,在对齐跨域的边缘分布和条件分布的同时保持数据的全局和局部结构,并利用ε-拖拽技术增加源域数据的判别性,从而从域适应理论角度减小域适应泛化误差。解决仅利用数据的几何结构或统计属性导致的欠拟合问题。在五个目标识别数据集上的广泛实验结果表明,SPDA能缓解传统域适应方法中特征拟合不充分的问题,并且在平均识别精度上领先当前最好的域适应方法,在深度特征上的实验取得了比经典深度域适应网络更好的识别性能。(2)针对域间分布差异大时存在的分布适配不足和跨域泛化能力不足的问题,提出两个解决方案:首先提出重要性加权的条件对抗域适应网络,IWCA。IWCA根据附加域判别器的输出导出的重要性准则对源域样本进行赋权,重新衡量域间分布差异,消除不相关实例的负面影响,充分对齐跨域的条件分布。从迁移交叉验证的角度推出样本选择准则,选择与源域有一致密度估计且具有较低风险误差的的目标样本,以自学习的方式学习目标模型,从而极大地提高模型的判别性。在目标识别任务上的实验结果表明,IWCA能取得当前最好的平均分类精度。在皮肤病分类的实验结果表明,当域间差异较大尤其是有噪声数据存在时,IWCA相比其他域适应方法能取得4%至12%的精度提升。然后提出在对抗域适应中同时提升特征的迁移性和判别性的域适应方法,MRE。MRE首先分析对抗域适应中特征的迁移性提升导致特征判别性下降的原因,接着研究如何提升特征的判别性。利用标签空间中相同类别的数据呈现低秩结构,不同类别的数据呈现高秩结构。用最小化核正则替代低秩约束,最大化核正则替代高秩约束,增强特征的判别性。同时在特征空间和标签空间对齐数据的分布,增强特征的迁移性。在皮肤病分类的验证实验表明,当域间存在较大差异时,MRE可以显著提高皮肤病分类的性能。多个域适应场景下的皮肤病分类实验结果表明IWCA和MRE表现相当。(3)针对多源域中的负迁移问题,提出领域特定的表示和域间相关性学习的多源域适应方法,LDRDR。研究从多个源域中充分挖掘可迁移的特征表示,并运用于目标域的学习。首先研究特征提取网络,在公共特征提取器之后,为每个源域-目标域对增设一个域特定的特征提取器以充分学习各个域的域公共知识和领域特定的知识。然后研究如何衡量各源域相对目标域的相关性,按照相关性大小对各任务判别器进行集成,使得目标域能最大程度地利用各个源域的知识。在四个目标分类数据集的大量实验表明LDRDR能缓解负迁移问题。跨多源的皮肤病分类实验结果表明,LDRDR能取得当前最好的域适应效果。(4)本文提出的三个深度域适应方法在不同域适应场景对应的跨域的皮肤病诊断任务中均取得了最好的域适应效果,性能显著优于其他域适应方法。相比于没有域适应的方法,本文提出的域适应方法平均性能提升约5%-12%。
其他文献
随着航空发动机逐步向高性能化的发展,其内部涡轮部件所承受的气动热载荷也随之提高,涡轮动叶的间隙泄漏流动对气动损失的影响也愈加强烈。因此相应的间隙泄漏流动控制方法也应运产生,主要包括叶顶凹槽、叶顶小翼和叶顶修型等被动控制方法。对于叶顶凹槽,其通过凹腔内部的旋涡结构可以显著地降低间隙泄漏流量,但会引起较大的掺混损失。对于叶顶修型,其产生的叶顶形状较为复杂不规则且造型方法也多种多样,没有明显的规律可循。
学位
波形端面动压型机械密封是核主泵的关键基础部件,起到防止高温、高压、具有辐射性流体泄漏的目的,其相关技术和产品受到国外的垄断。为了掌握波形端面动压型机械密封的设计和制造技术,论文开展了核主泵波形端面动压型机械密封的设计与开发。以波形端面动压机械密封为研究对象,考虑液膜的空化效应,建立密封理论模型,研究了在恒定和非恒定液膜厚度条件下运行工况参数对密封性能的影响规律,揭示了波形端面密封的运行机理。考虑密
学位
环境污染是人类共同关切的重大问题,面向工业源开发污染物的治理工艺及资源化利用方法,是符合我国可持续发展战略需求的关键举措。无论是污染物的吸附还是催化转化,其科学本质均为典型的气-固异相反应,多孔材料(如活性炭、分子筛)在其中扮演吸附剂或催化剂的角色。污染物的高效吸附和转化为多孔材料孔隙、骨架和表面官能团的精准构筑提出了更高需求。基于上述研究背景,本文探究了典型污染物分子(SO2、NO和苯系VOCs
学位
熊式一改编译介的话剧《王宝川》在欧洲风靡一时,对我国现有的跨文化戏剧改编有着重大借鉴意义。目前学界主要对熊式一的文本翻译进行了深入研究,但忽视了熊式一改编的话剧《王宝川》与原有的京剧版本相比,不论从形式上还是内容上都产生了巨大差异。话剧版本有效地进行了跨文化传播改编,这为目前跨文化改编戏剧作品提供了宝贵经验。
期刊
半球谐振陀螺(Hemispherical Resonator Gyroscope,HRG)是一种高精度的哥氏振动陀螺,是21世纪最理想的惯性传感器之一。由于HRG具有长寿命、高精度、高可靠性、可小型化、低功耗、轻质量、组成结构简单以及能够适应各类空间物理环境等优点,已在航天、航空、航海以及陆地等各个领域的惯性导航系统中得到了应用。因此,为了进一步提高力反馈HRG的精度和性能,研究HRG的误差机理、
学位
新一代信息技术与互联网的飞速发展,使各应用领域的服务业务不断跨网跨域跨界交叉融合,进而形成了复杂的大服务生态系统。随着人工智能、认知计算与深度学习技术的迅速发展与应用,服务向智能服务发展。智能服务的核心是自动辨识顾客显性和隐性需求,并主动、高效、安全地提供满足顾客需求的服务。在大服务生态与智能服务场景下,为了实现随时随地获取用户需求并交付服务,软服务机器人的研究逐步引起研究者的关注。准确、完整的获
学位
强化学习是机器学习的重要分支,是实现通用人工智能的重要手段。与其他机器学习方法的不同之处在于,强化学习是一个主动学习的过程。智能体通过与环境交互来获得经验,通过最大化奖励来学习值函数和策略。强化学习的核心问题是如何提升智能体对环境的探索效率。在有限状态空间中,探索方法使用状态计数和值函数置信区间的估计来获得高概率近似正确的理论保证,然而这些方法并不能直接应用于高维状态空间的深度强化学习任务中。在高
学位
无线传感器节点能够从物理世界中采集温度、湿度、图片等数据,并将这些数据以一跳或多跳的方式传到服务器(也叫汇聚节点或sink节点)上。无线传感器网络在实时监测、异常检测、目标追踪等方面具有广泛的发展和应用前景。传统的无线传感器节点依靠电池供电,而电池电量十分有限,需要频繁地更换电池。但是,传感器网络常常被部署在森林、大型设备内部、污水过滤系统等恶劣的环境中,这使得频繁的电池更换是非常困难甚至是不现实
学位
文本语义匹配是自然语言处理中一个基础且重要的研究方向,其目的是判断两段文本是否符合给定的语义关系,其包含了大量的下游任务,如自然语言推理、复述识别、答案句选择等等。任务不同,文本语义匹配所需判断的语义关系也不一致。然而无论哪一种语义关系,判断文本间语义是否匹配都需要研究:(1)如何表示文本语义?(2)如何判断文本间语义关系?针对这两个核心研究点,研究者们将文本语义匹配研究分为基于表示和基于交互的文
学位
高速铁路是国家经济发展的支柱产业与交通命脉,也是高端装备制造业的标志性产品,它的发展与可靠运营惠及国计民生。在铁路逐渐向高速化、重载化发展的背景下,钢轨作为高铁系统内最重要的支撑部件之一,保障其长期安全也逐渐成为铁路发展规划的重要议题。在新兴无损检测技术中,声发射技术凭借其动态特征、高灵敏度、可及早发现内部裂纹等优势在工业探伤中得到了广泛应用。但在对动辄万余里的钢轨健康状态监测中,声发射传统的定点
学位