【摘 要】
:
深度学习是机器学习的一个分支,通过分层学习获取数据的内在规律和表示层次。目前深度学习被广泛应用在计算机视觉、自然语言处理、语音识别、量子化学以及医学等领域,尤其在图像识别中表现出了出色的性能,这离不开大规模、高质量的数据集以及GPU性能的提升。在传统的图像识别任务中,训练数据的类分布往往受到人工的影响,即不同类别的样本数量基本一致。然而真实应用场景中的数据集通常表现出长尾分布,这给图像识别任务带来
论文部分内容阅读
深度学习是机器学习的一个分支,通过分层学习获取数据的内在规律和表示层次。目前深度学习被广泛应用在计算机视觉、自然语言处理、语音识别、量子化学以及医学等领域,尤其在图像识别中表现出了出色的性能,这离不开大规模、高质量的数据集以及GPU性能的提升。在传统的图像识别任务中,训练数据的类分布往往受到人工的影响,即不同类别的样本数量基本一致。然而真实应用场景中的数据集通常表现出长尾分布,这给图像识别任务带来了巨大挑战——通过长尾数据集训练的深度模型在尾部类别上性能较差。如何利用长尾数据集训练得到在各个类别上表现优异的分类模型,已经成为计算机视觉与深度学习领域的研究热点之一。本文研究基于深度学习的长尾图像分类的改进方法,主要工作有如下几个方面:1.本文设计了一个用于长尾图像分类的卷积神经网络损失函数。图像分类神经网络中最常用的损失函数为交叉熵损失,虽然这一损失函数在平衡数据集上表现优异,但是在长尾数据集上,这一损失函数导致模型性能偏向头部类别,而尾部类别表现极差。为了解决这一问题,本文提出了一个新的卷积神经网络损失函数。这一损失函数在训练过程中不仅能提高特征提取网络的表示能力,还能平衡分类器在各个类别上的表现。具体来讲,该损失函数不但使模型学习到各类别图像的代表性特征,即同类之间的特征接近且不同类之间的特征远离,而且使模型给予尾部类别更多的关注。2.本文采用了一个用于长尾图像分类的卷积神经网络的事后调整策略。目前大多数长尾识别工作中用到的数据集是具有长尾分布的训练集和满足均匀分布的验证集、测试集。现有的重采样和重加权策略虽然在一定程度上改进了模型性能,但是并未解决长尾学习的训练阶段与测试阶段目标之间的矛盾。为了解决这一问题,我们根据最优传输的思想与方法,在测试阶段对网络的预测结果进行标签重分配,使预测的标签分布接近均匀分布。最后,本文在四个长尾数据集上评估了本文提出的方法,评估结果表明本文方法比大多数的长尾分类方法有效。
其他文献
行人重识别任务致力于跨摄像头的行人检索,是智能监控、安防等应用的核心组成部分,具有重要的实际意义。因为摄像头视角、光照变化、行人姿态、路况拥挤等因素的影响,跨摄像头下的行人匹配仍有很大的挑战性。任务的关键在于提取行人的鲁棒特征,即特征应排除上述干扰因素,聚焦于行人身份信息。传统手工图像特征已经取得了一定的成果,但由于传统手工特征表示能力有限,只能胜任于小型数据集,和实际应用需求还有较大差距。近年来
光动力治疗(Photodynamic therapy,PDT)作为一种相对无创的癌症治疗方式,能选择性的杀死光照区域的细胞。PDT利用光照激发光敏剂,并与分子氧间进行能量转移产生细胞毒性的活性氧,最终导致肿瘤细胞死亡和肿瘤消除。然而由于肿瘤缺氧微环境,限制了PDT的治疗效率。铁死亡是脂质过氧化引起的细胞死亡方式,同样产生活性氧(ROS)细胞毒性。因此,PDT与铁死亡的联合治疗,有望产生协同效应,增
背景:溃疡性结肠炎是一种机制不明、难以治愈、极易复发的肠道慢性非特异性炎症疾病。近年随着社会发展,溃疡性结肠炎患病率逐年升高,给患者工作与生活带来不便,也为社会带来巨大负担。虽然5氨基水杨酸与免疫抑制剂的广泛使用可以缓解患者的病痛,但由于溃疡性结肠炎机制不明,都存在副作用大、复发率高的问题。UC发生与发展中,NLRP3炎症小体信号通路所介导的炎症反应放大通路失控有着重要的作用。OMT可抑制NF-κ
证券市场的安稳对我国经济发展、社会稳定极为重要。因此,在证券违法行为频发的今天,需要借助有针对性的法律对投资者进行倾斜性保护,维护证券市场的稳定。长期以来,我国法律的重心在于对违法行为的打击,忽视了对投资者利益的保护。投资者维权条件苛刻,程序繁杂,时间漫长,即使投资者投入大量时间、精力,也难以获得足额赔偿。因此,需要完善法律中投资者保护条款,构建法律制度,为投资者维权提供更为便捷、高效的途径。“万
雾是一种较为常见的现象,通常情况下,由于能见度有限等外界环境的干扰,户外拍摄的图像会出现对比度低、图像模糊、颜色失真等图像质量下降的情况。如果把这些原始的退化图像作为输入,对后续高级计算机视觉任务,例如目标检测、人脸识别等,会产生较大的影响。图像去雾的目的是从输入的有雾图像中得到保留细节、色彩丰富的干净图像,图像去雾作为图像处理的重要环节受到了较多研究者的关注。当前的去雾算法研究中,基于图像增强的
胰十二指肠切除术是治疗壶腹肿瘤及壶腹周围肿瘤的标准术式。近年微创技术在胰腺外科的应用发展迅速,国内外学者通过不断改良手术策略,以降低术后并发症发生率、提高R0切除率与患者预后。较传统术式,腹腔镜胰十二指肠切除术由于具有更短的住院时间、更低的术中大出血风险等优点逐渐被胰腺外科医师所接受,但其操作较困难,学习曲线长,若不能实现R0切除会大大降低手术本身带来的益处,选择合理的手术入路、手术策略对实现R0
人体姿态估计,作为计算机视觉领域的重要发展课题,近年来受到广泛的关注。单张图像的多人人体姿态估计方法,致力于在检测出图像中所有人的实例的同时,定位每一个人的所有人体关键点的具体位置。其作为理解图像或视频中的人的行为的基础,为动作识别、行人重识别、行人追踪、三维人体姿态估计、三维人体重建等后续任务的实现提供了重要的辅助。过去的多人人体姿态估计的方法,大多是基于两阶段的,具体地,可大致分为自顶向下和自
点云的法向是各种点云处理任务中的基本特征,随着深度神经网络的兴起,最近已经有相当多的利用深度学习方法的点云法向估计方法被提出,相比于传统方法,这些基于深度神经网络的方法无论从速度上还是精度上都取得了巨大的成功。然而,大多数基于深度的方法都采用从输入数据提取出的特征直接回归法向量这一思路,这对于存在异常值的数据来说,往往表现得很差,对训练数据十分敏感。同时,这使理解黑盒模型中点云法向量估计机制变得十
三维人体重建是计算机视觉领域的重要问题,该问题关注的是如何在静态三维扫描数据的基础上,重建一个具有参数化表示人体网格模型,从而可以进行姿势驱动。三维人体重建在游戏、电影、虚拟现实和增强现实等领域具有十分广泛的应用,因此具有重要的意义。本文首先简单地介绍了三维人体重建问题的背景和相关工作,包括常见的三维数据结构、常见的参数化人体模型以及基于不同思路(优化或者回归)和不同表示(参数化模型或者隐式函数)
最优传输理论研究可分度量空间中概率测度之间的最优传输变换。给定两个概率分布和对应的传输代价函数,最优传输问题求解使得总传输成本最小的传输方案。近年来,随着最优传输理论和算法的不断发展,最优传输理论在深度学习、图像处理、经济学和医学等领域都发挥出巨大的作用。因此,研究计算最优传输问题的高效算法,有助于最优传输理论更好地应用于各个领域。本文首先对求解最优传输问题的三种不同算法进行了介绍和实验,它们分别