基于深度神经网络的医学图像异常检测研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xcswzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学图像是医学诊断的重要媒介和依据。随着过去数十年信息技术的发展,人类已经积累了海量的医学图像数据,而计算机辅助诊断在医学图像分类和诊断中的作用也日益凸显。传统的医学图像分类算法一般假设不同类别的样本数量均衡,由此训练一个二分类或多分类的分类模型。但在实际临床应用中,由于疾病发病率较低、不同科室所针对的疾病不同等原因,使得收集到的病人数据往往是不平衡的。在不平衡数据上训练的二分类或多分类模型会有分类偏向,因此其性能会受到较大影响。而异常检测可以在多数类样本上训练模型并将少数类样本作为异常样本检测出来,进而实现不平衡数据上的二分类任务。所以,如何通过异常检测的方式,在医学图像的不平衡数据处理中逐渐受到越来越多的关注。现有的异常检测算法主要的研究对象为自然图像数据,并且很多传统算法通过手动方式提取特征。这些算法往往忽略了临床和医学图像本身的特点,难以捕捉到足够的具有可区分性的特征,因此在医学数据集上的表现欠佳。深度神经网络在自动提取特征方面表现出了巨大的能力,因此越来越多的工作也在使用神经网络进行异常检测。但深度神经网络的训练往往需要大量数据集,而临床研究等现实应用中由于科室划分细,标注成本高等原因,导致收集的数据量相对有限。因此,如何使用深度神经网络从相对较小的样本量中学习模型,以处理临床医学图像的异常检测,是一个值得研究的理论和应用问题。针对上述医学图像异常检测中的数据和模型的特点与问题,我们设计了以下算法:1.针对已有算法学习特征不充分的问题,提出了一种可以同时学习紧致性和描述性特征的异常检测模型。一个好的特征空间既要保证紧致性又要保证描述性。传统的异常检测算法往往集中在学习两种特性之一,而忽略了另一种特性。在本节,我们提出了一种带有约束的自编码器,它综合了传统的端到端学习算法与基于误差重建算法的优点,可以同时学习既紧密又有描述性的特征空间,使得正类样本相对于负类样本能够被更有效地映射到特征表达空间,从而增加正类与负类样本的可区分度。而使用解码器重建的过程可以进一步放大二者的差异,使得正类样本与负类样本的得分差异更大。在这项工作中,我们设计了一个约束层,并将它添加在自编码器的抽象特征层上。通过联合优化网络的约束层损失与重建损失,我们可以获得一个更好的正类与负类的分类边界,从而提升异常检测的效果。我们给出了算法理论的定性分析,证明它存在一个使得正负类样本差异性最大的最优解。我们在两个临床乳腺肿瘤和一个胸部CT数据集上进行了实验,该算法取得了比单独使用端到端或误差重建算法更好的结果。2.针对正类与负类样本可区分性差的问题,提出了一种通过观察样本对模型的影响来检测异常样本的方法。理解样本与模型之间的关系是检测异常样本的方式之一。以往的算法通常致力于固定模型输入样本以分析模型的输出,或者扰动样本以观察模型的变化。在本节,我们提出了一种简单有效的观察给定样本对模型参数影响的算法,该方法可以嵌入到自编码器或者分类器等各种模型中以实现不同类型的异常检测任务。通过观察单个样本对模型的整体影响,我们可以进一步定量化给定样本与模型以及训练集之间的关系,进而确定其是否是异常样本。具体而言,在获得一个由训练集训练的模型之后,我们再使用单个样本来微调模型的一层或者多层,然后再观察微调后模型的变化。我们提出了响应分数来定量化的衡量这种变化,而响应分数就可以用来区分是否是异常样本。我们对该算法进行了理论分析,证明它确实存在一个最优微调次数,使得正负类样本的可区分度最高。我们将该算法用于负类样本检测,样本标签错误检测以及域标签错误检测等异常检测问题,算法在乳腺肿瘤分类、血细胞检测、荧光免疫细胞检测等任务上取得了很好的效果。3.针对医学图像样本量较小的问题,提出了一种基于自监督方式学习医学图像特征的方法。异常检测中最重要的问题是如何学习给定类别样本的特征,自监督学习是学习特征的一种重要方式。以往的自监督学习主要关注自然图像的多分类问题,而在医学图像中的异常检测算法多使用了自编码器做为基本的自监督学习模型。为了从样本数量较少的单类医学数据集中学习特征,在本节,我们设计了一个多分类任务作为自监督学习的基础模型,并针对医学图像提出了一种基于自监督学习的异常检测算法。通过训练模型完成手工构造的一个自监督分类任务,该算法可以学习到与给定的正类样本相关的特征,并根据这些特征完成进一步的异常检测。因此,当输入异常样本时,此分类模型的输出会发生大的变化,由此可以检测异常样本。我们在临床收集的乳腺肿瘤分类、肾良性/恶性肿瘤分类和公共生物医学数据集荧光细胞分类三个任务上进行了实验。相对于已有的异常检测算法,本章算法取得了更好的效果。我们也实验验证其收敛速度更快,在使用不同变换时其稳定性也很好。我们也与采用了过采样等方式的二分类方法进行了对比,本章提出的单类学习方法取得了相似甚至更好的结果。4.针对医学图像维度较高且数据复杂的问题,提出了一种嵌入先验医学知识的异常检测方法。在医学图像数据量较少的情况下,如何嵌入医学知识以辅助模型更好地完成相应任务也是医学图像处理领域一项重要的研究内容。这类方法通常关注如何根据相关先验知识设计相应的模型。以往的基于先验知识的方法,其嵌入的知识一般是组学或其他相关特征,而且其任务多集中在医学图像分割领域。就我们所知,本章是第一篇讨论如何在医学图像的异常检测中嵌入先验知识的工作。在本节,我们提出了一种基于先验知识的异常检测算法。该算法可以嵌入基于先验知识的图像变换,通过学习这种变换,算法可以根据相应的先验知识建立起一个只对正类样本响应的模型。我们观察到在乳腺钙化、皮肤癌等疾病中,颜色(如白/黑,红/其他等)是影响疾病诊断的重要因素。基于这一现象,我们提出了一种变换颜色以学习相关特征的方法。通过训练一个区分颜色变换的分类器,我们可以训练一个对正类样本识别颜色的模型。我们在乳腺钙化、肾良性恶性肿瘤和皮肤癌这三类疾病中进行了实验,取得了较好的效果。而且,该算法在样本量较小时也表现出了很好的性能。
其他文献
雷达多目标跟踪技术在区域监视、空中预警等领域有着广泛的应用,从而成为了研究的热点。随着隐身技术的发展及无人机等低小慢目标的出现,获取的观测存在漏检、虚警、观测源不确定等问题,这对多目标跟踪技术提出了严重的挑战。多目标跟踪的任务是从这些观测中估计出随时间变化的目标数目、状态和轨迹信息。随机有限集(Random Finite Set,RFS)理论的出现为这一任务的实现提供了新的解决方案。RFS可以对观
学位
混合层是十分典型的流动现象,既涉及拟序涡结构等机理问题,又与混合效率、流动噪声、流动阻力等实际问题密切相关。开展混合层研究具有重要的理论意义和工程价值。但混合层流动时空尺度范围广,高维非线性,且实验和数值仿真产生的数据量极大,这为机理分析和流动控制研究带来了严峻的挑战。本文以不可压混合层和超声速混合层为研究对象,利用机器学习方法,系统地开展了混合层降阶分析和流动控制研究。提出了一种基于机器学习的降
学位
移动互联网时代,智能移动设备已经渗透到个人与社会生活的方方面面,网络中的移动应用流量数据被赋予了更多的意义,移动网络的安全和管理也受到越来越多的重视。移动应用流量分类作为网络端识别不同移动应用与异常流量的有效手段,是实现移动网络安全和管理的技术基础,然而由于移动应用流量与传统网络流量在流量行为与特征上的显著差异,且相关研究尚不充分,移动应用流量分类技术仍面临一系列的未知与挑战。流量分类技术经过多年
学位
我国航天事业的迅猛发展,对飞行器设计水平提出了更高的要求。构建飞行器有限元或计算流体等高保真模型,既可以灵活方便地评估设计方案的性能、验证设计的优劣,又可以基于高保真仿真分析进行优化设计和可靠性分析,从而显著提高飞行器设计水平。但是,由于“所有模型都是真实物理过程的近似”,在应用高保真模型进行飞行器设计之前,必须首先对模型的精度和置信水平进行评估,即模型确认。目前,飞行器高保真模型存在高计算复杂性
学位
中层大气是日地耦合系统中重要的区域,大气重力波在上传的过程中输送热量、质量和动量是中层大气最主要的动力过程,影响着中层大气的环流结构和大气成分。由于重力波的频谱波段很宽,不同卫星探测器有其特定的优越性和局限性,有必要使用多种卫星资料的综合探测手段来研究重力波特征。尤其对于常用的高光谱资料来反演重力波信号必须考虑通道选择问题,以有效提取不同高度处的重力波信号。其次,青藏高原作为大气重力波的重要源地,
学位
航天器姿态与轨道运动的动力学建模与控制方法决定了空间任务的成败,姿轨控制在空间近距离交会对接、目标监视、在轨服务等空间任务中扮演着重要角色,传统将姿态轨道运动分别单独建模、独立控制的模式无法充分考虑平动与转动运动的耦合影响,无法满足某些任务对位姿控制的高效性与高精度的需求。因此,航天器姿轨一体化建模与高效率高精度控制方法,对于航天器近距离操作任务具有重要的理论意义与工程应用价值。本文对航天器姿轨一
学位
随着信息技术的飞速发展,软件作为基础设施,在各个领域的应用中起着至关重要的作用,协调控制了各项工作的正常运行。然而,不断增长的软件规模以及复杂度同时也带来了软件缺陷数量和复杂度的不断增长。为应对日益严重的软件缺陷问题,学术界和工业界投入大量精力来研究自动化软件缺陷定位技术。由于程序逻辑结构的复杂性和多样性,从程序内部根据其控制和依赖关系去查找缺陷变得十分困难,不确定性也较为突出,因此,许多研究人员
学位
通过分析文本从而实现抽取特定的事件或事实信息的过程,被称为信息抽取。通过对结构不统一的非结构化文本进行信息抽取,能够得到简单明确的结构化数据,便于人们对数据进行高效检索及管理。实体关系抽取作为信息抽取技术的主要任务,在近年来受到学术界和产业界的极大关注。实体关系抽取的目的在于给定一段非结构文本后,从句子中寻找、识别和分类相关实体以及实体之间的关系。在许多下游自然语言处理任务中,例如信息检索、搜索引
学位
相对论回旋管具有功率容量高、束-壁距离远、束-波换能谐振腔几何参数敏感性低的优点,可以在高频段特别是毫米波波段实现高功率、长脉冲输出。传统的热阴极驱动的回旋管输出功率最高也没有超过100兆瓦,采用爆炸发射阴极驱动可以获得更高的输出功率。国外在80-90年代开展了爆炸发射阴极驱动的相对论回旋管研究,但受到当时爆炸发射阴极技术水平等限制,这类器件的束流碰壁损失接近90%,电子束的速度离散大,功率效率比
学位
计算关联成像作为一种新型成像技术,通过光场调制器件进行结构化照明,并使用无空间分辨率的桶探测器测量总光强,实现了以计算重构的间接成像方式代替面阵探测器的直接成像。相对于传统光学成像,计算关联成像在抗干扰性能、光源选择范围、可物像分离等方面具有独有的优势,因此在X光显微成像、太赫兹成像、三维激光雷达、光学加密等领域受到广泛关注。然而,受限于自身欠采样过程、重构算法复杂度等因素,计算关联成像依然面临着
学位