论文部分内容阅读
医学图像是医学诊断的重要媒介和依据。随着过去数十年信息技术的发展,人类已经积累了海量的医学图像数据,而计算机辅助诊断在医学图像分类和诊断中的作用也日益凸显。传统的医学图像分类算法一般假设不同类别的样本数量均衡,由此训练一个二分类或多分类的分类模型。但在实际临床应用中,由于疾病发病率较低、不同科室所针对的疾病不同等原因,使得收集到的病人数据往往是不平衡的。在不平衡数据上训练的二分类或多分类模型会有分类偏向,因此其性能会受到较大影响。而异常检测可以在多数类样本上训练模型并将少数类样本作为异常样本检测出来,进而实现不平衡数据上的二分类任务。所以,如何通过异常检测的方式,在医学图像的不平衡数据处理中逐渐受到越来越多的关注。现有的异常检测算法主要的研究对象为自然图像数据,并且很多传统算法通过手动方式提取特征。这些算法往往忽略了临床和医学图像本身的特点,难以捕捉到足够的具有可区分性的特征,因此在医学数据集上的表现欠佳。深度神经网络在自动提取特征方面表现出了巨大的能力,因此越来越多的工作也在使用神经网络进行异常检测。但深度神经网络的训练往往需要大量数据集,而临床研究等现实应用中由于科室划分细,标注成本高等原因,导致收集的数据量相对有限。因此,如何使用深度神经网络从相对较小的样本量中学习模型,以处理临床医学图像的异常检测,是一个值得研究的理论和应用问题。针对上述医学图像异常检测中的数据和模型的特点与问题,我们设计了以下算法:1.针对已有算法学习特征不充分的问题,提出了一种可以同时学习紧致性和描述性特征的异常检测模型。一个好的特征空间既要保证紧致性又要保证描述性。传统的异常检测算法往往集中在学习两种特性之一,而忽略了另一种特性。在本节,我们提出了一种带有约束的自编码器,它综合了传统的端到端学习算法与基于误差重建算法的优点,可以同时学习既紧密又有描述性的特征空间,使得正类样本相对于负类样本能够被更有效地映射到特征表达空间,从而增加正类与负类样本的可区分度。而使用解码器重建的过程可以进一步放大二者的差异,使得正类样本与负类样本的得分差异更大。在这项工作中,我们设计了一个约束层,并将它添加在自编码器的抽象特征层上。通过联合优化网络的约束层损失与重建损失,我们可以获得一个更好的正类与负类的分类边界,从而提升异常检测的效果。我们给出了算法理论的定性分析,证明它存在一个使得正负类样本差异性最大的最优解。我们在两个临床乳腺肿瘤和一个胸部CT数据集上进行了实验,该算法取得了比单独使用端到端或误差重建算法更好的结果。2.针对正类与负类样本可区分性差的问题,提出了一种通过观察样本对模型的影响来检测异常样本的方法。理解样本与模型之间的关系是检测异常样本的方式之一。以往的算法通常致力于固定模型输入样本以分析模型的输出,或者扰动样本以观察模型的变化。在本节,我们提出了一种简单有效的观察给定样本对模型参数影响的算法,该方法可以嵌入到自编码器或者分类器等各种模型中以实现不同类型的异常检测任务。通过观察单个样本对模型的整体影响,我们可以进一步定量化给定样本与模型以及训练集之间的关系,进而确定其是否是异常样本。具体而言,在获得一个由训练集训练的模型之后,我们再使用单个样本来微调模型的一层或者多层,然后再观察微调后模型的变化。我们提出了响应分数来定量化的衡量这种变化,而响应分数就可以用来区分是否是异常样本。我们对该算法进行了理论分析,证明它确实存在一个最优微调次数,使得正负类样本的可区分度最高。我们将该算法用于负类样本检测,样本标签错误检测以及域标签错误检测等异常检测问题,算法在乳腺肿瘤分类、血细胞检测、荧光免疫细胞检测等任务上取得了很好的效果。3.针对医学图像样本量较小的问题,提出了一种基于自监督方式学习医学图像特征的方法。异常检测中最重要的问题是如何学习给定类别样本的特征,自监督学习是学习特征的一种重要方式。以往的自监督学习主要关注自然图像的多分类问题,而在医学图像中的异常检测算法多使用了自编码器做为基本的自监督学习模型。为了从样本数量较少的单类医学数据集中学习特征,在本节,我们设计了一个多分类任务作为自监督学习的基础模型,并针对医学图像提出了一种基于自监督学习的异常检测算法。通过训练模型完成手工构造的一个自监督分类任务,该算法可以学习到与给定的正类样本相关的特征,并根据这些特征完成进一步的异常检测。因此,当输入异常样本时,此分类模型的输出会发生大的变化,由此可以检测异常样本。我们在临床收集的乳腺肿瘤分类、肾良性/恶性肿瘤分类和公共生物医学数据集荧光细胞分类三个任务上进行了实验。相对于已有的异常检测算法,本章算法取得了更好的效果。我们也实验验证其收敛速度更快,在使用不同变换时其稳定性也很好。我们也与采用了过采样等方式的二分类方法进行了对比,本章提出的单类学习方法取得了相似甚至更好的结果。4.针对医学图像维度较高且数据复杂的问题,提出了一种嵌入先验医学知识的异常检测方法。在医学图像数据量较少的情况下,如何嵌入医学知识以辅助模型更好地完成相应任务也是医学图像处理领域一项重要的研究内容。这类方法通常关注如何根据相关先验知识设计相应的模型。以往的基于先验知识的方法,其嵌入的知识一般是组学或其他相关特征,而且其任务多集中在医学图像分割领域。就我们所知,本章是第一篇讨论如何在医学图像的异常检测中嵌入先验知识的工作。在本节,我们提出了一种基于先验知识的异常检测算法。该算法可以嵌入基于先验知识的图像变换,通过学习这种变换,算法可以根据相应的先验知识建立起一个只对正类样本响应的模型。我们观察到在乳腺钙化、皮肤癌等疾病中,颜色(如白/黑,红/其他等)是影响疾病诊断的重要因素。基于这一现象,我们提出了一种变换颜色以学习相关特征的方法。通过训练一个区分颜色变换的分类器,我们可以训练一个对正类样本识别颜色的模型。我们在乳腺钙化、肾良性恶性肿瘤和皮肤癌这三类疾病中进行了实验,取得了较好的效果。而且,该算法在样本量较小时也表现出了很好的性能。