论文部分内容阅读
面向钼靶X线影像的癌症诊断是当前应用最为广泛的乳腺癌诊断手段之一。钼靶X线影像读片和诊断需要医生具有非常深厚的医学知识和丰富的诊断经验,且诊断结果易受医生诊断技术和能力的影响。使用计算机技术自动依据钼靶X线影像进行乳腺癌的分析和诊断,不仅可以为医生提供客观的诊断建议,还可以节省宝贵的医疗资源和提升乳腺癌诊断效率。近几十年来,研究者们已经提出众多面向钼靶X线乳腺影像癌症诊断的机器学习算法,这些算法除了包含多种类型的鉴别性特征提取器和分类器外,还包括影像中胸肌等噪音区域的删除等。然而这些方法存在一些问题:(1)钼靶X线乳腺影像非常模糊,肿块与其他人体组织重叠在一起,肿块检测和分类难度大、准确性低;(2)现有的算法没有充分利用钼靶X线乳腺影像多视角等特性、对乳腺影像潜在特征挖掘不完全;(3)大量的无标注钼靶X线乳腺影像没有被充分利用。本文从钼靶X线乳腺影像的特性出发,以图像处理技术和机器学习技术为基础,对乳腺癌诊断技术进行研究。本文的研究内容和主要创新点有以下四个方面:第一,针对钼靶X线影像中乳腺肿块模糊的边缘和纹理、复杂的背景,肿块检测算法设计难度较大、准确性低的问题,本文提出一种基于数学形态学方法和图像模板匹配算法的乳腺肿块检测方法。该方法首先应用数学形态学方法中的腐蚀和膨胀操作,将钼靶X线影像中可能包含乳腺肿块的高能量区域变换成一个圆形区域;再依据变换后肿块的特征匹配出这些高能量区域,使用图像模板匹配算法定位出所有疑似包含乳腺肿块的区域;进而使用一个基于卷积神经网络(Convolutional Neural Network,CNN)的分类网络对这些疑似区域进行分类,确认这些疑似区域所包含的是影像的背景或正常的人体组织,还是乳腺肿块,完成乳腺肿块的粗定位工作,算法在DDSM数据集上的肿块检测TPR为96%,FPI值为0.53,均优于所有对比算法;最后使用粒子群优化(Particle Swarm Optimization,PSO)算法,以基于CNN的乳腺肿块分类网络作为适应度函数,对定位出的乳腺肿块位置进行优化,得到更为精准的乳腺肿块位置信息。第二,针对乳腺肿块特征不明显、难以目标精确定位和分类的问题,本文设计了一种基于相关系数的特征图通道间的注意力机制模块,利用同一个卷积层生成的所有特征图相互之间的关系,使用深度学习网络自动学习每个特征图在乳腺肿块位置检测和分类任务中的贡献大小,找出贡献大的特征图并增强它们的权重,同时抑制贡献小的特征图的权重,提升模型乳腺肿块位置检测和分类的性能。该方法首先计算卷积层输出的所有特征图间的相关系数,得到相关系数矩阵。再使用两个全连接层对相关系数矩阵的特征进行提取和变换,依据特征图对乳腺肿块位置检测和分类任务的贡献大小分别赋予不同权重,将权重应用于每个特征图。在通用的两阶段和一阶段目标检测框架中用于主干网络的特征提取,提升模型提取乳腺肿块特征的能力。第三,为了充分挖掘钼靶X线乳腺影像中的潜在特征,本文提出的多视角深度学习网络使用两个卷积深度学习子网络分别从内外斜侧位(Mediolateral Oblique,MLO)和头尾位(Craniocaudal,CC)两个视角的乳腺肿块影像中提取互补性的特征,并使用注意力机制提升对乳腺肿块分类任务贡献大的特征图的权重,从对分类任务贡献大的特征图上提取更具判别能力的特征。同时,将基于Fuzzy C-means算法的惩罚项添加到交叉熵目标函数中,通过最大化类间距离和最小化类内距离的方式增强模型的泛化能力,实现乳腺肿块分类模型性能的提升。算法在DDSM数据集的准确率、敏感性、特异性、F1 Score和AUC 值分别达到了 78.39%、82.69%、74.07%、78.89%和 0.8347,优于所有对比算法。第四,针对大量无标注的钼靶X线乳腺影像数据无法被有效利用的问题,本文使用半监督学习技术,首先使用部分有标签的乳腺肿块影像对模型进行训练,使用训练出的模型对无标注乳腺肿块样本进行预测,将预测结果作为无标注样本的伪标签。通过对无标注的样本设置伪标签的方式,将其应用到监督学习的模型训练中提升模型的乳腺肿块分类性能。为了避免将置信度低的伪标签样本应用到模型训练中,本文基于自步学习方法(Self-paced learning)和K-Means聚类算法,将置信度高的伪标签样本逐步应用于监督学习的模型训练,通过增加训练样本的方式提升模型拟合真实数据分布的能力。将MLO视角和CC视角肿块影像的分类结果一致性作为惩罚项加入到模型训练的交叉熵目标函数中,减弱模型对同一个肿块两个视角影像预测结果不一致的现象,提升模型提取的乳腺肿块特征的有效性。针对部分良性肿块与恶性肿块之间差异较小的问题,本文使用Compact Bilinear Pooling(CBP)技术提取MLO和CC视角肿块影像的细粒度特征,通过提升模型提取特征的能力提升模型的分类性能。