论文部分内容阅读
近年来,乳腺癌(Breast Cancer,BCa)是全球女性死亡率最高的癌症之一。由于乳腺中的组织较为疏松且乳腺周围分布着大量密集的淋巴结,肿瘤细胞很容易随着淋巴液和血液转移至身体的其他器官,即发生BCa的远处转移。当发生远处转移时,需先进行术前新辅助治疗(Neoadjuvant Therapy,NAT)直至患者体内的残余肿瘤负荷(Residual Cancer Burden,RCB)降低至一定水平,即具有手术指征后,再进行局部肿瘤的切除手术。RCB的计算需要6个参数,其中计算最为繁琐且困难的是肿瘤细胞密度(Tumor Cellularity,TC),它在病理学上被定义为显微镜下病理切片的肿瘤床(Tumor Bed,TB)中肿瘤细胞核面积的比例。由于细胞核尺寸较小且分布密集,手动计算TC极为费时、容易出错且精度较低。因此,设计算法自动估计TC能有效减轻病理医生的负担,使TC和RCB的计算更为高效。
目前使用的TC自动估计方法有两种:基于细胞核分割的两阶段TC估计和单个阶段的TC估计。前者基于TC的病理学定义,根据分割模型预测结果计算TC,后者则使用深度学习模型直接预测TC,前者比后者更接近病理专家的工作流程,容易解释,但其性能过度受限于分割模型的性能。为提升TC估计方法的性能,本文利用当前火爆的机器学习算法,提出基于分割语义特征指导的TC回归模型。
首先,本文改进了U-Net,以实现弱监督细胞核分割网络,该网络能够在仅标注出细胞核位置坐标和对应类别的标签下,实现对细胞核的准确分割。具体而言:首先根据弱标注标签生成两类像素级别分割标签即轮廓标签和位置标签,再向改进的U-Net中引入深度监督机制,并根据两类标签计算分割损失。为准确评估分割网络的性能,在武汉大学中南医院病理科专家的指导下,对测试集的细胞核进行了手工标注,并将其作为评估分割网络的真实标签。实验表明,使用位置标签辅助轮廓标签训练后,能显著降低分割网络对前景细胞核的虚检,并将平均交并比(mean Intersection Over Union,mIOU)由54.42%提高至58.80%。
而后,本文在细胞核分割网络和TC回归网络的基础上,提出了基于语义特征指导的TC回归模型。考虑到分割网络能提取出对TC估计有指导意义的细胞核高阶语义特征,故将分割网络解码器的多尺度特征图与TC回归网络相应层的特征图融合,融合方式为通道级联和卷积降维。
进一步地,本文依据标签分布学习(Label Distribution Learning,LDL)的理论,提出了基于深度期望估计(Deep Expectation Estimation,DEE)的TC回归网络。考虑到以TC标签值为中心的邻域范围内数值均可在一定程度上合理且正确地描述图像块,故为对应位置处的正确标签分配伪高斯分布的权重。将浮点数TC值编码成101维标签分布向量,以避免在当前标注数据集上过拟合。使用LDL和加权多分类交叉熵训练回归网络,并基于DEE计算TC值。将语义特征指导和DEE相结合后,模型性能提升,验证了本文模型的有效性。当基础网络为ResNet101时,本文模型的预测概率(Prediction Probability,pk)为0.9335,而直接建模成回归问题时的pk值为0.9154。
综上所述,本文基于改进的U-Net和LDL理论,提出基于语义特征指导的TC回归模型,模型包括细胞核分割网络、特征图融合模块和TC回归网络。分割网络仅需弱标注标签,推广性好。模型实现了TC自动估计,减轻了病理医生的负担,提高了TC和RCB的计算精度和计算效率,对BCa患者治疗方案的设计、RCB指标的临床推广和BCa化疗药品的研发具有重大意义。
目前使用的TC自动估计方法有两种:基于细胞核分割的两阶段TC估计和单个阶段的TC估计。前者基于TC的病理学定义,根据分割模型预测结果计算TC,后者则使用深度学习模型直接预测TC,前者比后者更接近病理专家的工作流程,容易解释,但其性能过度受限于分割模型的性能。为提升TC估计方法的性能,本文利用当前火爆的机器学习算法,提出基于分割语义特征指导的TC回归模型。
首先,本文改进了U-Net,以实现弱监督细胞核分割网络,该网络能够在仅标注出细胞核位置坐标和对应类别的标签下,实现对细胞核的准确分割。具体而言:首先根据弱标注标签生成两类像素级别分割标签即轮廓标签和位置标签,再向改进的U-Net中引入深度监督机制,并根据两类标签计算分割损失。为准确评估分割网络的性能,在武汉大学中南医院病理科专家的指导下,对测试集的细胞核进行了手工标注,并将其作为评估分割网络的真实标签。实验表明,使用位置标签辅助轮廓标签训练后,能显著降低分割网络对前景细胞核的虚检,并将平均交并比(mean Intersection Over Union,mIOU)由54.42%提高至58.80%。
而后,本文在细胞核分割网络和TC回归网络的基础上,提出了基于语义特征指导的TC回归模型。考虑到分割网络能提取出对TC估计有指导意义的细胞核高阶语义特征,故将分割网络解码器的多尺度特征图与TC回归网络相应层的特征图融合,融合方式为通道级联和卷积降维。
进一步地,本文依据标签分布学习(Label Distribution Learning,LDL)的理论,提出了基于深度期望估计(Deep Expectation Estimation,DEE)的TC回归网络。考虑到以TC标签值为中心的邻域范围内数值均可在一定程度上合理且正确地描述图像块,故为对应位置处的正确标签分配伪高斯分布的权重。将浮点数TC值编码成101维标签分布向量,以避免在当前标注数据集上过拟合。使用LDL和加权多分类交叉熵训练回归网络,并基于DEE计算TC值。将语义特征指导和DEE相结合后,模型性能提升,验证了本文模型的有效性。当基础网络为ResNet101时,本文模型的预测概率(Prediction Probability,pk)为0.9335,而直接建模成回归问题时的pk值为0.9154。
综上所述,本文基于改进的U-Net和LDL理论,提出基于语义特征指导的TC回归模型,模型包括细胞核分割网络、特征图融合模块和TC回归网络。分割网络仅需弱标注标签,推广性好。模型实现了TC自动估计,减轻了病理医生的负担,提高了TC和RCB的计算精度和计算效率,对BCa患者治疗方案的设计、RCB指标的临床推广和BCa化疗药品的研发具有重大意义。