论文部分内容阅读
研究背景:肺癌是全世界癌症相关死亡的最主要原因。肺癌由于其无症状生长的特性,导致肺癌患者往往在晚期才被诊断。流行病学调查研究显示,早期肺癌患者的5年生存率可达56%,而晚期肺癌的5年生存率仅有5%,因此肺癌的早期筛查是提高肺癌患者生存时间的关键手段;而相关研究显示,低剂量CT筛查可以使肺癌高危患者的死亡率降低14-20%。由于放射科医师的相对匮乏,临床上大量的影像资料严重增加了放射科医师的负担,且在长时间、高强度阅片的情况下容易出现判读不准确、不稳定等问题。因此人们开始诉诸于计算机辅助诊断系统,希望借此减少放射科医师负担、提高临床诊断效率。计算机辅助诊断的发展主要经历了两个阶段,第一阶段主要是基于以图像特征为输入的机器学习方法发展阶段(又称为影像组学),第二阶段主要是基于以图像直接作为输入的深度学习方法发展阶段。存在的问题和研究目的:近年来深度学习的崛起,为计算机辅助诊断领域带来了新的机遇,但同时深度学习方法在医学影像中的应用作为一门新兴学科,其发展仍然处于起始阶段,当中还存在一些亟待解决的问题:一方面,当前的诸多算法几乎只利用患者的非结构化数据进行分析,如CT、MRI、X片等,而忽略患者的一些结构化数据,如临床基线数据、疾病史、遗传史、化验检查等,但是这些数据都是对一个患者病情做出准确判断的重要依据,因此如何整合患者的多模态数据来对疾病做出诊断将是一个我们需要探索的问题;另一方面,深度学习方法是一种可以自动提取图像特征、并进行自我学习的算法,因此人们将主要精力都放在了深度学习模型的改进和改造上,而忽略了特征工程对模型性能的影响,尤其在医学影像领域,病灶周围的组织会对模型产生极大的干扰,因此如何设计良好的特征,减少这些干扰对模型的影响是另一个待解决的问题。为此,针对目前存在的问题,论文展开了两方面的研究,一是构建融合模型,试图将患者结构化和非结构化数据整合以提高肺结节的分类表现;二是探讨不同尺度和不同模式的肺结节图像对深度学习模型分类效果的影响,并探索一种新的肺结节图像模式的可行性。研究内容和结果:论文针对当前深度学习方法在肺结节计算机辅助诊断中存在的问题展开了如下研究:(1)针对当前算法不能充分利用患者信息的问题,提出了SUDFNN和SUDFX两种融合算法,该算法能够将患者的结构化数据和非结构化数据进行联合建模,通过从多模态数据中挖掘有效信息来对疾病做出更全面的诊断。利用肺癌数据集LIDC-IDRI标注文件中的结构化数据,以及LUNA16数据集中的CT图像数据,我们提取了684个肺结节的3D图像及其相应的9个结构化特征。实验结果表明,和仅利用图像数据的算法比较,结构化特征的加入能显著提升肺结节的分类表现,模型的综合指标最佳可以达到:准确率92.6%,敏感性91.9%,特异性93.4%,ROC曲线下面积0.971。(2)针对当前深度学习的特征工程问题,探究了不同尺度及不同模式肺结节图像对模型分类表现的影响,并提出了一种2D多视图融合(2D MVF)的肺结节图像处理方法。该方法比传统的2D方式能获取更多的肺结节信息,同时又能比3D的方式引入更少的干扰组织。为了验证模型,对LIDC-IDRI和LUNA16数据集进行了预处理,得到了16、25、36三种尺度下2D、3D、2D全视图融合(2D FVF)以及2D多视图融合(2D MVF)4种不同模式的肺结节图像,然后构建了2D CNN、3D CNN、2D全视图融合卷积神经网络(2D FVF-CNN)、2D多视图融合卷积神经网络(2D MVF-CNN)四种模型。利用上述样本对模型进行训练和验证,最终结果表明,2D多视图融合模式下的肺结节图像相对于其他模式图像具有更佳的肺结节分类表现,其中最佳准确性达到92.8%,敏感性91.3%,特异性93.6%,ROC曲线下面积0.963;对比多种尺度图像,小尺度下的分类表现相对更佳。研究结论和意义:(1)相对于仅利用图像数据的模型,结构化数据的引入可以提升分类表现;(2)结构化数据可以捕捉肺结节之间多方面异质性来对结节进行鉴别;(3)深度学习模型的特征工程对其分类效果有较大影响,其中2D多视图融合图像在获取较多的肺结节信息的同时引入更少的干扰性组织,能显著提升模型分类表现。论文提出的SUDFNN和SUDFX两种融合模型算法可以对结构化数据和非结构化数据进行有效地联合建模,以及探讨了不同尺度及不同模式肺结节图像特征工程对模型分类表现的影响、并据此提出了2D多视图融合的肺结节图像处理模式,均可以提高肺结节的分类性能、且具有良好的扩展性。这些融合模型算法及融合图像模式不仅丰富和拓展了深度学习等方法理论及其应用研究的内容和思路,而且为后续医疗大数据分析方法体系构建奠定了良好的基础,具有重要的学术理论意义和潜在的应用价值。