论文部分内容阅读
肺癌是当今对人类生命健康威胁最大的恶性肿瘤之一,在各类癌症中其发病率和死亡率最高。早期发现与诊断肺癌是提高患者存活率的关键。肺癌早期的表征形式为肺结节,因此肺结节的早期检测、准确分割和分类非常关键,可以帮助医生更好地诊断和治疗肺癌。作为非侵入的方法,计算机断层扫描(computed tomography,CT)具有采集速度快、灵敏度高、成本低、可用性广等优点,是目前检测和诊断肺结节最常用的成像模式。肺部CT图像是粒子物理与原子核物理学科在医学图像研究领域的重要应用,它可以向医生提供肺部组织的生理结构、功能状态及病理学等相关信息用于准确诊断。然而,随着CT采集速度的加快和采集数据量的增大,一个患者的CT图像可达上百张,因此人工阅片工作成为放射科医生的沉重负担,容易造成医生的阅片疲劳,导致漏判和误判。为减轻医生的阅片工作量,给医生客观地提供可疑候选结节的标记,研究人员提出了肺部计算机辅助诊断(computer-aided detection,CAD)系统,以辅助医生准确快速地诊断患者的病情。在肺部CT图像上,肺结节存在不同的形状、灰度、轮廓或位置,并可能粘连其它组织,如邻近的血管或胸膜表面,因此不同类型肺结节的准确检测和分割在CAD系统研究领域中仍具有复杂性和挑战性。此外,由于一些非结节(如假阳性结节)的灰度和形状外观与结节非常相似,放射科医生难于准确分类所有可疑候选结节,容易造成误判。因此,在CAD系统中,结节非结节的准确分类也非常必要和关键。围绕CAD系统中肺结节分割及分类的核心问题,本文以影像组学(radiomics)和机器学习为基础,深入研究了肺结节CT图像的分割及分类方法。研究内容主要分为以下四个部分:1.解析XML文件的诊断标注信息、读取DICOM文件的相关信息和处理图像数据。诊断标注信息和图像数据信息是开展肺结节CT图像分割及分类算法研究的前提和关键。针对公开数据库LIDC/IDRI中的XML和DICOM两种格式文件,本文通过解析XML文件获得至少三位放射学家所标注肺结节的切片位置和诊断标注信息,根据切片位置读取对应DICOM文件中的相关信息和CT图像数据,并对图像数据进行处理。根据诊断标注信息确定结节的位置和轮廓点。这些工作为后续肺结节CT图像分割及分类方法的研究奠定了基础。2.建立了基于Otsu阈值和α-hull轮廓修复算法的分割方法。为分割不同类型肺结节并有效避免肺部轮廓修复中的欠修复和过修复问题,提高不同类型肺结节的分割性能,本文通过对比肺部轮廓修复前后的豪斯多夫距离(Hausdorff distance,HSD)和肺部面积改进α-hull算法。对于不同类型肺结节,研究结果显示α-hull轮廓修复算法均能自适应地获取最优α值,从而有效修复各种肺部轮廓。分割方法采用多种量化指标对分割性能进行定量评价,不仅从多个维度评价分割性能,而且可以综合分析分割结果产生的原因。此外,分割方法取得了良好的 Jaccard 指数(Jaccard index,JI)和戴斯相似性系数(Dice similar coefficient,DSC)结果。3.深入研究基于改进的U-Net网络的分割方法以提高肺结节分割性能。在α-hull轮廓修复算法的基础上,通过引入批规范化(batchnormalization,BN)对U-Net网络进行改进,有效改善了网络的分割性能,DSC值高于目前广泛使用的分割方法。相较于基于Otsu阈值和α-hull轮廓修复算法的分割方法,基于改进的U-Net网络的分割方法分割效果更好,性能更优。这些分割方法的研究结果对于辅助放射科医生准确分割肺结节提供了有效的途径。4.进一步采用两种方法研究结节和非结节的分类问题,分别是基于影像组学的分类方法和基于DenseNet卷积神经网络的分类方法。在前者方法中,首先计算555个影像组学特征,然后使用3种特征选择方法选取不同特征数量进行特征降维,最后根据训练数据集和测试数据集的不同分割比率,训练12种机器学习的分类器模型。研究结果表明,当特征选择方法为递归特征消除(recursive feature elimination,RFE),特征数量为15个,训练数据集和测试数据集的比率为9:1时,随机森林(random forest)的分类性能最好。在后者方法中,采用DenseNet卷积神经网络分类结节和非结节。研究结果表明,DenseNet网络具有良好的分类性能,其在结节和非结节分类问题中具有可行性。最后,本文对两种分类方法进行了对比。对于结节和非结节分类问题,这两种方法均具有良好的分类性能。这些研究结果对于辅助放射科医生准确分类结节和非结节具有一定应用价值。综上,本文针对肺结节CT图像分割及分类研究中存在的问题,进行了一系列的方法改进和应用研究,以期对辅助放射科医生准确分割和分类肺结节有所帮助。