论文部分内容阅读
肺癌是一种肺部恶性肿瘤,具有高度的致死性。非小细胞肺癌是肺癌的一种,流行病学统计表明,约有80%的肺癌患者患有非小细胞肺癌。非小细胞肺癌与小细胞肺癌相比,病情发展相对较慢,致死性也相对较弱,但由于不同非小细胞肺癌患者的病灶之间存在大量个体间差异,使得不同患者患癌后病情的发展速度存在很大的差别。统计表明,大量的非小细胞肺癌患者由于未得到准确的病情发展预测而未能及时接受合适的治疗,使得该类肺癌患者的死亡率高达75%。因此,迫切需要有效的患者生存时间预测模型来对治疗和复查方案的选择进行辅助,以提高非小细胞肺癌的治疗效果,进而提高患者的治愈率和存活率。放射组学是医学中的一个新兴领域,该技术的诞生与放射基因组学在疾病研究中的良好性能以及医学影像在疾病的诊断和治疗中的巨大潜力密不可分。放射组学通过特征提取,将肿瘤区域的信息映射到高维特征空间,接着通过机器学习的方法构建疾病的预后模型来对疾病的未来发展进行预测,从而对疾病的治疗和复查方案的选择进行指导。CT影像数据拥有采集便易和结果易于比对等特点,作为放射组学数据库中的重要模态之一,在放射组学研究中得到广泛的应用。本文根据研究中对病例生存时间的要求,从荷兰马斯特里赫特大学提供的非小细胞肺癌数据集中的Lung 1数据集中入组了127例非小细胞肺癌病例,根据病例的生存时间将数据分为生存时间较长组和较短组,其中较长组为生存时间在700天以上的病例,较短组为生存时间在400天以下的病例。随后,从入组的病例中随机抽取85例病例组成训练集对预后模型进行构建,并将剩余的42例病例作为测试集对预测模型的性能进行评估。本文按照专业影像医师对肿瘤区域的标记,使用3D-Slicer交互式软件平台和Grow-Cut分割算法对入组病例的肿瘤进行了半自动分割。随后,根据本文数据处理的需要,编写肿瘤特征提取软件,对肿瘤区域的基于形态学特征、纹理特征、基于一阶灰度的特征以及小波变换后的图像特征等共计535个特征进行提取。在预后模型的构建过程中,本文首先使用了11种特征选择方法对535个特征进行选择,根据各种特征与患者生存时间的相关程度对特征进行排序。接着,本文使用9种分类模型结合不同维度的特征数量对患者的生存时间预测模型进行训练,选出基于特定特征选择算法训练得到的最优预后模型。最后,本文综合所有特征选择算法,选出全局最优特征与分类器的组合模型,并分别使用基于特定特征选择算法的预后模型和基于全局最优特征的预后模型的可靠性和准确率进行了定量评估。结果表明,预后模型的可靠性与模型训练所使用的特征数量密切相关,相同的分类器基于不同数量特征训练时,具有差异性。因此,在构建预测模型的过程中,需要事先对适合模型的特征数量进行实验。本文发现,基于全局最优特征的预测模型的性能与基于特定算法最优特征的预测模型性能相比具有较高的稳定性,同时在测试集准确率和AUC较高。因此本文推测,在构建放射组学预后模型的过程中,对不同特征选择方法得到的特征进行综合考虑或许可以带来更好的效果。