论文部分内容阅读
基于高通量测序的无创产前检测技术(Non-Invasive Prenatal Test,NIPT)逐渐趋于成熟,但是通过临床大数据研究发现NIPT依然存在假阳性和假阴性的案例,准确性约为99.99%,而chr13、chr18、chr21的真阳性率(PPV)分别为12%~62%、47%~85%、65%~94%。NIPT判定为阳性的样本,需进一步进行有创的产前诊断,会有1%流产风险。研究者们在分析原因的过程中发现孕妇罹患肿瘤是造成NIPT假阳性的重要原因之一。以往基于NIPT筛查孕妇是否罹患肿瘤的研究基本思路为:发现案例的产前诊断结果与高通量筛查的结果不一致且高通量筛查的结果提示多条染色体为非整倍体,通过肿瘤标记物或影像学以及病理切片对孕妇肿瘤进行最终确认,解释不一致原因。然而这些研究大多仅停留在案例分析层面,并未针对孕妇肿瘤的筛查构建一套体系性的检测方法。本文收集整理了2015年至2018年间的600864例有回访结果的NIPT临床样本数据,对孕妇肿瘤筛查方法进行了研究,通过比较NIPT检测过程中的各条染色体的T值和胎儿浓度的稳定性,最终选择使用各条染色体的胎儿浓度作为本次研究的特征值。为了降低输入的冗余性以及减小数据特征之间的权重差异,对数据进行预处理操作,包括PCA(Principal Component Analysis,PCA)白化和ZCA(Zero-phase Component Analysis,ZCA)白化,为了减少计算时间提升计算效率使用scikit-learn中的PCA函数Standard Scaler函数对特征数据进行预处理,构建了一种基于支持向量机对孕妇肿瘤进行筛查的方法,结果如下:1.本研究首先选择非监督的异常点检测算法作为可选择的检测算法,再通过对四种异常点检测算法(Robust covariance、One-Class SVM(Support Vector Machine,SVM)、Isolation Forest和Local Outlier Factor)的适用性比较,最终选择One-Class SVM模型作为本研究的筛查方法。其次采用交叉验证的方法进行参数的训练,将600235条NIPT为阴性且回访为非肿瘤样本和1951条NIPT为多条染色体胎儿浓度偏高回访为非肿瘤样本的有效数据按照8:1:1随机分配为训练集481749条、验证集60218条、测试集60219条;将159条回访为肿瘤的阳性样本有效数据按照1:1随机分配为验证集79条和测试集80条。使用上述训练集对One-Class SVM模型进行训练,并选择高斯函数和采用网格搜索的方法进行高斯核函数的参数和容忍错误率9)调整,本研究确定了最优参数为和9)的值分别为0.007335354540793596和0.0012244251272095876。2.通过对测试集的准确性、ROC曲线下的面积、灵敏性和特异性评估,评估模型的检测性能。本研究测试集包括60142例有回访结果的临床样本共计60299条有效数据(阳性样本24例80条有效数据,阴性样本60118例60219条有效数据),分别按照有效数据、样本、样本结合肿瘤标记物检测进行测试分析。1)按照有效数据分析,结果灵敏性(Sensitivity)为83.750%;真阳性率(PPV)为80.723%,特异性为99.973%,准确度为99.952%,表明One-Class SVM模型是可以实现孕妇肿瘤筛查;2)按照样本分析,结果灵敏性(Sensitivity)为79.167%、真阳性率(PPV)为61.290%,特异性为99.980%,准确度为99.972%,表明OneClass SVM模型方法具有较高灵敏度和特异度;3)样本结合肿瘤标记物检测分析,结果灵敏性(Sensitivity)为60.870%、真阳性率(PPV)为100.000%,特异性为100.000%,准确度为99.9985%,表明One-Class SVM模型结合肿瘤标记物进行孕妇肿瘤筛查的性能更优。综上所述,本研究建立了一种基于机器学习的孕妇肿瘤筛查方法,同时利用本方法检测为阳性的样本再进行综合肿瘤标记物检测,可提升本检测的真阳性率,为临床医生的决策提供了指导意义,且在不增加实验和检测成本的同时还与目前临床上使用的NIPT检测流程兼容,提示本研究所构建的方法在临床上的可应用性。