一种基于机器学习的无创产前筛查孕妇肿瘤的模型构建及研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tommy8248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于高通量测序的无创产前检测技术(Non-Invasive Prenatal Test,NIPT)逐渐趋于成熟,但是通过临床大数据研究发现NIPT依然存在假阳性和假阴性的案例,准确性约为99.99%,而chr13、chr18、chr21的真阳性率(PPV)分别为12%~62%、47%~85%、65%~94%。NIPT判定为阳性的样本,需进一步进行有创的产前诊断,会有1%流产风险。研究者们在分析原因的过程中发现孕妇罹患肿瘤是造成NIPT假阳性的重要原因之一。以往基于NIPT筛查孕妇是否罹患肿瘤的研究基本思路为:发现案例的产前诊断结果与高通量筛查的结果不一致且高通量筛查的结果提示多条染色体为非整倍体,通过肿瘤标记物或影像学以及病理切片对孕妇肿瘤进行最终确认,解释不一致原因。然而这些研究大多仅停留在案例分析层面,并未针对孕妇肿瘤的筛查构建一套体系性的检测方法。本文收集整理了2015年至2018年间的600864例有回访结果的NIPT临床样本数据,对孕妇肿瘤筛查方法进行了研究,通过比较NIPT检测过程中的各条染色体的T值和胎儿浓度的稳定性,最终选择使用各条染色体的胎儿浓度作为本次研究的特征值。为了降低输入的冗余性以及减小数据特征之间的权重差异,对数据进行预处理操作,包括PCA(Principal Component Analysis,PCA)白化和ZCA(Zero-phase Component Analysis,ZCA)白化,为了减少计算时间提升计算效率使用scikit-learn中的PCA函数Standard Scaler函数对特征数据进行预处理,构建了一种基于支持向量机对孕妇肿瘤进行筛查的方法,结果如下:1.本研究首先选择非监督的异常点检测算法作为可选择的检测算法,再通过对四种异常点检测算法(Robust covariance、One-Class SVM(Support Vector Machine,SVM)、Isolation Forest和Local Outlier Factor)的适用性比较,最终选择One-Class SVM模型作为本研究的筛查方法。其次采用交叉验证的方法进行参数的训练,将600235条NIPT为阴性且回访为非肿瘤样本和1951条NIPT为多条染色体胎儿浓度偏高回访为非肿瘤样本的有效数据按照8:1:1随机分配为训练集481749条、验证集60218条、测试集60219条;将159条回访为肿瘤的阳性样本有效数据按照1:1随机分配为验证集79条和测试集80条。使用上述训练集对One-Class SVM模型进行训练,并选择高斯函数和采用网格搜索的方法进行高斯核函数的参数和容忍错误率9)调整,本研究确定了最优参数为和9)的值分别为0.007335354540793596和0.0012244251272095876。2.通过对测试集的准确性、ROC曲线下的面积、灵敏性和特异性评估,评估模型的检测性能。本研究测试集包括60142例有回访结果的临床样本共计60299条有效数据(阳性样本24例80条有效数据,阴性样本60118例60219条有效数据),分别按照有效数据、样本、样本结合肿瘤标记物检测进行测试分析。1)按照有效数据分析,结果灵敏性(Sensitivity)为83.750%;真阳性率(PPV)为80.723%,特异性为99.973%,准确度为99.952%,表明One-Class SVM模型是可以实现孕妇肿瘤筛查;2)按照样本分析,结果灵敏性(Sensitivity)为79.167%、真阳性率(PPV)为61.290%,特异性为99.980%,准确度为99.972%,表明OneClass SVM模型方法具有较高灵敏度和特异度;3)样本结合肿瘤标记物检测分析,结果灵敏性(Sensitivity)为60.870%、真阳性率(PPV)为100.000%,特异性为100.000%,准确度为99.9985%,表明One-Class SVM模型结合肿瘤标记物进行孕妇肿瘤筛查的性能更优。综上所述,本研究建立了一种基于机器学习的孕妇肿瘤筛查方法,同时利用本方法检测为阳性的样本再进行综合肿瘤标记物检测,可提升本检测的真阳性率,为临床医生的决策提供了指导意义,且在不增加实验和检测成本的同时还与目前临床上使用的NIPT检测流程兼容,提示本研究所构建的方法在临床上的可应用性。
其他文献
随着我国医疗制度的健全,医药制造公司之间的竞争逐渐加大。截止2019年12月31日,我国的医疗制造上市公司达到大于370家,规模以上医药制造业更是达到7300家以上。在这种情况下,公司选择扩展其规模以抵御外部竞争压力。公司规模虽然扩大了,但是原来的业绩评价体系并没有改变,这种做法没有促成公司的发展,反而将受到不利影响。因此,根据现有公司的发展,新的绩效评价体系的形成是紧迫的。作为确保公司战略管理的
学位
在现当代的绘画艺术中,呈现出多元化的发展趋势。而在绘画创作中,艺术家对于图像的运用已经越来越显著。早期绘画对于图像的运用,仅仅是作为绘画的辅助材料使用,并未形成为图像而绘画的一种形式风格。随着大数据时代的到来,以及科技的进步所推动摄影摄像技术的发展,图像充斥着我们的日常生活,因此也必然会形成一种图像化阅读的方式,即通过阅读图像来辨识发生事件的真伪。然而图像所提供的仅是某一瞬间的记录,其背后所隐藏的
学位
建立快速、高灵敏度和高选择性的通用型生物传感器是生化分析工作者的重要任务。通用型生物传感器是指使用相同的工作原理,通过改变个别测定单元以达到检测不同物质的目的,其
蒸散量(Evapotranspiration)是植被及地面整体向大气输送的水汽总通量,它对评估一个地区的干湿状况以及植被的需水情况有十分重要的意义。本文针对蒸散量响应因素相关性这一
非洲大陆自由贸易区(AfCFTA)于2019年正式成立,旨在建立关于商品及服务的单一大陆市场和大陆关税同盟,促进区域经济共同体以及整个非洲的协调发展,是非洲国家为推进大陆经济
随着海洋资源的更深层次开发和利用,探索水下空间和执行水下作业的关键设备—水下机器人的研究意义和应用价值凸显出来。而多自由度机械臂是水下机器人海洋开发工具中的重要
智能制造模式能够平衡个性化定制产品生产的高成本与高附加值,能够满足消费者对产品的个性化要求,其大大推动了个性化定制生产方式的发展。个性化定制生产方式常呈现出多品种
随着中国经济发展进入“新常态”以及新发展理念的贯彻执行,各地区在发展的过程中对环境问题尤为重视并制定了不同的污染排放控制措施,但由于地区间的实际发展存在差异,区域
创新是驱动经济发展的引擎。当今时代,借助技术创新网络合作开展双元创新活动成为企业发展的实际战略需要。网络惯例是一种有效的网络创新合作非契约治理手段,然而由于目前较
1933年出版的《中国建筑史》及其前身的《中国建筑学》讲义是乐嘉藻一生对中国建筑研究的凝结和表达。由于该研究贯穿一生,而其一生(1868—1944)恰又处于近代中国变化最剧烈的时段,因此这一漫长研究不可避免地呈现复杂面貌,或可称为“层累的过程”。本文试图从最终呈现的文本入手,对这一“层累的过程”进行拆解分析,探究其发展脉络和复杂面貌的成因。研究发现,乐嘉藻中国建筑史研究的发展过程实质上是其对于“建
学位