基于数据挖掘技术的结直肠癌检测方法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:a5477011266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究针对结直肠癌生物标志物发掘以及癌症检测的研究目标,提出了基于蛋白质组学和机器学习方法的癌症预测以及癌症生物标志物发掘的技术流程。本研究主要涵盖了四个方向:结直肠癌蛋白质组学数据的缺失值填补、数据矫正与前处理、结直肠癌生物标志物筛选以及癌症分类预测。首先,对质谱数据缺失值填补方法进行评估,模拟了含有缺失数据的质谱数据集,测试了五种缺失值填补方法(Single,KNN,K-means,Linear,Multiple),发现经过Linear Imputation后的数据与模拟数据集的相似度最高;其次,对质谱数据的矫正和前处理方法进行评估,发现IRS能有效消除批次效应,但是无法有效消除数据中的噪声和系统偏差,而Quantile和CONSTANd方法能有效处理系统偏差带来的问题,却无法应对批次效应;随后,我们提出了使用内源蛋白进行矫正的EPNS方法,能有效降低数据Median CV值;关于筛选生物标志物,我们提出了LR+LASSO+MCCV和Random Forest+贪心的两步筛选法,挑选出五个与结直肠癌病发有关的生物标志物:NUP205,GTPBP4,CNN2,GNL3,S100A11;最后,评估了Logistic Regression(LR),Support Vector Machine(SVM),Random Forest(RF),Back Propagation Neural Network(BP)四种分类模型的拟合效果和泛化性能,发现RF和BP模型均能在验证集上得到0.99以上的AUC,并且在独立的测试集上也能得到理想的测试效果,RF模型会产生一个假阴性案例,BP能完全区分正负样本,得到100%的预测准确率。综上,本研究提出的基于蛋白质组学和机器学习方法的结直肠癌检测和生物标志物发掘技术能达到良好的结直肠癌识别效果,为癌症检测技术提供了新的研究路线。
其他文献
试论学习经济法的必要性93级涉外经济专业王黎学习经济法,首先要了解它的含义,从广义上讲,经济法的核心是统治阶级的意志和经济关系的性质。由于经济法所反映的阶级意志和所调整的
城乡双向物流发展是促进城乡统筹发展的重要内容,电子商务的蓬勃发展为城乡双向物流发展带来了新的机遇。本文在总结分析城乡双向物流研究现状的基础上,以大槐树农村电商为例,分
目的:探讨血浆Septin-9甲基化(mSEPT9)和血清CEA联合检测在ⅠⅢ期结直肠癌术后随访中的应用价值。方法:收集2018年3月至2018年12月于我院诊断为结直肠癌Ⅰ-Ⅲ期并行根治性切除手术的60例患者的临床病理和随访资料,分析血浆mSEPT9和血清CEA的表达情况与结直肠癌临床病理参数、荷瘤状态、术后肿瘤无进展生存时间的关联程度,并探讨血浆mSEPT9和血清CEA联合检测在诊断结直肠癌术
在今年美国CES展上,丹拿(Dynaudio)发布最新的XEO系列音箱,本系列产品最大的特色就是标榜无线聆听,不需要连接音箱线、功放、解码器或是专用计算机软件,只要插上电源就可以直接聆听
网架(网壳)结构中,采用加劲肋来提高节点的极限承载力是一种有效的方法。在4组12个焊接球节点的轴心受力试验基础上,采用ABAQUS有限元分析软件,同时考虑几何非线性和材料非线性
我国经济发展进入新常态,供给侧改革全面推进,这使得国民经济主体制造业公司的生存与发展充满机遇与挑战。现金股利政策作为三大财务决策之一,直接影响着企业的生存与发展,然而其中存在低派现、不派现等现象严重影响了企业的健康发展,损害了股东利益。根据代理理论和管理层权力理论,合理的管理层权力能激励管理层制定并执行科学有效的财务决策,然而随着管理层权力的增大,管理层会利用强权干预公司财务决策进行寻租,这严重影
目的:通过回顾性分析内镜黏膜下隧道式剥离术(Endoscopic Submucosal Tunnel Dissection,ESTD)与传统黏膜下剥离术(Endoscopic Submucosal Dissection,ESD)的相关指标,评价ES
本文根据地下连续墙接头管相关理论,成功研制出一种接头保护板技术,通过大规模的施工应用,有效地解决了框格式地下连续墙接头搭接难的问题。
期刊