基于人血浆microRNAs的数据挖掘技术构建肺癌预测系统

来源 :郑州大学 | 被引量 : 0次 | 上传用户:rain12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌位居中国恶性肿瘤发病率和死亡率首位,肺癌预防的重要手段是开展早期发现、早期诊断和早期治疗,有必要研究高敏感性和特异性的肿瘤生物标志物。microRNAs(mi RNAs)可调控基因参与细胞的生长、增殖、分化和凋亡等过程,大量的研究表明循环miRNAs和多种肿瘤的发生和发展有关,具有作为包括肺癌在内的疾病诊断生物标志物的潜力。目的该研究应用决策树(Decision Tree,DT)、人工神经网络(Artificial Neual Networks,ANN)和支持向量机(Support Vector Machines,SVM)等数据挖掘方法联合血浆miRNA生物标志、流行病学参数和临床症状资料建立肺癌预测模型。对象和方法1.研究对象:肺癌组为2016年6月至2017年2月取自郑州大学第一附属医院呼吸内科、河南省肿瘤医院胸外科、河南省胸科医院呼吸内科和胸外科的148例初诊的原发性肺癌患者;对照组为2016年7月取自淇县疾病预防控制中心体检的148例健康人群。经知情同意后收集研究对象的信息和血液标本。2.实验方法:血浆miRNAs(mi R-16、miR-21、miR-20a、mi R-210、miR-145、miR-126、miR-223、mi R-197、miR-30a、mi R-30d、miR-25)表达水平的检测采用实时荧光定量PCR法。3.数据挖掘:采用SPSS Clementine 21.0软件。基于单因素分析结果和Logistic回归分析优化结果,先将数据预处理,按3:1的比例将所有样本随机分成训练集和预测集,用训练好的模型对预测集进行预测,应用Fisher判别分析、DT C5.0、ANN和SVM算法分别建立模型,并采用诊断试验评价指标比较模型的预测结果。4.统计学分析:Excel 2010建立数据库,采用SPSS 21.0软件进行统计分析。定量资料分析符合正态分布时采用两独立样本t检验,不符合正态分布时采用Mann-Whitney U检验;定性资料间的比较采用χ2检验;肺癌的影响因素采用二分类Logistic回归分析。检验水准为α=0.05。结果1.血浆miRNAs表达水平检测结果:肺癌组的10种血浆miRNAs(miR-21、miR-20a、miR-210、miR-145、miR-126、miR-223、miR-197、miR-30a、miR-30d、miR-25)的表达水平高于对照组,差异有统计学意义(P<0.05)。11种血浆miRNAs(miR-16、miR-21、miR-20a、miR-210、miR-145、miR-126、miR-223、mi R-197、miR-30a、mi R-30d、miR-25)的表达水平与年龄、肺癌的组织学类型无关(P>0.05);血浆中miR-30a和miR-21表达水平与性别有关(P<0.05);血浆中mi R-21和miR-25表达水平与吸烟程度、饮酒有关(P<0.05)。血浆中miR-210的表达水平和肺癌的分期有关(P<0.05);血浆中miR-126的表达水平和肺癌淋巴结转移有关(P<0.05)。2.肺癌影响因素分析结果:单因素分析结果显示肺癌组和对照组间的流行病学参数和临床症状(吸烟程度、发热、胸闷胸痛、咳嗽、痰中带血、咯血)的分布的差异和10种血浆miRNAs(miR-21、miR-20a、miR-210、miR-145、miR-126、miR-223、mi R-197、miR-30a、mi R-30d、miR-25)的表达水平的差异有统计学意义(P<0.05);多因素Logistic回归分析结果显示,发热、胸闷胸痛、咳嗽、血浆中miR-20a(P=0.016)和miR-223(P=0.001)相对表达量升高可能是肺癌的危险因素。3.数据挖掘模型的评价结果:由吸烟程度、发热、胸闷胸痛、咳嗽、痰中带血、咯血、10种血浆mi RNAs(miR-21、miR-20a、miR-210、mi R-145、miR-126、miR-223、mi R-197、miR-30a、miR-30d、mi R-25)的表达水平这16个变量建立的16项DT C5.0模型和由发热、胸闷胸痛、咳嗽、痰中带血、咯血、血浆中miR-20a和miR-223表达水平建立的优化DT C5.0模型的准确度分别为98.78%和87.80%,AUC分别为0.985和0.883;16项SVM模型和优化SVM模型的准确度分别为98.78%和89.02%,AUC分别为0.985和0.893;16项ANN模型和优化ANN模型的准确度分别为87.80%和84.15%,AUC分别为0.879和0.835;16项Fisher判别分析模型和优化Fisher判别分析模型的准确度分别为82.93%和82.93%,AUC分别为0.828和0.824。16项DT C5.0模型和16项SVM模型的AUC均优于其他6种模型(P<0.05);其他6种模型的AUC之间的差异没有统计学意义(P>0.05)。结论1.人血浆中10种miRNAs(miR-21、miR-20a、miR-210、miR-145、miR-126、miR-223、mi R-197、miR-30a、mi R-30d、miR-25)的表达水平与肺癌相关。血浆中miR-20a、mi R-223相对表达量可作为肺癌预测的重要指标。2.本研究建立了基于人血浆中的microRNAs的Fisher判别分析、决策树、神经网络和支持向量机肺癌预测模型;决策树模型和支持向量机模型对肺癌的预测效果最好。
其他文献
本篇论文主要研究现代室内自然景观设计的理念以及实际的运用。现阶段,现代公共建筑与室内设计的必然方向就是结合自然,这也是建筑发展的必然趋势。就目前发展现状来说,绝大
农民传统政治人格的断裂性、依附性、伦理性及封闭性特征阻碍了乡村社会的转型,制约了农民的政治参与和利益表达空间,也不利于乡村经济社会的全面进步。实现农民传统政治人格
目的:中国恶性肿瘤的疾病负担正在逐渐加重,已经成为严重威胁人类生命健康的公共卫生问题。全国肿瘤登记办公室的最新数据显示,2013中国估计新发的恶性肿瘤病例为368.2万例,
本文从设计思维的研究得出景观艺术设计思维的初步模型,对新技术背景下的景观艺术设计思维进行构建。多元化时期新技术背景下的景观艺术设计思维可归纳为回归土地本源与诗意
针对在线教育支持技术中关于文本处理的多义词和同义词问题,提出基于内容过滤PageRank语义相似替换的Top-k学习资源推荐算法。基于内容的向量空间滤波建立学习资源过滤推荐模
<正>快闪黄金商圈,HiFashion移动集群店掀起国货新时尚。2018年11月29日—12月1日,HiFashion移动集群店亮相北京王府井大街新燕莎金街购物广场。HiFashion移动集群店是由北京
目的为经口气管插管患者选择合理的胃管放置方式。方法选择我院神经内科2010年8月—2012年8月经口气管插管患者100例,随机分为观察组和对照组,每组各50例。观察组采用经口放
首先研究了粉煤灰掺量对水泥净浆流动度的影响,在此基础上探讨了粉煤灰掺量对自密实混凝土工作性、强度的影响。试验结果表明,添加粉煤灰可以提高水泥净浆的流动性,改善自密
为了探究影响粉煤灰混凝土极限拉伸值的若干因素,采用控制变量法对混凝土试块进行了轴心受拉试验研究。研究结果表明:水泥品种对粉煤灰混凝土极限拉伸值有一定影响;水胶比和
目的探讨电话随访干预对股骨头坏死保髋术后患者满意度、遵医行为及髋关节功能恢复的效果影响。方法选择股骨头坏死保髋术后62例91髋的出院患者,采用随机数字表法分为试验组(