论文部分内容阅读
目的:卵巢癌的临床诊断和良恶性鉴别极为困难,绝大多数患者就诊时已是晚期。代谢组标志物是指生物体由于受到内、外界刺激而引起代谢变化的内源小分子代谢物,可以通过色谱、质谱等仪器对血液、尿液等生物样品检测得到代谢指纹图谱。卵巢癌代谢组学数据具有高维、小样本和交互作用等复杂特征,为此本研究给出一种基于随机森林的多目标遗传搜索方法(MGA-RF)。通过比较机体正常与癌症状态的代谢组表达差异,利用生物统计学和多目标遗传搜索的方法对数据进行分析,揭示隐含在数据中的信息,筛选出对卵巢癌诊断具有潜在生物学意义的代谢组标志物。 内容:根据遗传算法、随机森林的原理和特点,在单种群遗传算法GARF基础上建立多目标遗传MGA-RF,并确定适合代谢组学数据的参数设置;通过设定具有联合作用和交互作用变量的模拟实验,考察MGA-RF的变量筛选性能和结果多样性;建立卵巢良恶性肿瘤鉴别的血浆代谢组学研究,使用统计学和MGA-RF的方法筛选差异代谢物,并对其进行化学鉴定和生物学解释;建立卵巢癌的尿液代谢组学研究,确定卵巢癌诊断的尿液生物标志物和相关代谢通路。 方法:基于超高效液相色谱质谱联用仪(UPLC-QTOF/MS)检测技术获得卵巢癌(EOC)及其对照样本(卵巢良性肿瘤BOT和正常对照HC)的血浆和尿液代谢指纹图谱,并使用XCMS图谱预处理获得统计分析的数据格式。利用偏最小二乘判别分析(PLS-DA)查看卵巢癌与对照组间的代谢模式分类,并根据变量重要性评分(VIP)和多目标遗传MGA-RF筛选出卵巢癌诊断的潜在代谢组标志物。利用网上代谢物数据库(HMDB和METLIN)和二级质谱等进行代谢物化学鉴定,并借助网上代谢通路数据库(KEGG和SMPDB)确定卵巢癌状态下被扰乱的代谢途径,确定生物标志物的生物学功能。 结果:本研究主要结果包括: 本研究提出了一种基于随机森林的多目标遗传搜索方法-MGA-RF,该方法是不仅能够筛选具有累加效应的变量,而且能够有效的筛选出具有交互作用的生物标志物;同时MGA-RF采用串联式多目标搜索策略,能够获得多样化的变量筛选结果。 模拟实验表明MGA-RF对于预先设定的具有联合作用和交互作用差异变量的识别能力明显优于RF、PLS-DA和单变量筛选方法,并且可有效解决多变量间竞争关系,保证了变量筛选的多样性。此外,MGA-RF对于具有联合作用和交互作用的变量排序效果基本不受噪声数目影响,结果表明我们给出的MGA-RF参数设置是有效的。 血浆代谢组学研究表明卵巢良恶性肿瘤间具有明显的代谢模式差异,经MGA-RF筛选后对于外部验证样本的AUC为0.852。研究证明MGA-RF筛选的差异代谢物间的具有较多的交互作用,并经过外部测试样本验证。本研究共筛选出12个血浆生物标志物,其中2-哌啶酮和L-色氨酸为MGA-RF和PLS-DA共同筛选出的差异代谢物。L-色氨酸已被证明同卵巢癌发病有关,通过本研究推测2-哌啶酮是一种新的卵巢癌生物标志物,其代谢通路和功能需进一步研究。 尿液卵巢癌代谢组学研究表明卵巢癌同BOT/HC对照间在尿液代谢模式上具有良好的分类效果,并筛选和鉴定了22个对卵巢癌诊断具有潜在生物学意义的尿液代谢组标志物,其中9个生物标志物的浓度在EOC不同FIGO分期患者。间具有显著差别。同BOT/HC相比,EOC患者中上调或下调的尿液生物标志物可能显示了EOC患者中的某些代谢通路被扰乱,包括核苷酸代谢、组氨酸代谢、色氨酸代谢和粘蛋白代谢。此外,研究发现EOC患者手术前后发生了代谢模式改变,其中一些代谢物有术后恢复正常的趋势。 结论:本文给出的多目标遗传算法MGA-RF可有效地筛选交互和联合作用的生物标志物,并保证变量筛选的多样性。基于血浆和尿液的代谢组学能够准确地区分卵巢癌和良性肿瘤/正常对照,卵巢癌患者的血浆或尿液中发生了代谢组学生物标志物和其代谢通路变化,其发病与色氨酸代谢、核苷酸代谢、组氨酸代谢和粘蛋白代谢等密切相关。