论文部分内容阅读
作为一门快速发展的组学学科,代谢组学提供了整个生命系统的代谢信息。高通量分析检测技术和化学计量学多元分析方法的有机结合是代谢组学研究的基本策略。变量选择旨在从高维复杂的代谢组学数据中寻找敏度高和特异性好的生物标志物。然而,现代分析技术的迅速发展使代谢组学数据具有高度的复杂性,直接影响算法的分类性能及生物标志物的识别。而且,基于单个识别模型产生的识别结果存在一定的不可靠性。因此,如何提高识别结果的稳定性和可靠性成为代谢组学研究的重要问题。在本论文中,鉴于分类树能够自动确定重要变量和变量的相应重要性值这一特点,集成学习算法在改善单个识别模型结果的稳定性和可靠性上的巨大潜力及径向基函数网络在建模上的良好优势,发展了两种新型的适合于代谢组学数据解析的化学计量学方法,并将其用于基于核磁共振波谱技术量测的肺癌血清代谢组学数据解析。具体工作如下:(1)在本章,考虑到分类树(classification tree,CT)能自动选择重要变量及确定其相应的重要性值的优势,自助集成技术(boostrapaggregating,bagging)能够显著提高单个模型结果的稳定性和可靠性这一特点及径向基函数网络(radial basis function network,RBFN)良好的建模性能,发展了一种新型的适合于代谢组学数据特性和分析要求的化学计量学算法,即自助集成分类树-径向基函数网络(bagging classification tree-radial basis function network,BAGCT-RBFN)。该算法首先依据集成算法Bagging的基本原理从原始训练集中采取多次重复取样的方式构建一系列CT子模型,通过分析这一系列CT子模型获得的分枝变量和相应变量的重要性值,确定重要变量子集,然后将选出的重要变量子集用于构建RBFN模型。本文将新提出的BAGCT-RBFN算法用于分析基于1H NMR技术量测的三组血清样本(即健康志愿者、新诊断肺癌患者和治疗后又复发肺癌患者)的代谢组学数据,并与传统的CT和RBFN算法进行比较。结果表明:与传统的CT和RBFN算法相比,BAGCT-RBFN算法对训练集和预测集的识别性能有明显提高。且,作为一种变量选择方法,BAGCT可以剔除大量不相关信息变量,有效改善RBFN的泛化能力,同时提高了变量选择结果的稳定性和可靠性。另外,BAGCT-RBFN算法确定了七种与肺癌疾病相关的潜在的生物标志物,包括乳酸、胆碱、肌醇、三甲胺、脯氨酸、苏氨酸和脂质。(2)鉴于集成算法Boosting在改善单个模型结果的稳健性和可靠性上的巨大优势以及CT算法在变量选择方面的特点,本文同样综合Boosting和CT算法,发展了一种变量选择filter方法,即推进分类树(Boosting classification tree,BSTCT),并结合RBFN算法在建模方面的优势,构建了另一种新型的适合于代谢组学分析要求的化学计量学算法,即推进分类树-径向基函数网络(boosting classification tree-radial basis function network,BSTCT-RBFN)。该算法首先通过迭代的方式在原始训练集的不同加权版本的基础上构建一系列的CT子模型,权重是在迭代过程中不断更新的;其次综合分析所有获得的CT子模型给出的重要变量和相应变量的重要性值删选出贡献性较大的变量子集,最后利用RBFN关联选出的重要变量子集与样本的类属性,以构建识别模型。该算法同样被用于上述的肺癌血清代谢组学数据分析研究。实验结果显示:BSTCT-RBFN不仅具有较传统RBFN和CT更优越的识别性能,同时能够筛选得到有价值的变量,而且在变量选择的稳健性和可靠性方面都有所改善。另外,结合t-统计方法,BSTCT-RBFN算法共找到5个标志性的肺癌相关代谢物:乳酸、肌醇、胆碱、三甲胺、二甲胺。