论文部分内容阅读
代谢组学是高通量检测技术与化学计量学方法的有机融合体,首先在高通量检测技术的基础上获得庞杂的代谢组学数据,然后以化学计量学方法为手段建立代谢表型与影响因素之间的生物数学模型,进而实现组间辨识和生物标志物的寻找。然而,代谢组学数据的高度复杂性给当前数据分析者提出了很大的挑战。且,单个模型得到的识别结果存在一定的不可靠性。因此,如何提高数据分析结果的稳定性与可靠性已成了代谢组学中的主要研究方向。在本文,主要基于代谢组学数据固有的特点,集成算法能提高单个模型识别结果的稳定性和可靠性的优势,以及传统化学计量学方法的优缺点,发展了一系列新型的代谢组学数据解析方法,并用于基于1H NMR量测的肺癌血清代谢组学数据解析,具体的研究内容如下:(1)在本章,应用推进偏最小二乘判别分析法(boosting partial least-squares discriminant analysis,BPLSDA)分析基于1H NMR量测的肺癌血清代谢组学数据。该方法的思路是:首先在原始训练集不同加权版本的基础上通过迭代方式获得一系列PLS-DA子模型;然后采用加权多数投票法来获得最终结果,并综合考虑不同变量重要性指数(如变量重要性投影VIP、权重系数w和回归系数β)来筛选重要变量。为证实BPLSDA算法的优越性,传统的PLS-DA也被用于该数据解析。BPLSDA方法对训练集的和测试集的识别率分别是100.00%和90.48%;且,识别能力要明显优于传统的PLS-DA。其次,结合多种变量重要性指数,该方法识别出12个肺癌血清代谢物:乳酸、胆碱、肌醇、糖蛋白、(α-和β-)葡萄糖、脯氨酸、丙氨酸、苏氨酸、甘氨酸、谷氨酰胺、三甲胺和脂质。(2)考虑到分类树(classification tree,CT)能自动确定重要变量及其重要性值和自助集成技术(bagging)能明显提高单个模型的可靠性和稳定性,在本章,通过结合bagging和CT算法,形成一种通用而稳健的变量选择策略,即自助集成分类树(bagging classification tree,BAGCT)。该方法从代谢组学数据中选出重要变量子集并用于构建支持向量机(support vector machine,SVM)模型,得到一种新型的代谢组学数据解析方法,即自助集成分类树-支持向量机(bagging classification tree-support vector machine,BAGCT-SVM)。该方法的基本步骤:在原始训练集的基础上,采用bagging思路建立多个CT子模型;然后观察所有CT子模型得到的分枝变量及其重要性值来获得信息变量子集;最后将重要变量子集作为SVM算法的输入。新提出的算法被用于同样的肺癌血清代谢组学数据解析,并与传统的CT和SVM进行比较。新方法对训练集和测试集的识别结果分别为98.33%和84.62%,均明显高于CT和SVM算法。因此,通过BAGCT方法获得的信息变量能提高SVM的识别性能,且,新方法还确定出12个潜在的关键性标志物:乳酸、胆碱、肌醇、糖蛋白、三甲胺、二甲胺、脯氨酸、丙氨酸、苏氨酸、谷氨酰胺、蛋氨酸和脂质。(3)基于推进(boosting)技术能显著改善单个模型的结果,CT算法能确定变量重要性值以及SVM算法卓越的建模性能,同样形成另一种新的稳健的变量选择方法,即推进分类树(boosting classification tree,BSTCT),并将获得的信息变量用于SVM模型的构建,发展另一种新颖的代谢组学数据解析方法,即推进分类树-支持向量机(boosting classification tree-support vector machine,BSTCT-SVM)。该算法的基本思路是:基于boosting重采样技术依次建立一系列CT子模型,得到富含信息的重要变量子集和相应重要性值;同样在重要变量的基础上建立SVM模型。BSTCT-SVM、CT和SVM三种算法用于同样肺癌血清代谢组学数据解析并进行比较。BSTCT-SVM对训练集的识别率从CT(95.00%)和SVM(98.33%)中提高至100.00%,对测试集的识别率从73.08%提升至84.62%。结果表明:基于boosting和CT算法的变量选择方法可以明显改善SVM算法的识别能力并提高变量选择的稳定性与可靠性。此外,还找出1 1个与肺癌疾病相关的潜在的标志性代谢物:乳酸、胆碱、肌醇、糖蛋白、三甲胺、脯氨酸、丙氨酸、苏氨酸、谷氨酰胺、蛋氨酸和脂质。