基于集成技术的稳健的代谢组学数据分析方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jiangguoliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢组学是高通量检测技术与化学计量学方法的有机融合体,首先在高通量检测技术的基础上获得庞杂的代谢组学数据,然后以化学计量学方法为手段建立代谢表型与影响因素之间的生物数学模型,进而实现组间辨识和生物标志物的寻找。然而,代谢组学数据的高度复杂性给当前数据分析者提出了很大的挑战。且,单个模型得到的识别结果存在一定的不可靠性。因此,如何提高数据分析结果的稳定性与可靠性已成了代谢组学中的主要研究方向。在本文,主要基于代谢组学数据固有的特点,集成算法能提高单个模型识别结果的稳定性和可靠性的优势,以及传统化学计量学方法的优缺点,发展了一系列新型的代谢组学数据解析方法,并用于基于1H NMR量测的肺癌血清代谢组学数据解析,具体的研究内容如下:(1)在本章,应用推进偏最小二乘判别分析法(boosting partial least-squares discriminant analysis,BPLSDA)分析基于1H NMR量测的肺癌血清代谢组学数据。该方法的思路是:首先在原始训练集不同加权版本的基础上通过迭代方式获得一系列PLS-DA子模型;然后采用加权多数投票法来获得最终结果,并综合考虑不同变量重要性指数(如变量重要性投影VIP、权重系数w和回归系数β)来筛选重要变量。为证实BPLSDA算法的优越性,传统的PLS-DA也被用于该数据解析。BPLSDA方法对训练集的和测试集的识别率分别是100.00%和90.48%;且,识别能力要明显优于传统的PLS-DA。其次,结合多种变量重要性指数,该方法识别出12个肺癌血清代谢物:乳酸、胆碱、肌醇、糖蛋白、(α-和β-)葡萄糖、脯氨酸、丙氨酸、苏氨酸、甘氨酸、谷氨酰胺、三甲胺和脂质。(2)考虑到分类树(classification tree,CT)能自动确定重要变量及其重要性值和自助集成技术(bagging)能明显提高单个模型的可靠性和稳定性,在本章,通过结合bagging和CT算法,形成一种通用而稳健的变量选择策略,即自助集成分类树(bagging classification tree,BAGCT)。该方法从代谢组学数据中选出重要变量子集并用于构建支持向量机(support vector machine,SVM)模型,得到一种新型的代谢组学数据解析方法,即自助集成分类树-支持向量机(bagging classification tree-support vector machine,BAGCT-SVM)。该方法的基本步骤:在原始训练集的基础上,采用bagging思路建立多个CT子模型;然后观察所有CT子模型得到的分枝变量及其重要性值来获得信息变量子集;最后将重要变量子集作为SVM算法的输入。新提出的算法被用于同样的肺癌血清代谢组学数据解析,并与传统的CT和SVM进行比较。新方法对训练集和测试集的识别结果分别为98.33%和84.62%,均明显高于CT和SVM算法。因此,通过BAGCT方法获得的信息变量能提高SVM的识别性能,且,新方法还确定出12个潜在的关键性标志物:乳酸、胆碱、肌醇、糖蛋白、三甲胺、二甲胺、脯氨酸、丙氨酸、苏氨酸、谷氨酰胺、蛋氨酸和脂质。(3)基于推进(boosting)技术能显著改善单个模型的结果,CT算法能确定变量重要性值以及SVM算法卓越的建模性能,同样形成另一种新的稳健的变量选择方法,即推进分类树(boosting classification tree,BSTCT),并将获得的信息变量用于SVM模型的构建,发展另一种新颖的代谢组学数据解析方法,即推进分类树-支持向量机(boosting classification tree-support vector machine,BSTCT-SVM)。该算法的基本思路是:基于boosting重采样技术依次建立一系列CT子模型,得到富含信息的重要变量子集和相应重要性值;同样在重要变量的基础上建立SVM模型。BSTCT-SVM、CT和SVM三种算法用于同样肺癌血清代谢组学数据解析并进行比较。BSTCT-SVM对训练集的识别率从CT(95.00%)和SVM(98.33%)中提高至100.00%,对测试集的识别率从73.08%提升至84.62%。结果表明:基于boosting和CT算法的变量选择方法可以明显改善SVM算法的识别能力并提高变量选择的稳定性与可靠性。此外,还找出1 1个与肺癌疾病相关的潜在的标志性代谢物:乳酸、胆碱、肌醇、糖蛋白、三甲胺、脯氨酸、丙氨酸、苏氨酸、谷氨酰胺、蛋氨酸和脂质。
其他文献
高光谱遥感成像可获取目标在可见光-近红外(Vis-NIR)波段(380-2500nm)连续的光谱曲线,根据目标与背景之间的光谱差异来识别目标。因此,要有效对抗高光谱侦查,需要做到目标与
随着竞技体育运动的蓬勃发展,以及在运动员训练科学性和竞赛生物学等方面相关理念和实践的日趋完善,国内外大赛的角逐已不是运动员个人竞技能力的比拼,而是运动团队综合能力
以人造卫星作为遥感平台,遥感卫星可以在外层空间对地球表面进行遥测,被广泛应用于农林水利,气象监测,国土普查和灾害预警等各个领域。新时期为满足遥感应用所提出的更严苛的
习近平总书记在党的十九大报告中指出:"增强狠抓落实本领,坚持说实话、谋实事、出实招、求实效,把雷厉风行和久久为功有机结合起来,勇于攻坚克难,以钉钉子精神做实做细做好各
苏云金芽胞杆菌(Bαcillus thuringiensis)产生的Bt毒素蛋白,可以杀死多种农业害虫。活化的苏云金杆菌晶体毒素不仅作用于靶昆虫的中肠细胞,还作用于某些培养的昆虫细胞系。
动物父权关系的鉴定是行为生态学研究的主要内容。目前对无脊椎动物和脊椎动物中的鱼类、爬行类、鸟类和哺乳动物父权关系鉴定的研究相对比较充实。然而,对两栖动物尤其是对
近年来,非局部微分方程的研究受到了各领域广泛的关注.其中,非局部微分方程的高精度数值方法的研究,在计算数学与应用数学领域一直是一个前沿热点课题.本文基于这样的研究背
非晶合金的类芬顿催化反应成为近些年持续关注的研究热点。非晶合金处于热力学亚稳态,存在大量不饱和位点、高残余应力。且非晶合金化学成分均匀,无晶界、析出物等微观结构缺
本文研究如下的Kirchhoff问题(?)x∈Rn,n≥1,x∈Rn,n≥1,其中a,b>0,0
近年来,随着工农业的快速发展,土壤重金属污染问题日益严重,特别是工业场地的Cr污染土壤存在很大的环境风险。电动修复技术已被用于重金属污染的低渗透性土壤修复,但电动修复