集成分类树-径向基函数网络算法用于肺癌血清的代谢组学数据分析研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:fgh000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一门快速发展的组学学科,代谢组学提供了整个生命系统的代谢信息。高通量分析检测技术和化学计量学多元分析方法的有机结合是代谢组学研究的基本策略。变量选择旨在从高维复杂的代谢组学数据中寻找敏度高和特异性好的生物标志物。然而,现代分析技术的迅速发展使代谢组学数据具有高度的复杂性,直接影响算法的分类性能及生物标志物的识别。而且,基于单个识别模型产生的识别结果存在一定的不可靠性。因此,如何提高识别结果的稳定性和可靠性成为代谢组学研究的重要问题。在本论文中,鉴于分类树能够自动确定重要变量和变量的相应重要性值这一特点,集成学习算法在改善单个识别模型结果的稳定性和可靠性上的巨大潜力及径向基函数网络在建模上的良好优势,发展了两种新型的适合于代谢组学数据解析的化学计量学方法,并将其用于基于核磁共振波谱技术量测的肺癌血清代谢组学数据解析。具体工作如下:(1)在本章,考虑到分类树(classification tree,CT)能自动选择重要变量及确定其相应的重要性值的优势,自助集成技术(boostrapaggregating,bagging)能够显著提高单个模型结果的稳定性和可靠性这一特点及径向基函数网络(radial basis function network,RBFN)良好的建模性能,发展了一种新型的适合于代谢组学数据特性和分析要求的化学计量学算法,即自助集成分类树-径向基函数网络(bagging classification tree-radial basis function network,BAGCT-RBFN)。该算法首先依据集成算法Bagging的基本原理从原始训练集中采取多次重复取样的方式构建一系列CT子模型,通过分析这一系列CT子模型获得的分枝变量和相应变量的重要性值,确定重要变量子集,然后将选出的重要变量子集用于构建RBFN模型。本文将新提出的BAGCT-RBFN算法用于分析基于1H NMR技术量测的三组血清样本(即健康志愿者、新诊断肺癌患者和治疗后又复发肺癌患者)的代谢组学数据,并与传统的CT和RBFN算法进行比较。结果表明:与传统的CT和RBFN算法相比,BAGCT-RBFN算法对训练集和预测集的识别性能有明显提高。且,作为一种变量选择方法,BAGCT可以剔除大量不相关信息变量,有效改善RBFN的泛化能力,同时提高了变量选择结果的稳定性和可靠性。另外,BAGCT-RBFN算法确定了七种与肺癌疾病相关的潜在的生物标志物,包括乳酸、胆碱、肌醇、三甲胺、脯氨酸、苏氨酸和脂质。(2)鉴于集成算法Boosting在改善单个模型结果的稳健性和可靠性上的巨大优势以及CT算法在变量选择方面的特点,本文同样综合Boosting和CT算法,发展了一种变量选择filter方法,即推进分类树(Boosting classification tree,BSTCT),并结合RBFN算法在建模方面的优势,构建了另一种新型的适合于代谢组学分析要求的化学计量学算法,即推进分类树-径向基函数网络(boosting classification tree-radial basis function network,BSTCT-RBFN)。该算法首先通过迭代的方式在原始训练集的不同加权版本的基础上构建一系列的CT子模型,权重是在迭代过程中不断更新的;其次综合分析所有获得的CT子模型给出的重要变量和相应变量的重要性值删选出贡献性较大的变量子集,最后利用RBFN关联选出的重要变量子集与样本的类属性,以构建识别模型。该算法同样被用于上述的肺癌血清代谢组学数据分析研究。实验结果显示:BSTCT-RBFN不仅具有较传统RBFN和CT更优越的识别性能,同时能够筛选得到有价值的变量,而且在变量选择的稳健性和可靠性方面都有所改善。另外,结合t-统计方法,BSTCT-RBFN算法共找到5个标志性的肺癌相关代谢物:乳酸、肌醇、胆碱、三甲胺、二甲胺。
其他文献
研究目的帕金森病(Parkingson’s Disease,PD)是一种临床上以静止性震颤、运动迟缓、肌强直和姿势平衡障碍为主要特征的慢性中枢神经系统变性疾病。脑深部电刺激(Deep brain
[背景]帕金森病是中老年常见的神经系统退行性病变,病理生理学上表现为黑质纹状体多巴胺分泌减少,主要以四肢震颤僵硬、起步困难、行动迟缓等作为主要症状,是一种严重危害中
磁共振成像(Magnetic Resonance Imaging,MRI)因其无射线危害、成像对比度高,可对人体各器官多角度成像等众多优势,已成为医学诊断中一种非常重要的成像手段。同时,动态磁共
动车组在人们的出行中发挥着越来越重要的作用,其高速性和舒适性成为众多旅客的出行选择。动车组的运行离不开相关设备,这些设备的工作状态决定了动车组的运行安全。动车组在
磁共振成像(Magnetic Resonance Imaging,MRI)因其具有较高的软组织分辨率,对人体没有电离辐射损伤等优点,应用范围日益广泛,已成为一项常规医学检查方法。但由于MRI在应用中
采用高负荷扩压叶片是目前实现提高航空发动机推重比的有效途径,然而由于高负荷扩压叶片折转角大的特点,气流在叶栅流道内强逆压梯度的作用下极易形成附面层的分离,进而导致
图像的变化检测是计算机视觉领域的一个基础问题。变化检测就是分析对比同一场景在不同时刻拍摄的图像,尽可能清晰地描述图像的变化。变化检测被广泛应用于各个领域,如在生态
随着医疗卫生条件的提高、生活水平的改善以及人们养生保健意识的不断增强,全球人口的平均预期寿命普遍呈现延长趋势,这将为养老保障体系带来巨大的长寿风险,而长寿风险却是
20世纪以来,随着人们对纳米科技的深入研究,纳米级的元器件得到了广泛的应用。纳米成像控制系统作为研究纳米科技的重要工具,其成像深度小,限制了纳米成像控制系统的应用范围
随着计算机视觉和生物特征认证技术的高速发展,人脸认证技术因其具有唯一性,相对稳定性和可非接触式采集等优势,近年来已广泛应用于社会生活的各个方面。但在人脸认证技术推