论文部分内容阅读
高通量技术的快速发展为基因组范围内的基因表达和蛋白质活性提供了大量信息。生物数据出现了前所未有的增长,有效的利用这些数据,由这些数据挖掘出其背后的生物网络是系统生物学的研究热点之一。复杂网络理论为我们探索各种复杂系统提供了一个新的视角,人们逐渐认识到研究过程中不能仅局限于单个基因,而是应该全面地从系统的角度去探寻生物分子间的相互作用关系,从而研究整个生物系统的运行机制。生物网络推断的目的正是从生物数据中构建生物分子间相互作用关系所构成的网络结构。因此,生物网络推断的研究具有重要的意义。蛋白质参与和控制了生物内大部分生命活动。蛋白质间相互作用网络(PPI)的分析方法成为蛋白质功能特性研究的重要途径,对蛋白质间相互作用网络的分析不仅为系统认识细胞内生命活动的作用机制提供有效方法,同时也在疾病诊断治疗和药物开发等方面的广泛应用发挥了重要的作用。三阴性乳腺癌(TNBC)是指癌组织免疫组织化学结果为雌激素受体(ER)、孕激素受体(PR)和原癌基因(Her-2)均为阴性的乳腺癌。TNBC往往更具侵略性,与受体阳性亚型的预后相关,在青年和非洲裔美国妇女中更常见。乳腺癌是全世界女性中最常见的生命危害疾病之一,乳腺癌的各种遗传指标已经过详尽的研究。据统计,三分之一的乳腺癌患者后来复发或转移。尽管检测和新兴治疗已取得很大进展,但必须进一步改进早期诊断以减少转移的机会。为了更好的预测疾病,监测和早期诊断非常重要,了解身体的蛋白质水平可能会导致产生癌症如何发挥作用的新预测模型。由于细胞的实际功能特性是通过蛋白质传播的,一些癌症研究人员使用细胞系或由于技术挑战而分析深度较低,已经对蛋白质组学进行了广泛的研究。超过80%的乳腺癌可通过靶向治疗进行治疗,但三阴性乳腺癌是一个重要的未得到解决的临床问题。本文以三阴性乳腺癌的蛋白质组学数据为研究对象,通过研究MAPK信号传导通道中与细胞增殖有关的特定途径的蛋白质,这些特定的途径包括MAP激酶、JNK激酶和P38激酶路径通道。通过对特定途径蛋白质相互作用网络进行构建,挖掘蛋白质间相互作用关系,检测出对于动态过程的关键蛋白质,这些关键蛋白质的发现能够为医疗诊断及诊断效果的监控等许多生物及医学难题提供参考依据。近些年来,基于信息论的相关性度量方法被广泛应用以构建生物网络。有学者提出了以条件互信息(CMI)为网络节点间相关性的度量指标,并基于路径相容算法(PCA)进行网络边的删除的方法构建网络。该算法具有非线性独立性的检测性能,且具有计算简便、运行速度快的特点,比较适合用来构建复杂的生物网络。因此,我们选用Yair Pozniak等(2016)文献中收集的乳腺癌不同阶段的88个样本,通过Go-enrichment对基因集进行功能分析,选出Ras-Protein和Response to cytokine功能的90个蛋白质进行研究。运用PCA-CMI算法,我们对所选出的90个蛋白质在不同状态下构建了四个不同的网络,并对所构建的网络的拓扑结构和特性进行了对比。在对MAPK信号传导的特定蛋白质进行蛋白质间相互作用网络构建时,我们首先对MAPK通道的特定蛋白质数据进行处理,基于生物学背景挑选出经典传导路径的60个蛋白质进行研究,然而由于数据缺失比例较大,移除缺失率高达50%的蛋白质,对剩下的27个蛋白质数据进行补全。然后通过扩散图和Wanderlust算法对44个非时间序列的27个蛋白质进行伪时间排序,然后通过高斯过程回归对这27个数据进行平滑处理。我们发现有部分经过平滑后的蛋白质数据和原始数据相比存在很大的“噪音”,因而将这些蛋白质移除。最后对剩下的16个蛋白质数据进行蛋白质间相互作用动态网络的构建。其次我们针对经过选择及数据处理后的16个蛋白质进行蛋白质间相互作用网络的推断。其推断过程主要分为两部分:首先通过自上而下的方法(高斯图模型)对16个蛋白质构建静态网络;然后基于此静态网络的拓扑结构,我们通过自下而上的方法(即微分方程建模)对所推断的静态网络进行动态网络的构建。我们将原始数据运用在高斯图模型上进行静态网络的构建,在进行微分方程建模时我们采用的是经过伪时序平滑处理后的蛋白质数据。通过近似贝叶斯计算的拒绝算法对微分方程的参数进行估计。在构建微分方程数学模型时我们假定所推断的网络拓扑结构中节点间的边具有双向性(即同时具有正向调控作用和负向调控作用)。利用Kitano教授提出的稳定性理论对微分方程的稳定性进行检验,我们逐步小心的依次删除具有方向的边。最后推断出12个蛋白质间相互作用的动态网络。最后,本文通过对条件互信息(CMI)和路径相容算法(PCA)相结合的网络推断算法进行研究(即PCA-CMI算法和与此相类似的PCA-PMI算法)。我们发现路径相容算法(PCA)会因输入变量顺序的不同而产生不同的结果。在处理高维数据时,这种情况尤其突出。为解决这一问题,我们结合统计方法,以PCA-CMI算法为基础,通过多次随机实验模拟得到网络边的频率矩阵从而构建网络。实验表明,依据边的频率矩阵的方法构建的网络并不理想。然后,我们又对PCA-CMI算法的0阶、1阶及2阶的条件互信息矩阵(边的权重矩阵)进行实验模拟。在Matlab上对算法进行计算分析,我们发现依据边权重矩阵(即2阶条件互信息矩阵)的均值矩阵构建网络的方法具有较高的精度。因而,我们提出依据边权重(2阶CMI矩阵)的均值矩阵构建网络的新方法(简称为EWMM)。通过ROC曲线对比表明,我们所提出的EWMM算法比PCA-CMI算法具有更好的性能。本文的主要创新之处有以下四点:第一,我们基于非时间序列的三阴性乳腺癌数据进行动态网络的构建,这是目前为止第一个对于非时间序列数据的动态网络研究。第二,在构建动态网络时,我们提出了一个新的数学模型。利用该数学模型,我们可以探讨蛋白质间相互作用关系。同时该数学模型在判定蛋白质相互作用关系时具有较高的灵活性。第三,基于三阴性乳腺癌病人的蛋白质数据,我们对特定途径的蛋白质进行了静态网络和动态网络的构建。因此所构建的动态网络同基于正常细胞所推断的网络模型相比具有一些相同和不同之处。因此,我们所构建的三阴性乳腺癌病人蛋白质相互作用网络,对以后的实验研究具有一定的预测意义。第四,基于相关性对静态网络的推断,我们提出了一个新的算法。该算法建立在PCA-CMI算法基础之上,我们解决了PC(Path consistency)算法因输入变量顺序不同而得到不同结果的问题。即提出了一个统计的方法,通过多次试验模拟得到边权重均值矩阵,依据所得到的边权重均值矩阵对网络进行推断。我们所提出的新算法与现有算法相比具有一定的优势。