论文部分内容阅读
二十一世纪以来,生命科学进入了前所未有的高速发展阶段,高通量技术催生的多种组学数据和大量的临床实验数据为人们从系统的角度分析复杂疾病发生、发展的机理机制提供了条件。识别疾病特异性强、高精度的生物标记物可以对疾病的早期筛查、精确诊断、疾病治疗方案的选择、预后效果的评价、药物设计等方面提供巨大的帮助,为人类疾患的诊治开辟全新的途径。生物标记物识别是疾病预防和控制的重要课题,寻找和发现全新的有价值的生物标记物已成为生物信息学的一个研究热点,并引起了社会和临床医学界的广泛关注。 本论文旨在采用运筹学、统计学和生物信息学的研究方法,从高通量组学数据和生物分子网络出发构建识别生物标记物的模型与算法,并分析识别出的生物标记物所具有的性质,推断疾病可能的发病机制和致病机理。本文得到的主要研究结果包括: (1)对现有的生物标记物识别方法进行详细的文献综述,较为全面地介绍了目前对生物标记物识别问题的研究现状,并依据不同模型与算法所使用的数据类型将现有方法分为传统的生物标记物识别方法与基于网络的生物标记物识别方法,分析各类方法的优缺点,同时对其中具有代表性的方法进行详细介绍。 (2)详细和完整的介绍了空间内的随机游走和图上的随机游走,对随机游走的理论框架进行深入讨论。重点给出了带重启的随机游走在生物信息学里的应用,并从扩散先验信息影响和整合多种类型数据两个角度对现有实例进行分析。 (3)用基因协同网络这一全新的概念来对基因之间的互补协同能力建模,提出了一个基于基因协同网络的生物标记物识别方法——MarkRank方法。通过在模拟数据和真实数据上的分析,发现MarkRank方法相比于其他方法有着较高的分类精度,且在疾病同质性和异质性的情形下均可识别出有效的生物标记物。此外,MarkRank识别出的标记物不仅有着较强的疾病特异性和显著的网络连通性,而且能参与到相应疾病的一些重要的生物过程,有着恰当的生物学解释。 (4)综合使用五种癌症的表达数据集,构造具有高度异质性的癌症表达图谱,并结合生物分子网络信息来深度挖掘癌症共有的标记物基因。通过将癌症共有的标记物基因与不同类型癌症特异性结果的比较,推断癌症可能的发病机制和致病机理。