论文部分内容阅读
考虑到人类细胞中的分子组件之间普遍具有功能性的相互作用关系,我们对疾病病因的认识已经逐渐从单一的基因变异,转变到对连接身体内组织和器官系统的细胞内与细胞间网络的扰动上。新兴的网络医学不仅给我们提供了一个探索特定疾病复杂分子机制的平台,去认识疾病相关的分子与通路,也让我们有机会去发现明显不同的(病理)表型之间所内含的分子与分子之间关系。多个网络的整合分析将有助于我们对生物网络内在组织原则的发现,因为对多个生物网络之间的网络结构与系统动力学的分析将揭示这些网络之间的内在关联,从而让我们对整个生命系统的认识更加深刻。本文构建了数学理论指导下的对多个生物网络分析的整合分析框架,并在该框架下建立了生物网络的数值化表征,进而探讨了多个生物网络的比较问题与融合问题,并将相关整合分析方法转化为实际的应用软件。随着近几年国际大型科学项目的开展,如LINCS计划、TCGA、ENCODE计划等,提供了海量复杂疾病相关的各组学数据;加上网络科学在近十年的蓬勃发展,结合不断更新的生物信息学分析手段,为全面解析各组学之间关系并发现新的生物学规律提供了基础。基于新兴网络科学方法,作者展开了对多个生物网络的整合分析研究。生物网络研究为生物学提出了一系列符号化的概念,包括节点度、小世界、无标度等等。这些网络科学概念很好地描述了生物网络某一个侧面的性质,但并没有完整地将生物网络以一种系统化的数学语言描述出来。本文首先将数值泛函思想运用到构建生物网络数学表示上,在内积空间的基础上提出了用于操作生物网络对象的生物网络空间。随后,在生物网络空间的理论背景下,将投影运算应用到对生物网络数值化的表征中,为构建统一的生物网络表征标准奠定了坚实的理论基础。由于生物医学研究者们对数学概念的不熟悉,导致他们一般很难理解复杂分子网络相关的定义与构成。为了将分子网络以生物医学研究者所熟悉的形式清晰的表达出来,本文在生物网络空间的理论框架下,通过将目标网络与经典“基网络”进行比较,提出了一种基于知识的生物医学网络表征方法。在这个方法中,通过计算目标网络与基网络的相似性,将生物医学网络投影成一种类似“谱”的长向量表示形式,称之为网络指纹。基于知识的多维度表征为解析分子网络提供了一种更为直观的途径,特别是对大规模的网络比较与聚类分析。作为算例,提取了KEGG数据库中的73个疾病网络对其进行了网络指纹的比较分析。通过比较这些疾病网络的网络指纹,探索了疾病与疾病以及疾病与信号通路之间的关联问题。分析结果表明,网络指纹方法是一种可以帮助我们更好地认识生物医学网络的分析手段。生物体作为一个众多分子构成的整体,分子与分子之间的相互作用关系所形成的生物网络对探究生命系统的运作是至关重要的,而可以模拟复杂生命系统的多生物网络分析模型对于透彻理解分子生物学原理具有一定启示意义。在网络指纹理论方法的基础上,提出了一种基于经典生物学知识的生物网络表征与比对的web工具nfpscanner(networkfingerprintscanner),通过将生物网络表征为生物网络指纹,生物学家可以通过简单友好的可交互界面高效而客观的对其感兴趣的生物网络进行三个尺度的网络功能分析,包括网络指纹、网络比对、网络富集。使用不同的背景参考网络解析网络指纹,nfpscanner可以发现生物系统中的潜在规律。通过发现优化子网映射,nfpscanner可以探索生物网络模块之间的功能相关性。nfpscanner还可以对多个功能聚类的go与通路富集情况进行可视化。随着全基因组数据的获取效率越来越高,整合海量数据来为疾病与生物学过程描绘全景图的计算方法也变得至关重要。通过对每种数据类型中的样本构建网络,然后将这些网络融合成一个包含全谱数据的融合网络,网络融合方法可以很好地吸收各个组学所产生的数据海啸,进而将复杂的多维数据转化为精炼的生物学知识和规律。网络融合方法在效率上大大优于单数据类型的分析方法,同时也在识别复杂疾病亚型的问题上提出了一种整合分析手段,具有良好的临床应用价值。得益于多组学分析的长足进步,多维生物医学数据也持续呈现出非常密集式的增长。因此,对多种类型组学数据的整合聚类分析对于发展个体化医疗与精准医学至关重要。然而,尽管聚类分析方法已经取得了快速的发展,就整合聚类方法的实际应用而言,由于普遍缺少足够的编程水平,生物医学研究者依旧缺乏一个直观的web接口来对这些方法进行应用。为了填补应用的缺口,本文提出了一种对多维生物医学数据进行整合聚类的web工具icm(integratedclusteringofmulti-dimensionalbiomedicaldata),可以为多维生物医学数据及知识的融合、聚类、可视化提供一个应用接口。通过使用icm,用户可以通过对患者的亚型识别来对疾病或生物过程的异质性进行探索。对于icm的分析结果,可以使用非常直观的用户界面对之进行可交互式的修改。通过交换给定项目id所对应的网络链接,研究者们还可以与其合作者们交换各自在icm上的分析结果,从而直接促进分析结果的共享。icm还支持了增量式的聚类分析,用户可以直接在已有研究的数据中增加新的样本数据来获取新的聚类结果。论文最后对本文工作进行了简要总结,并对课题下一步工作进行了展望。