论文部分内容阅读
人类基因组中包含了数以万计的基因,这些基因及miRNA等非编码RNA之间的相互作用构成了基因调控网络,进而实现了细胞内多样的生物功能,并在人类生命过程中发挥着重要作用。如果这些功能发生异常,则会导致疾病的产生。构建和分析基因调控网络对于揭示相关功能机制有着重要的意义。此外,利用基于基因网络的计算方法可以预测与疾病相关的基因,发现潜在的临床生物标记物和治疗靶点。随着高通量技术的飞快发展和实验成本的降低,目前已产生了大规模的不同组学数据,如基因表达数据、拷贝数变异(copy number variation,CNV)数据以及DNA甲基化数据等。如何有效地从多组学数据中提取有用信息,用于构建和分析基因调控网络,以及基因与疾病间相关性的预测,是目前生物信息学领域中亟待解决的问题。 本文以揭示疾病中的基因调控机制和挖掘疾病相关基因为目标,利用多组学数据进行了两部分的研究,第一部分是疾病中基因调控网络的建模和分析,第二部分是基因-疾病相关性的预测,主要内容和创新点如下: 1.基于多癌症和前列腺癌中的基因及miRNA表达数据,利用组合式特征选择方法对基因调控关系进行建模,从结果中进一步挖掘和分析转录因子(Transcription factor,TF)-miRNA共调控前馈环(Feed-forwardloop,FFL)结构和相应的基因调控网络。FFL是共调控模块中最常见的类型之一,可以组成基因调控网络中的功能模块,在癌症中发挥着重要作用。针对基于计算方法预测出的基因调控关系中假阳性较高的问题,本文利用一种组合式特征选择方法对预测的基因调控关系进行建模。多种统计学检验和性能比较的结果表明,文中提出的方法显著降低了结果中的错误率。从结果中挖掘出的转录因子和miRNA共调控FFL结构也被证明在癌症中有重要的作用。通过对FFL及其共调控网络的分析,发现了包括STAT3和hsa-let-7e在内的一些在癌症中具有重要作用的转录因子和miRNA。 2.以研究多因素基因调控机制为目标,利用多形性胶质母细胞瘤(glioblastoma,GBM)中的基因表达、miRNA表达、CNV和DNA甲基化的多组学数据,结合基于lasso技术的偏相关分析方法构建多因素调控网络。除转录因子和miRNA外,研究表明CNV和DNA甲基化可以不同程度地引发基因表达异常,上述因素的共同作用可对基因表达产生复杂影响。针对现有的基因调控网络建模方法未能充分利用多组学数据的问题,本文利用TCGA数据库中的GBM多组学数据,结合基于lasso技术的偏相关分析方法对基因调控网络进行建模,在研究一个调控者和其靶点基因的关系时,充分考虑其他调控者对该靶点基因的影响。仿真实验和统计检验结果表明基于lasso技术的偏相关分析性能良好。进一步根据结果中调控者的数量和种类对筛选出的调控关系进行分类,得到了癌症中不同种类的调控机制并构建出癌症中的多因素调控网络。后续功能富集分析以及文献验证结果表明,多因素调控中的关键调控类型:CNV/TF、TF/甲基化和miRNA/TF,在GBM中有着重要的作用。 3.提出一种基于多组学数据融合的异质性网络方法HNMD(HeterogeneousNetwork based Method by Integrating the Multi-dimensional Data),对GBM潜在的相关基因进行预测。HNMD方法利用了已知的GBM相关基因以及基因表达、CNV和DNA甲基化的基因多组学数据,通过挖掘基因间的相关性并与蛋白质-蛋白质相互作用数据(Protein-protein interaction,PPI)融合,构建反映基因功能关系和疾病特异性信息的异质性网络模型。在此基础上,进一步采用带阻尼的网络传播算法减小网络模型中中心节点对传播过程的有偏影响,提高了GBM相关基因的预测精度。多种评估参数的对比结果表明,HNMD的性能明显优于仅使用单组学数据的网络传播方法以及随机游走等本领域的现有方法。通过对预测基因的后续分析,发现了如RUNX3等GBM的潜在临床靶点。 4.在基因多组学数据的基础上,引入miRNA表达数据并考虑miRNA表达、CNV和DNA甲基化对基因表达的影响,提出了基于基因和miRNA多组学数据的异质性网络建模方法iHNMMO(integrative Heterogeneous Network Modeling ofMulti-Omics data)。该模型通过线性回归对miRNA、CNV、DNA甲基化的基因调控作用进行建模,并以此为基础构建基于基因和miRNA多组学数据的异质性网络模型,结合网络传播算法进行基因-膀胱癌相关性预测。多种评估指标结果表明,利用基因和miRNA的多组学数据可明显提高iHNMMO的预测性能,进一步对预测基因的后续分析也表明了该方法的有效性。 本文中的研究有针对性地解决了目前基因调控网络建模和基因-疾病相关性预测现状中存在的一些问题,提供了有效的建模和预测方法。同时,研究中的发现对阐明癌症中的基因调控机制有一定的帮助。