基于多组学数据的基因调控网络建模及基因——疾病相关性预测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xsbnwxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组中包含了数以万计的基因,这些基因及miRNA等非编码RNA之间的相互作用构成了基因调控网络,进而实现了细胞内多样的生物功能,并在人类生命过程中发挥着重要作用。如果这些功能发生异常,则会导致疾病的产生。构建和分析基因调控网络对于揭示相关功能机制有着重要的意义。此外,利用基于基因网络的计算方法可以预测与疾病相关的基因,发现潜在的临床生物标记物和治疗靶点。随着高通量技术的飞快发展和实验成本的降低,目前已产生了大规模的不同组学数据,如基因表达数据、拷贝数变异(copy number variation,CNV)数据以及DNA甲基化数据等。如何有效地从多组学数据中提取有用信息,用于构建和分析基因调控网络,以及基因与疾病间相关性的预测,是目前生物信息学领域中亟待解决的问题。  本文以揭示疾病中的基因调控机制和挖掘疾病相关基因为目标,利用多组学数据进行了两部分的研究,第一部分是疾病中基因调控网络的建模和分析,第二部分是基因-疾病相关性的预测,主要内容和创新点如下:  1.基于多癌症和前列腺癌中的基因及miRNA表达数据,利用组合式特征选择方法对基因调控关系进行建模,从结果中进一步挖掘和分析转录因子(Transcription factor,TF)-miRNA共调控前馈环(Feed-forwardloop,FFL)结构和相应的基因调控网络。FFL是共调控模块中最常见的类型之一,可以组成基因调控网络中的功能模块,在癌症中发挥着重要作用。针对基于计算方法预测出的基因调控关系中假阳性较高的问题,本文利用一种组合式特征选择方法对预测的基因调控关系进行建模。多种统计学检验和性能比较的结果表明,文中提出的方法显著降低了结果中的错误率。从结果中挖掘出的转录因子和miRNA共调控FFL结构也被证明在癌症中有重要的作用。通过对FFL及其共调控网络的分析,发现了包括STAT3和hsa-let-7e在内的一些在癌症中具有重要作用的转录因子和miRNA。  2.以研究多因素基因调控机制为目标,利用多形性胶质母细胞瘤(glioblastoma,GBM)中的基因表达、miRNA表达、CNV和DNA甲基化的多组学数据,结合基于lasso技术的偏相关分析方法构建多因素调控网络。除转录因子和miRNA外,研究表明CNV和DNA甲基化可以不同程度地引发基因表达异常,上述因素的共同作用可对基因表达产生复杂影响。针对现有的基因调控网络建模方法未能充分利用多组学数据的问题,本文利用TCGA数据库中的GBM多组学数据,结合基于lasso技术的偏相关分析方法对基因调控网络进行建模,在研究一个调控者和其靶点基因的关系时,充分考虑其他调控者对该靶点基因的影响。仿真实验和统计检验结果表明基于lasso技术的偏相关分析性能良好。进一步根据结果中调控者的数量和种类对筛选出的调控关系进行分类,得到了癌症中不同种类的调控机制并构建出癌症中的多因素调控网络。后续功能富集分析以及文献验证结果表明,多因素调控中的关键调控类型:CNV/TF、TF/甲基化和miRNA/TF,在GBM中有着重要的作用。  3.提出一种基于多组学数据融合的异质性网络方法HNMD(HeterogeneousNetwork based Method by Integrating the Multi-dimensional Data),对GBM潜在的相关基因进行预测。HNMD方法利用了已知的GBM相关基因以及基因表达、CNV和DNA甲基化的基因多组学数据,通过挖掘基因间的相关性并与蛋白质-蛋白质相互作用数据(Protein-protein interaction,PPI)融合,构建反映基因功能关系和疾病特异性信息的异质性网络模型。在此基础上,进一步采用带阻尼的网络传播算法减小网络模型中中心节点对传播过程的有偏影响,提高了GBM相关基因的预测精度。多种评估参数的对比结果表明,HNMD的性能明显优于仅使用单组学数据的网络传播方法以及随机游走等本领域的现有方法。通过对预测基因的后续分析,发现了如RUNX3等GBM的潜在临床靶点。  4.在基因多组学数据的基础上,引入miRNA表达数据并考虑miRNA表达、CNV和DNA甲基化对基因表达的影响,提出了基于基因和miRNA多组学数据的异质性网络建模方法iHNMMO(integrative Heterogeneous Network Modeling ofMulti-Omics data)。该模型通过线性回归对miRNA、CNV、DNA甲基化的基因调控作用进行建模,并以此为基础构建基于基因和miRNA多组学数据的异质性网络模型,结合网络传播算法进行基因-膀胱癌相关性预测。多种评估指标结果表明,利用基因和miRNA的多组学数据可明显提高iHNMMO的预测性能,进一步对预测基因的后续分析也表明了该方法的有效性。  本文中的研究有针对性地解决了目前基因调控网络建模和基因-疾病相关性预测现状中存在的一些问题,提供了有效的建模和预测方法。同时,研究中的发现对阐明癌症中的基因调控机制有一定的帮助。
其他文献
电化学过程中电极附近的原位拉曼光谱能提供电极表面和附近离子团的变化信息,有助于深入了解电化学反应机理。现如今电化学原位拉曼光谱法已成为电化学反应过程研究的重要手段
文言文的记叙、表达、交流和沟通方式,在我国历史上延续了很长的一段时间,一直到近代史上推行“新文化运动”后,才开始流行以“白话”的形式表达和交流.但这并不表示我们应当
当窗外的雁塔传来清越、沉稳、宏阔的钟声的时候,正是巍巍秦岭积雪浮云端的壮丽时刻.站在新春的门槛前,本刊编辑部谨向在过去岁月中给予杂志支持、关爱、帮助的各位领导、专
期刊
鱼雷罐车和钢包是冶金工业的重要热工容器,主要起着盛接、转运、贮存、精炼和浇注熔融金属的作用。其保温性能不但直接影响熔融金属的温度,同时还会对冶炼过程、钢材质量以及经
许多中职教师在开展德育工作时依旧受到传统观念影响,习惯以学生成绩论好坏,并且中职学校过于重视文化课以及专业技能课,忽视德育教育对学生综合素质的影响等诸多问题因素,导
含碳浇注料质量的改善,其焦点在于提高石墨的亲水性,结合剂流动性,碳质结合剂的炭化率.该文研究表明,在四种表面活性溶液中,当表面张力低于40×10N/m时,碳质材料对水的接触角
该文对CAS-OB工艺铝热法升温同时获得ⅰAlⅱs、ⅰOⅱ和TⅰOⅱ并控制夹杂物进行了实验研究和理论探讨.
期刊
胃肠动力紊乱是临床上常见的一种功能性疾病.胃电图是一种在体表对胃的电活动信号加以记录的方法,是临床上于对胃肠动力紊乱诊断的理想方法.本文详细论述了一种便携数字式体