基于多组学数据的长链非编码 RNA 与蛋白编码基因调节关系预测

来源 :宁波大学 | 被引量 : 0次 | 上传用户:iflytekmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着生物学研究的不断推进,长链非编码RNA(long non-coding RNA,lncRNA)已被证实能够与其他生物分子尤其是蛋白编码基因(protein-coding gene,PCG)发生相互作用,从而在生命体的正常活动以及疾病的发生发展中发挥着不可或缺的调节作用。探索lncRNA-PCG相互作用关系是揭开生物体奥秘的重要一环,然而大部分lncRNA-PCG关系及其内在机制仍不明确。目前,需要大量人力物力的生物学实验显然无法满足复杂研究的需要,生物信息学方法已经成为大范围预测lncRNA-PCG关系的主要手段之一。本研究通过分析多组学数据,从不同层面上收集真实lncRNA-PCG关系与随机关系的特征差异及规律,并将各特征纳入到机器学习算法中,开发一种新的预测模型,用于推断lncRNA-PCG关系。
  方法:本研究从数据库中获取到307对实验验证的lncRNA-PCG关系,并构建2种随机关系集合(完全随机集合和部分随机集合),通过分析多组学数据,包括转录因子的ChIP-seq数据、表观遗传修饰的ChIP-seq数据、差异表达谱、miRNA靶标数据、基因共表达网络、lncRNA-RBP相互作用关系、lncRNA-DNA三螺旋结构等,发现真实关系与随机关系的特征差异,并将特征指标纳入到3种机器学习算法(支持向量机、logistic回归和随机森林)中,从中选择效能最佳的模型构建lncRNA-PCG关系预测器。最后,从TCGA数据库中的大肠癌数据中分别选择差异表达的lncRNA和PCG,使用本研究中构建的模型预测lncRNA-PCG关系,并阐释可能存在的生物学机制。
  结果:当完全随机集合作为阴性集合时,logistic回归、SVM、随机森林算法的平均AUC值分别达到0.805、0.793和0.831。当部分随机集合作为阴性集合时,三种算法的平均AUC值分别达到0.709、0.683和0.767。在任意一种情况下,随机森林算法构建的模型效能最佳。当完全随机集合作为阴性集合时,模型AUC值总大于当部分随机集合作为阴性集合时的AUC值。除此之外,3折交叉验证的结果显示模型的AUC值波动不大,稳定性较好。最后,在个案研究中预测到一些可能存在的lncRNA-PCG关系,预测为阳性的结果中已有文献报道的比例显著高于预测为阴性的结果(P-value<0.05)。
  结论:本研究构建的预测模型通过整合多组学数据,能够广泛地在多个层面上推断lncRNA-PCG相互作用的可能性,且模型性能和稳定性俱佳,这表明利用多组学数据预测lncRNA-PCG关系是一个可行方案。使用完全随机集合和部分随机集合作为阴性集合时,AUC值的差异表明lncRNA注释程度的差异可能会对模型效能产生影响。本研究构建的模型在大肠癌数据中的应用也表明了此模型具有一定的生物学实用性。
其他文献
神经网络是人工智能关注焦点之一,过去几十年已获得了丰硕成果。神经网络的动力学行为作为应用和设计的先决条件,在图像处理、模式识别、最优化问题等领域具有广泛的应用。与单稳定性研究相比,多稳定性和鲁棒性呈现出复杂的动力学行为。因此,研究神经网络的多稳定性和鲁棒性,对完善神经网络理论,拓展神经网络在人工智能方向的应用有重要的意义。  通过采用不动点定理、拓扑度定理、非光滑分析、右端不连续微分方程Filip
本文采用浸渍法制备纳米KF/AlO,考查了载体、浸渍溶剂、浸渍温度和表面活性剂对粒度的影响.在以纳米γ-AlO为载体、65℃乙醇浸渍、选择摩尔比1:1的PEG6000和PEG400混合表面活性剂的最佳浸渍条件下可获得平均粒度在20~40nm之间的催化剂.本文选择了丙烯腈和丙二酸二乙酯的Michael加成反应作为探针测试催化剂的性能,研究了载体、浸渍溶剂、浸渍温度和表面活性剂等浸渍条件与催化剂煅烧温
学位
碳酸二甲酯(DMC)是一种环境友好的绿色化学品,甲醇氧化羰基化法—洁净合成工艺的研究开发,已引起国内外学者的广泛重视.该文研究了甲醇液相氧化羰基化合成碳酸二甲酯的方法,采用固相离子交换法制备催化剂,具有重要的理论意义和实用价值.该文采用固相离子交换法制备了以三种分子筛(HZSM-5,Hβ,DASY)为载体的CuCl催化剂,详细考察了间歇反应装置和连续反应装置上催化剂的性能,对两种反应装置进行了对比
该文采用热压法制备了一种多孔气体扩散电极并对其进行了XRD表征.通过对过程中HO的测定证实气体扩散电极可以吸附空气气泡中的氧气而使之原位还原产生HO.在以气体扩散电极为阴极,铁板为阳极的单槽反应装置中,建立了一种紧凑简单的双电极电化学体系(BEF).利用气体扩散电极产生的HO与阳极产生的Fe直接发生Fenton反应对水中有机污染物进行降解研究.选择具有代表性的难降解芳香族有机污染物之一—苯酚作为降
本文通过宰前补饲维生素D3,以宰后肌肉中大量钙激活酶的作用提高羊肉嫩度,研究了维生素D3对舍饲肥育羔羊羊肉品质的影响。试验结果表明:1.在一定的补饲量和补饲时间下,补饲维生素D3对羔羊的健康并没有明显的不良影响。但过高水平和过长时间补饲维生素D3会对羔羊的健康不利。基于羔羊的健康状况考虑,第Ⅶ组(宰前10天连续补饲1.0×106IU/只·日维生素D3)不予采用。2.补饲维生素D3对羊只平均日增重有
学位
近年来,对哺乳动物体外受精及胚胎发育的研究日益深入。这些研究的一个重要基础就是胚胎的早期培养。因此,建立稳定,可靠的哺乳动物(包括人类)胚胎体外培养系统,已成为当前这一领域里的重要研究课题之一。然而,哺乳动物胚胎体外培养过程中,常发生体外发育阻断现象,胚胎体外发育阻断的机理尚未清楚,胚胎体内发育和体外培养的主要环境差别是氧浓度的不同,体外发育的胚胎周围环境氧浓度显著升高,而氧气在代谢过程中,产生毒
目的:  本文通过模拟研究比较基于众数的稳健估计孟德尔随机化方法、SME、WME、PWME法、传统的IVW法、MR-Egger回归法在不同程度工具变量假设违背情形下因果推断的表现,并将其应用到儿童肥胖与1型糖尿病关联的实例数据中,探索儿童肥胖与1型糖尿病是否存在因果关联。  方法:  介绍SMBE、WMBE法及SME、WME、PWME法的基本原理。本研究模拟四种不同情形:模拟1和模拟2中设置无效工
学位
目的:妊娠期糖尿病(Gestational diabetes mellitus,GDM)是妊娠期间首次发生或识别的糖耐量异常,是最常见的妊娠期并发症之一。虽然GDM患者血糖通常在分娩后恢复正常,但它显著增加了围产期母婴临床不良结局和未来罹患2型糖尿病与心血管疾病的概率。GDM所引起的肥胖和糖尿病的恶性代际循环,将影响整个人群的健康。然而目前对GDM发病机制尚不清楚,本研究采集GDM患者外周血,利用
目的:  1.运用生物信息学方法,系统性地预测人肠道病毒的构象表位,探索人肠道病毒构象表位的分布模式。  2.研究人肠道病毒的构象表位与病毒受体及中和抗体的相互作用,探讨构象表位在人肠道病毒致病机制中的作用。  3.构建基于RIVEM的人肠道病毒衣壳表面结构的绘制流程,用来辅助分析人肠道病毒的构象表位与中和抗体及病毒受体的相互作用。  方法:  1.从肠道病毒三种主要种型(A种型、B种型和C种型)
目的:调查心血管健康指标在中国高血压人群中的分布情况,并探讨在高血压人群中理想心血管健康指标和脑卒中发病之间的关系。  方法:研究对象为深圳市南山区60个社区健康服务中心高血压管理信息系统的高血压病人,基线调查时间为2010年4月至2011年9月,经过纳入与排除,最终抽取了5935人,排除447名脑卒中患者,最终5488名高血压患者纳入随访队列。本研究结合美国心脏学会(AHA)的“理想心血管健康指
学位