基于多组学数据的可变剪接异构体功能预测方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:rilton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同一个基因可以通过可变剪接产生不同的可变剪接异构体(isoform),再翻译成多个不同的蛋白质变种。预测这些isoform的单独功能有助于解密蛋白质的功能多样性。目前,研究学者们在基于基因层面的蛋白质功能预测方面已经做了大量的工作,即把基因产物的功能都聚焦标注到同一个基因。实际上,一个基因可以表现出多种功能,主要是由于同一基因经过可变剪接得到的多个isoform,这些isoform及其翻译得到的蛋白质才是不同生物功能的实际执行者。然而,与典型的基因功能预测相比,isoform功能预测方面的研究目前还较少,主要原因是缺乏成规模的isoform层面的功能注释数据。更有研究指出,可变剪接与多种发育异常密切相关。在isoform功能预测的基础上,进一步预测isoform-疾病关联有助于发现多种复杂疾病的潜在病理学机制,并为这些疾病开发精准的治疗方法和有效的药物。isoform-疾病关联预测的主要挑战也是缺乏可用的isoform-疾病关联数据。目前可用的isoform-疾病关联大多数是基于湿实验的方法得到的,存在成本高,覆盖范围十分有限等问题。随着高通量转录组测序(RNA-Seq)技术的飞速发展,人们可以轻松地收集到大规模的转录组层面数据。研究者们目前已经提出了一些isoform功能预测方法,这些方法主要利用RNA-Seq数据、可用的基因功能注释和基因-isoform关联关系。现有isoform功能预测和isoform-疾病关联预测主要存在以下两个问题待解决:(1)isoform缺少成规模的功能注释数据和疾病关联数据,当前存储功能注释信息和疾病关联的数据库都是面向基因层面构建的;(2)缺少基因组,转录组和蛋白质组的多组学数据的有效整合,目前isoform的相关研究方法中的数据整合研究还是比较有限的。本人针对当前isoform功能预测和isoform-疾病关联预测中存在的现实需求,以有效整合多组学数据提高isoform功能预测和isoform-疾病关联预测精度为目标,采用多示例多标记学习框架,设计协同矩阵分解模型与求解方法,对isoform功能预测和isoform-疾病关联预测展开研究,提出两个有效算法,本文的主要贡献包括:(1)针对现有的isoform功能预测方法中忽略可变剪接过程中组织特异性的问题,本文提出一种基于组织特异性的isoform功能预测方法(简称,TS-Isofun)。TS-Isofun首先利用组织层面的多个RNA-Seq数据集构建了多个具有组织特异性的isoform功能关联网络。通过自适应权重有选择性地整合这些网络,从而建模组织特异性。然后TS-Isofun引入了基于协同矩阵分解的数据融合模型,利用加权整合的isoform功能关联网络、基因层面数据和基因功能标注数据来预测isoform功能。在人类RNA-Seq数据集上的实验结果表明,TS-Isofun算法明显优于目前最新的isoform功能预测方法,对组织特异性的考虑有助于更准确地预测isoform功能。(2)在isoform功能预测研究的基础上,为了进一步研究isoform-疾病关联,本文提出了一种基于数据融合的isoform-疾病关联预测方法(简称,IDAPred)对基因组、转录组、蛋白质组数据进行有效融合。IDAPred将基因看作包,将isoform看作示例,基于多示例学习思想将基因-疾病关联映射到isoform-疾病关联,假设现有的基因-疾病关联数据不完整,引入正则项补全基因-疾病关联以及线性分类器来预测isoform-疾病关联,提升了isoform-疾病关联预测精度,显著优于对比方法。然而,IDAPred以等权重整合具有组织特异性的isoform关联网络且并未考虑疾病之间的内部关联。针对以上IDAPred存在的不足,本文进一步提出基于多组学数据融合的isoform-疾病关联预测方法(简称,Iso DA)。相比于IDAPred,Iso DA首先处理并使用了更大的数据集,融合了更多的组学数据。其次,Iso DA在整合通过不同组织的isoform表达数据和isoform序列数据计算得到的isoform关联网络时,设计了自适应权重。然后,Iso DA构建了疾病之间的内部关联网络并随着算法的优化过程动态更新,以此提高Iso DA的预测精度。最后,Iso DA的实例实验进一步验证了基因APOE和VEGFA中的isoform与疾病的关联预测,并取得了较好的预测结果。
其他文献
西南地区露地蔬菜生产氮肥用量大和养分投入不合理等问题突出,加上区域性高温多雨和土壤风化淋溶严重等因素,导致蔬菜系统氮肥损失严重和环境代价高。因此,本研究采用田间试验和生命周期评价(LCA)相结合的方法,一方面,定量化评价不同减氮配施硝化抑制剂(DMPSA)氮肥产品对西南地区大白菜和辣椒生长发育以及农学、环境和经济效应的影响。另一方面,综合评价以减氮配施DMPSA氮肥产品为核心的土壤-作物综合管理理
在社交网络不断变化过程中,从微观变化层面上观察,各种信息在个体之间相互传递和改变,从而个体之间关系会根据接收到的不同信息发生不同的变化,这种关系在演变过程中可能增强或破裂;从宏观变化层面上观察,由于网络中个体的非线性相互作用,网络会形成一定的结构和功能。因此从两个方面剖析网络是非常有必要的。目前研究者大多关注单一类型网络的剖析,或者分析某一网络的特征。对网络这些特性分析固然重要,但是网络的特性都是
分形凝聚是自然界中常见的现象,如雪花的形成,晶体薄膜的生长,土壤粒子的凝聚等。分形分散也是比较常见的现象,例如水流的冲刷,土壤团簇的破碎等。团簇的凝聚与分散属于非线性过程,在随机过程中表现为自组织现象和自相似性,这些特征引起了学者一系列的思考。如团簇凝聚和分散的过程,外界环境对凝聚与分散过程的影响等,对于这些问题,学者们从未停止过探索。在传统实验方法中,学者们利用仪器进行研究,但在很多环境下传统实
目标检测一直是计算机视觉里的重要研究方向之一,受到众多学者的密切关注,其目的是判定输入图片中是否含有目标类别,并用边界框将目标包围起来。随着视频数据的快速增长,视频目标检测研究得以快速发展。视频目标检测将视频看作连续的图片帧,在每一帧上完成目标检测任务。视频目标检测在自动驾驶、视频监控、智慧城市等应用领域发挥着不可或缺的作用。然而,视频目标检测仍面临许多问题。视频中不可避免的运动模糊、怪异姿势和视
基因调控网络是生物学系统的一个强有力抽象,它对生命活动的控制是通过调控细胞内基因的表达水平来实现的。作为生物过程的核心,基因调控网络几乎控制着生物的所有细胞活动和功能,在生物的生命进程中发挥着至关重要的作用。基因之间的调控机制十分复杂,传统的湿实验很难挖掘其调控规律。构建高质量的基因调控网络是系统生物学领域一直以来都关注的热点问题。随着计算技术和人工智能理论迅猛发展,极大地促进了基因调控网络计算方
近十几年教育界持续关注教师专业质量的提升,教师质量直接影响着教学效果,成为教育变革的核心元素之一。自2018、2020年国家颁布《关于全面深化新时代教师队伍建设改革的意见》和《深化新时代教育评价改革总体方案》以来,构建科学专业的教师评价体系、推动教师队伍建设走向新高度成为关注的重点。设立职前教师专业标准并改善教师职前培训质量,是提升教师专业化并确保基础教育改革成效的基本前提。美国职前教师表现性评价
我国梨树的栽培面积和产量都稳居世界首位,2018年分别达到94万公顷和1640万吨,是世界梨果产业的重要支撑。但目前我国梨果单产水平刚达到世界平均水平,而单位面积化肥施用却是世界平均用量的三倍。我国梨园普遍存在施肥过量、比例失调以及肥料利用率低等问题,长此以往不仅增加了农民的经济负担,也影响了环境的持续发展,因此迫切需要一种科学高效的梨推荐施肥方法指导我国梨园生产。本研究以河北省梨园多年多点的田间
物象都有其形,虽然造形又分为平面造形和立体造形两种形式,但最基本的表现形式还是平面造形。“形”这个概念几乎是所有作者无法规避的问题,形的范围可以扩大到所有画面的可见因素,在绘画中可以将笔触、肌理和材料等划到“形”的范畴当中去,从形的角度去丰富表现技法,开拓创作的思路。近几十年来,岩彩这一美术概念的出现,备受中国美术界的瞩目,以中央美院实验艺术系教授胡明哲为领先的岩彩大军在本土掀起了一阵狂浪,将材质
著名书法家余仲九先生所编著的《小竹斋什记》中,将刘敦山作为川东书画界优秀的画家记载在书中,评价颇高。笔者通过对刘敦山相关资料的查阅以及山水作品的探析,深觉刘敦山的艺术修养深厚、成就卓著,但其在全国画坛却是寂寂无名,理应受到学界应有的关注和重视。学界关于刘敦山山水画的研究极其欠缺,认识和研究刘敦山最直接的突破口在于其留存于世的作品。据统计,找到刘敦山现存作品42件,其中山水画32件,花鸟画7件,书法
随着自由及开放源代码软件(Free and Open Source Software)的流行与开源社区的发展,基于组件复用的软件开发方式变得愈发常见。开源许可证不仅涉及到开发者自身权益的保护,也会影响着项目的开发、应用和发展。本文基于完成的国家云计算与大数据专项之开源生态模式及机制研究课题,针对开源许可证种类繁多且条款复杂的特点,面向Maven仓库开源组件的许可证选择为研究对象。以期促进开源软件的