基于信息通道模型的转录组重建与分析关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:software222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于高通量RNA测序(RNA-Seq)数据的自动的剪接异构体识别和转录丰度估计是有关下一代测序技术的研究中的重要课题。这两项任务有助于人们分析物种基因组和转录组的全貌,在基因差异表达分析、基因调控机制研究等方面有重要应用。然而,目前两项任务仍然存在较大挑战。RNA-Seq技术仅对转录组进行部分测序,存在难以预测的信息损失。使用局部的观测值进行全转录组的重建具有高度的不确定性。现有的方法普遍面临着重建准确度低、依赖辅助标注等问题。针对以上问题,本文结合RNA-Seq的技术特点,将RNA-Seq建模为信息传递系统,转录组和读段分别建模为信号源与观测信号,使用信息论的方法对系统中的不确定度进行分析。提出基于信息通道的方法,通过优化信息传导量降低数据不确定度,进行转录组的重建和分析。本文所提出方法的主要内容如下:首先进行基因结构单元的自动组装和剪接异构体的重建。在无标注模式下,自动组装工作包括:逐级地完成表达区域的粗略划分,基因位点识别,亚外显子识别结果的修正等环节。构建有向图进行候选剪接异构体的重建,利用图的结构特点计算不同性质的路径代价,对路径进行有效筛选。其次,基于最大信息传导量模型,进行同时的剪接异构体识别和转录丰度估计。本文将RNA-Seq的过程建模为信息传递通道,使用互信息度量测序读段和可行的剪接异构体之间的关联度,并对信息通道容量进行估计。我们对由于信息缺失和读段歧义匹配造成的数据不确定度进行直接的建模和控制,通过最大化信息传导量,对信号源进行恢复。实验结果证明本文所提出的方法对于识别复杂结构的基因/剪接异构体具有突出的效果。最后,我们将算法框架扩展至给定基因标注的情形,对于有标注模式下的转录组重建进行实现。同时,基于综合算法开发了用于转录组分析的软件。在给定标注的条件下,我们将基因/剪接异构体自动组装的结果与现有标注进行比对和融合,进而识别新的基因位点和可变剪接结构。软件可用于无标注模式和有标注模式,适合不同的应用。
其他文献
随着个人用电设备的增长,无线电能传输成为了业界研究热点。其中,磁耦合谐振式无线输电应用最广泛、研究最深入。磁耦合谐振式无线输电的本质是能量经过磁场耦合进行传递,由
研究了锻造工艺对发动机连杆力学性能及微观组织的影响,并对连杆不同锻造工艺参数的C70S6材料连杆进行了裂解加工试验。结果表明,在同一锻造加热温度下,冷却速度越快,连杆的
红景天具有抗疲劳、抗癌、抗抑郁、增强免疫和保护心脑血管等功效。长时间大强度运动可造成骨骼肌氧化损伤、自由基积累、DNA损伤等,细胞凋亡在此过程中起着至关重要的作用,
以客家传统村落为研究主体,梅州地区为研究范围,构建梅州客家传统村落空间分布数据库。借助GIS的空间分析方法,以唐代及以前、宋元时期和明清时期为时间节点,分析了传统村落
<正>为降低山坡果园的劳力强度和省工、省力,单轨运输车是目前使用较多的一种山地果园运输车。现将其结构、安装使用和维护保养的要求介绍如下。1.单轨运输车的构成与特点(1)
在中国的社会中,乡土社会是一个很重要的组成部分,是我国辽阔疆域的主要组成部分,尤其是一些历史遗留下来的传统村落,千百年的延续,充满了丰富的文化底蕴,并在不断的演变之中
新时代高职院校承担着思想引领、立德树人的重大历史使命,为了提升育人效果,应该尝试不同的育人方式和育人路径,坚持建设文化育人共同体。在分析新时代高职院校文化育人共同
P2P网络借贷是在互联网技术高速发展和普惠金融需求空前高涨的背景下崛起的新型金融模式,是对传统金融市场的有力补充。2012年以来,P2P行业展现出惊人的成长性,虽然损害投资
执行器饱和是控制系统中很常见的的现象,在线性控制系统的设计中,往往假设控制信号可以无限大的输入到被控对象中。在实际控制系统中,执行器由于各种原因会对输入信号产生限
RDF是标记万维网语言的技术规范,能够丰富地表达和描述网络资源的结构与内容。语义万维网中的RDF和OWL标准已在各个领域有着广泛的应用,由于近年来数据呈现几何级增长,因此设