论文部分内容阅读
基于高通量RNA测序(RNA-Seq)数据的自动的剪接异构体识别和转录丰度估计是有关下一代测序技术的研究中的重要课题。这两项任务有助于人们分析物种基因组和转录组的全貌,在基因差异表达分析、基因调控机制研究等方面有重要应用。然而,目前两项任务仍然存在较大挑战。RNA-Seq技术仅对转录组进行部分测序,存在难以预测的信息损失。使用局部的观测值进行全转录组的重建具有高度的不确定性。现有的方法普遍面临着重建准确度低、依赖辅助标注等问题。针对以上问题,本文结合RNA-Seq的技术特点,将RNA-Seq建模为信息传递系统,转录组和读段分别建模为信号源与观测信号,使用信息论的方法对系统中的不确定度进行分析。提出基于信息通道的方法,通过优化信息传导量降低数据不确定度,进行转录组的重建和分析。本文所提出方法的主要内容如下:首先进行基因结构单元的自动组装和剪接异构体的重建。在无标注模式下,自动组装工作包括:逐级地完成表达区域的粗略划分,基因位点识别,亚外显子识别结果的修正等环节。构建有向图进行候选剪接异构体的重建,利用图的结构特点计算不同性质的路径代价,对路径进行有效筛选。其次,基于最大信息传导量模型,进行同时的剪接异构体识别和转录丰度估计。本文将RNA-Seq的过程建模为信息传递通道,使用互信息度量测序读段和可行的剪接异构体之间的关联度,并对信息通道容量进行估计。我们对由于信息缺失和读段歧义匹配造成的数据不确定度进行直接的建模和控制,通过最大化信息传导量,对信号源进行恢复。实验结果证明本文所提出的方法对于识别复杂结构的基因/剪接异构体具有突出的效果。最后,我们将算法框架扩展至给定基因标注的情形,对于有标注模式下的转录组重建进行实现。同时,基于综合算法开发了用于转录组分析的软件。在给定标注的条件下,我们将基因/剪接异构体自动组装的结果与现有标注进行比对和融合,进而识别新的基因位点和可变剪接结构。软件可用于无标注模式和有标注模式,适合不同的应用。