论文部分内容阅读
转录组表达水平测量计算是基因功能研究的重要手段,而真核生物选择性剪切的存在给准确计算基因异构体表达水平带来了困难。近几年诞生的第三代测序技术是转录组研究的一种新的实验方法,其显著特点是可以获得超长读段,弥补了第二代测序技术中的读段过短,异构体检测较为困难的缺点。PacBio公司针对转录组提出的ISO-seq测序技术,给转录组研究尤其是检测新型异构体领域带来了新机遇。但目前对于ISO-seq数据在转录组研究的应用中极少有工作涉及异构体表达水平的计算,一部分研究工作通过结合RNA-seq技术数据,使用ISO-seq与RNA-seq混合数据进行表达水平的计算。而这些研究工作大多只用到小部分的全长读段数据,丢失了大部分非全长读段数据中较多有用信息,因而数据没有得到充分利用,造成数据通量低。另外,使用ISO-seq和RNA-seq混合数据的方法虽同时兼顾了两种测序技术的优点,但其计算复杂程度高,且获取同一样本下两种测序技术数据的成本高。本文针对这些问题,在保留非全长读段的基础上,提出了仅使用ISO-seq单一数据同时预测异构体结构和计算其表达比例的两个模型DSIDP和MCIDP。具体完成的工作如下:1)鉴于现有的预处理框架并不能满足本文保留非全长读段的需求,本文首先提出了一套保留全长和非全长读段的数据预处理方法。从ISO-seq原始数据出发,经过下机数据处理、读段纠错、读段比对和外显子序列整理四个步骤,最终获得模型的输入数据。2)针对具有全长读段的异构体表达水平计算问题,提出了DSIDP模型,从全长读段中建立异构体预测集,同时采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题。模型在模拟数据和真实数据上得到了有效验证。3)针对没有全长读段的超长异构体检测问题,提出了MCIDP模型,采用马尔科夫链模拟基因外显子之间的选择性剪接,该模型除了从全长读段中建立异构体预测集外,还能预测出数据中没有全长读段的超长异构体,这对新型异构体的发现具有重要意义。模型在模拟数据和真实数据上得到了有效验证。