论文部分内容阅读
转录组的研究能够从整体水平上研究基因功能和基因结构,揭示生命过程及疾病发生过程中的分子机理。基因芯片技术和二代测序技术近年来被广泛的应用于转录组学的研究,定量检测基因表达强度。基因芯片技术是在芯片上设计与靶序列互补的探针来检测样品中转录本的丰度。转录组测序(RNA-seq)技术则是通过边合成边测序的策略得到大量跟靶序列互补的测序读段,再通过比对到基因组上或直接拼接得到转录本的丰度。不论芯片数据还是测序数据,在其产生过程中会都受到各种各样偏差和噪音的影响,在转录组数据的预处理中,如何消除这些偏差和噪音的影响从而得到准确的转录本丰度估计是生物信息学研究中的一个重要课题。 基因芯片实验的一个重要前提是样品中的RNA达到一定的浓度,通常需要先做RNA扩增以达到芯片实验所需的RNA初始量,而对于某些样本,比如植物的雄蕊等,一轮扩增也很难满足该初始量,双轮扩增的引入解决了这一问题,但同时带来了更大的误差,影响后续生物学分析的结论。我们在处理水稻芯片数据时观察到转录本两端的探针存在信息丢失的现象,并用Real Time PCR实验验证了偏差跟芯片上探针与靶序列的杂交无关,而是由于RNA扩增造成的。之前有研究讨论了此类现象及其导致的偏差,但至今没有校正双轮RNA线性扩增中偏差的有效方法。对于转录组测序而言,由于扩增过程中的RNA降解、随机打断、GC含量、转录本长度等因素的影响,使得测序读段在转录本上并非均匀分布,导致产生偏差。目前校正读段非均匀性偏差的方法是认为转录本上每个位置起始的读段个数服从变参数的泊松分布,泊松分布的参数跟该位置的序列偏好相关,然后用对数线性模型对泊松分布的参数做回归,进而估计转录本丰度。但他们用的模型太简单,没有充分利用序列的信息。 在本文的研究中,我们主要完成了两项工作:第一项工作是针对基因芯片数据,构建数学模型模拟双轮RNA线性扩增的过程,估计转录本上每个位置在双轮扩增后还存在的概率,对双轮扩增的芯片数据在探针水平上做校正,然后结合已有芯片数据预处理方法完成芯片数据预处理。我们将校正模型应用到基于双轮RNA线性扩增的Affyrnetrix公司的基因表达芯片数据上,估计水稻雄蕊样本的转录本丰度。校正后的数据无论样本内偏差还是样本间偏差都明显降低,说明模型校正能够提高芯片数据的质量。同时,跟一种常用芯片校正策略(曲线校正)的比较也说明了模型校正的必要性。第二项工作针对RNA-seq数据,提出Poisson-PDNN模型,引入位置相关近邻模型(PDNN)的思想更精确的估计序列偏好,改进泊松分布参数的对数非线性回归模型,进而准确的估计转录本丰度。我们将Poisson-PDNN模型应用于Illumina/Solexa测序技术以及SOLiD测序技术得到的3组RNA-seq数据。通过跟已有方法比较,说明我们的改进能够更好的拟合RNA-seq数据,并能够更准确的估计转录本丰度。此外,模型的参数跟物种和测序平台有一定的相关性,但整体上还是显示出了一定的保守性。 最后,我们简单总结了本文的研究工作,并讨论了转录组数据分析中的一些问题和未来的研究方向。