基于基因芯片和转录组测序的转录本丰度估计方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:kittyleung1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录组的研究能够从整体水平上研究基因功能和基因结构,揭示生命过程及疾病发生过程中的分子机理。基因芯片技术和二代测序技术近年来被广泛的应用于转录组学的研究,定量检测基因表达强度。基因芯片技术是在芯片上设计与靶序列互补的探针来检测样品中转录本的丰度。转录组测序(RNA-seq)技术则是通过边合成边测序的策略得到大量跟靶序列互补的测序读段,再通过比对到基因组上或直接拼接得到转录本的丰度。不论芯片数据还是测序数据,在其产生过程中会都受到各种各样偏差和噪音的影响,在转录组数据的预处理中,如何消除这些偏差和噪音的影响从而得到准确的转录本丰度估计是生物信息学研究中的一个重要课题。  基因芯片实验的一个重要前提是样品中的RNA达到一定的浓度,通常需要先做RNA扩增以达到芯片实验所需的RNA初始量,而对于某些样本,比如植物的雄蕊等,一轮扩增也很难满足该初始量,双轮扩增的引入解决了这一问题,但同时带来了更大的误差,影响后续生物学分析的结论。我们在处理水稻芯片数据时观察到转录本两端的探针存在信息丢失的现象,并用Real Time PCR实验验证了偏差跟芯片上探针与靶序列的杂交无关,而是由于RNA扩增造成的。之前有研究讨论了此类现象及其导致的偏差,但至今没有校正双轮RNA线性扩增中偏差的有效方法。对于转录组测序而言,由于扩增过程中的RNA降解、随机打断、GC含量、转录本长度等因素的影响,使得测序读段在转录本上并非均匀分布,导致产生偏差。目前校正读段非均匀性偏差的方法是认为转录本上每个位置起始的读段个数服从变参数的泊松分布,泊松分布的参数跟该位置的序列偏好相关,然后用对数线性模型对泊松分布的参数做回归,进而估计转录本丰度。但他们用的模型太简单,没有充分利用序列的信息。  在本文的研究中,我们主要完成了两项工作:第一项工作是针对基因芯片数据,构建数学模型模拟双轮RNA线性扩增的过程,估计转录本上每个位置在双轮扩增后还存在的概率,对双轮扩增的芯片数据在探针水平上做校正,然后结合已有芯片数据预处理方法完成芯片数据预处理。我们将校正模型应用到基于双轮RNA线性扩增的Affyrnetrix公司的基因表达芯片数据上,估计水稻雄蕊样本的转录本丰度。校正后的数据无论样本内偏差还是样本间偏差都明显降低,说明模型校正能够提高芯片数据的质量。同时,跟一种常用芯片校正策略(曲线校正)的比较也说明了模型校正的必要性。第二项工作针对RNA-seq数据,提出Poisson-PDNN模型,引入位置相关近邻模型(PDNN)的思想更精确的估计序列偏好,改进泊松分布参数的对数非线性回归模型,进而准确的估计转录本丰度。我们将Poisson-PDNN模型应用于Illumina/Solexa测序技术以及SOLiD测序技术得到的3组RNA-seq数据。通过跟已有方法比较,说明我们的改进能够更好的拟合RNA-seq数据,并能够更准确的估计转录本丰度。此外,模型的参数跟物种和测序平台有一定的相关性,但整体上还是显示出了一定的保守性。  最后,我们简单总结了本文的研究工作,并讨论了转录组数据分析中的一些问题和未来的研究方向。  
其他文献
耦合神经网络系统的同步是当今研究的主要内容之一,已经渗透到通信系统、电子系统、生物系统等各个领域,因此,许多学者致力于这个领域的研究并取得了一些重要的理论成果。特别是
随着我国教育改革的不断深入和发展,我国中职院校的教学也在改革的过程中不断取得新的进展和突破.我们在进行教育教学的过程中,经常提到要让学生德智体美劳全面发展,由此可见
地震波形反演是一种利用地震反射数据得到地下介质特征的方法。全波形反演(FWI)是一种用全波长模拟数据与实际资料数据进行数据拟合的过程,数学上,它相当于求解一个非线性的最
量子群表示的分类是一个很有意义的研究课题,一般地,对量子群的不可分解模的分类很困难.本文利用Ore扩张思想,将量子代数Uq(sl2)推广到更一般的量子代数Ur,t(sl2),并对Ur,t(sl2)
本文利用小波方法研究一类带乘法噪声密度函数的最优估计.具体地,我们假定随机样本是独立同分布的,密度函数属于整数阶Sobolev空间WN(τ),噪声函数上下有界.  在借鉴Tsybakov
科学及工程中的许多问题,如物理、反应堆计算、石油勘测与开发等都可以通过建立模型转化为求解无界区域上的偏微分方程问题。对于有界区域问题有多种求解方法,已比较成熟,但
本文主要讨论两个问题:copula函数的逼近与估计以及如何采用copula参数族对金融产品进行定价研究。  Sancetta and Satchell(2004)为了解决copula函数的逼近与估计问题,引入
本文主要讨论非线性问题即函数g∈/2(V×[0,卅)在Q一(0,1)的任意非空子集y上  本文包括五章。  第一章为绪论,主要介绍了系统(1.1)精确可控性的定义和文章中用到的一些记
屈指算来,我从西北师大毕业分配到武威市凉州区委宣传部工作,已近23个年头了,成为全市在宣传战线工作时间最长的“老兵”。回顾自己走过的路,凝视着近250多万字的著作和文章
好的英语教学方法是学好英语的重要前提。本人根据多年教学经验,现对高中英语教学方法作相关总结。一、注重几个关系(1)词汇和语法之间的关系。两者之间不应完全分开,而应看