高通量RNA-seq测序数据的基因表达水平分析研究

来源 :南京航空航天大学 | 被引量 : 14次 | 上传用户:w633744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,新一代高通量DNA测序技术的快速发展,给人类研究基因组学和转录组学提供了巨大的技术支持,取得前所未有的成就。基于新一代测序技术的RNA-seq技术,正快速取代传统基因芯片技术,成为研究转录组学的标准技术手段。RNA-seq测序技术直接对mRNA反转录出的cDNA片段进行高通量的测序,获得海量的读段数据,用以研究测序样本中mRNA的表达程度。相比传统基因芯片技术,RNA-seq测序技术无需设计已知序列探针,能在全基因组范围内以单个碱基为基本单位量化转录本片段,并能应用于新基因的识别,具有高通量,高信噪比,高灵敏度,所需样本少等优点,被广泛运用于不同研究领域。在转录组学研究中,基因表达水平分析主要研究基因以及所包含的剪接异构体在转录过程中表达程度,对人们了解基因的调控机制,对疾病的早期预防,诊断和治疗等方面都有重要意义。根据RNA-seq数据分析流程,基因表达分析的研究内容可分为表达水平估计和差异表达分析两部分。因此,本论文的主要工作是围绕上述两个方向来展开研究和讨论,主要内容如下几个方面:1基于碱基偏差的表达水平估计。表达水平估计作为RNA-seq数据分析中最基本实验目的之一,一直以来都是一个具有挑战性的工作。在RNA-seq数据中,数据偏差导致基因上读段呈现非均匀分布,是影响表达水平准确估计的关键因素。针对此问题,大量表达水平估计方法采用不同偏差纠错的策略来消除数据偏差的影响。因此,我们提出了一个基于碱基偏差的表达水平估计方法一一PBSeq。该方法采用Poisson分布拟合每个碱基上的读段数据。通过两个非参数模型分别估计每个碱基上的位置偏差和序列偏差,将偏差值当做权重融入到模型中。通过一个模拟数据集和多个真实数据集的评估,PBSeq方法在估计基因和剪接异构体表达水平上,能获得极具竞争力的结果,并且大幅度的提高了计算效率。PBSeq方法不仅能估计基因和剪接异构体的表达水平,同时还能提供相应表达水平的不确定性。通过差异表达分析的验证,表达水平的不确定性能有效的提高后续分析的准确性。2基于联合估计外显子偏差的表达水平估计。RNA-seq数据在不同条件或者不同组织样本中,其读段分布的变化趋势具有高度相似性。但是现有表达水平估计方法中很少考虑到数据偏差在不同样本之间的关联,通常都是单独处理每个数据样本。基于此数据特点,我们提出了一个基于联合估计外显子偏差的表达水平估计方法——PGSeq。该方法采用Poisson-Gamma混合模型来估计基因和剪接异构体的表达水平,其中Poisson分布用来拟合基因中每个外显子上的读段数据。Gamma分布用来模拟数据偏差,其参数在多个样本之间是共享的,表示读段分布的变化趋势在不同样本之间具有高度相似性。通过一个模拟数据集和多个真实数据集的评估,PGSeq方法能最为准确的估计基因和剪接异构体的表达水平,并且也能提供了相应表达水平的不确定性。采用差异表达分析进一步验证,PGSeq方法估计的表达水平以及相应的不确定性能有效提高差异表达分析的准确性,特别是在低表达基因上。3基于表达水平不确定性的差异表达分析。作为RNA-seq数据分析中最基本实验目的之一的差异表达分析,受到科研人员的格外关注。在目前大量的差异表达分析方法中,很少有方法考虑表达水平不确定性。此外,绝大部分方法仅能检测差异表达的基因,只有少数方法能够检测差异表达的剪接异构体。因此,我们提出了一个基于贝叶斯框架的差异表达分析方法一一BDSeq。该方法同时考虑了表达水平以及相应的表达水平不确定性,能够同时寻找差异表达的基因和剪接异构体。BDSeq方法采用两种不同的建模策略来嵌入表达水平的不确定性,从而产生了两个不同的模型一一基本模型BDSeqB和快速模型BDSeqF。通过多个真实数据集的评估,考虑表达水平不确定性能有效提高差异表达分析的准确性,其中BDSeqB模型能获得更准确的结果,但是BDSeqF具有更高的计算效率。4 RNA-seq数据分析通道。为了方便用户使用本论文提出的方法,我们设计了一个系统的RNA-seq数据分析通道一一UFP-RSeq。该分析通道包括读段定位,表达水平估计和差异表达分析三个模块,能完成一个RNA-seq数据的基因表达水平分析过程。读段定位模块选取了最流行的定位软件Bowtie。表达水平估计模块中包含了我们提出的GamSeq,PBSeq和PGSeq三个方法。而差异表达分析模块中由BDSeq方法和三个基于读段数据的方法构成。根据用户需求和实验目标,提供了相应的建议来帮助用户选择合适的处理途径和方法。UFP-RSeq分析通道中所有方法都提供了代码和详细文档,从地址http://parnec.nuaa.edu.cn/liux/UFP-RSeq.html上可免费下载。综上所述,本论文着重研究了在RNA-seq数据中基因表达水平分析的表达水平估计和差异表达分析两个研究方向。在表达水平估计中,对于数据偏差造成的读段非均匀分布问题,我们逐步提出了GamSeq,PBSeq和PGSeq等方法。在差异表达分析中,我们提出了BDSeq方法,该方法基于我们提出的表达水平估计方法的结果,并考虑了表达水平不确定性。实验结果证明,我们提出的多个方法都取得理想的计算精度和计算效率。为了方便用户使用,我们设计了 UFP-RSeq分析通道,并给出相应建议帮助用户选择合适的分析路径和方法。
其他文献
有色Petri网是在经典的Petri网基础上发展起来的一种高级网系统,是一种适于描述异步并发系统的图形工具和数学工具。它以简洁的图形方式和精确的语义定义表现系统状态,并用形
近年来,电力工程造价软件因其计算准确,易于审核、调整和进行动态管理等特点,在电力工程造价领域有着非常广泛的应用。论文以电力工程造价软件为研究对象,根据电力工程专业性
随着科学技术的发展和信息时代的来临,多语言共存的国际化环境是一种趋势。电子词典作为一种语言学习的工具,具有广阔的应用前景和商业价值。基于嵌入式操作系统的专用电子词典
随着数字地球、数字城市、数字奥运等概念的提出和运作,地理信息系统现己广泛应用于资源调查、环境评估、灾害预测、国土管理、城市规划、交通运输、水利电力、公共设施管理、
随着信息化科技的迅猛发展,作为一种集信息采集、通信和计算于一身的综合性平台,无线传感器网络(Wireless Sensor Networks,WSN)在家庭、医疗、工业和军事等领域得到了越来越
计算机技术在石油钻井工程领域的应用日益深入,从钻井工程设计到每一个施工阶段,都离不开计算机技术的应用。钻井工程的信息庞大而复杂,钻井作业地域分布广泛,数据资源存在异构、
聚类是数据挖掘中一项重要的研究课题,在数据挖掘、模式识别、统计数据分析、自然语言理解等领域都有广泛的应用前景。聚类评价指标对衡量一个聚类的优劣有着重要作用,聚类评价
近年来,服务工作流迅速发展,它是工作流、Web服务、网格等多种技术分支交叉结合而来的一种新兴技术。尤其在科学工作流发展的今天,要求工作流具有更强的动态性及数据共享能力。
近年来,天然气作为一种优质高效的能源和重要的有机化工原料,在世界能源结构中越来越受到重视。在我国石油需求量日益增加的情况下,大力发展天然气能源,改善我国的能源结构,已成为
近些年,随着移动互联网技术的发展,移动便携设备的开发使用已然成为主流。在有害生物图像自动识别方面,各种PC端的果蝇识别软件被很好的研究利用。但是,基于移动便携设备如手