改进的RNA-Seq数据转录组表达分析研究

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:zhangxueyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术,RNA-Seq,是近年来用于转录组研究的一种新技术,相比于传统分析方法而言,RNA-Seq具有具有信噪比高、分辨率高、所需样本少等优势,然而这种技术在转录组分析中也存在着读段多源映射以及读段分布不均匀等挑战。本文针对RNA-Seq技术在转录组表达分析研究中存在的难点,提出一个改进的转录组表达研究方法,NLDMseq模型,来计算基因和异构体表达值。模型引入隐含变量来表示异构体,模拟了RNA-Seq读段的产生过程。利用注释信息获得异构体的结构矩阵、读段比对结果的分析统计作为模型的输入,通过变分EM算法对模型进行求解,得到了异构体在转录过程中的表达比重,解决了读段模糊匹配问题。模型中通过对异构体和外显子上的读段测序规律进行建模,来解决读段的非均匀分布问题。另外,NLDMseq模型考虑到了噪声读段和结合区读段,通过引入“伪外显子”和“伪转录本”分别处理结合区读段和噪声读段,使得对读段的处理更为合理,减小了现有一些方法由于没有考虑结合区读段与噪声读段所带来的计算误差。采用真实数据和模拟数据来验证NLDMseq模型的准确性和可靠性,并和目前主流方法在表达值计算精度和计算效率方面进行了比较分析。结果表明,NLDMseq模型在基因和异构体表达水平上都获得了较高的计算精度。最后,论文将NLDMseq模型应用到差异基因检测上,NLDMseq模型获得了具有竞争力的实验结果,表明了NLDMSeq模型在后续差异分析中的有效性。本文的模型已经开发成软件NLDMseq,所有源码均放在开源平台Git Hub上,可供相关研究者下载使用。
其他文献
嵌入式实时系统在航空航天、核电及交通等安全关键领域中广泛使用,规模变得愈发庞大,体系结构变得更复杂,其故障引起的安全事故有着显著的社会影响,甚至造成灾难性的后果。因
车间作业调度问题(Job Shop Scheduling Problem, JSSP)是一类具有时间约束、次序约束和资源约束的组合优化问题。理论上已经证明,JSSP是NP难问题,没有一个有效的算法能在多项式时间内求出其最优解。本文所研究的具有相同设备的车间作业调度问题是指能够加工同一道工序的设备不唯一,即存在一设备子集,其中的任意一台设备都能加工该道工序。显然,此类调度问题放宽了资源(设备)约束条
云计算与虚拟化技术颠覆了传统的计算模式,成为国内外研究的热点。但对于云计算和虚拟化技术的研究还存在许多挑战,特别是对虚拟资源的管理。传统的虚拟资源管理的研究仅考虑
本文针对经典聚类算法对初值敏感和易陷入局部极小值的问题,借鉴免疫细胞从不成熟到成熟,进而转变为记忆细胞和抗体这一基本原理来指导数据对象聚类,提出了一种基于人工免疫
变换技术是图像压缩的核心技术之一。人们经历对傅里叶变换、哈德玛变换、余弦变换、正弦变换和K-L等变换的研究,最终离散余弦变换(DCT)获得了大家的认同。由于DCT与K-L变换
揭示生物分子数据隐含的生物信息是生物信息学的长远目标。生物分子数据之间存在着复杂的联系,数据中蕴含着丰富的生物学知识和生物学规律。本文主要研究的是用非线性理论方法
为了提高网络科技信息资源的利用率,降低信息资源管理的成本,本文将信息交换技术引入到全国科技信息服务网项目中,建立一个可对分布式异构数据源节点的资源进行有效共享的信息交
混成系统是离散逻辑跳转与实时连续行为交织的复杂状态变迁系统,针对混成系统的形式化建模与验证是确保其正确性和可靠性的重要途径。混成系统不仅含有复杂的动态行为、时间
在几何造型和计算机动画领域,变形技术已经成为一种越来越重要的工具。通过变形技术可以模拟传统造型和计算机动画技术难以实现的变形效果。但是传统的自由变形算法或者控制
随着数字产品的普及,围绕数字产品的版权保护和安全问题,提出了一种新的数字产品版权保护新技术-数字水印(Digital Watermark)技术。本文对基于DWT和HVS的双彩色图像水印嵌入