高通量全长转录组测序数据的表达水平计算研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:guanghui_715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录组表达水平测量计算是基因功能研究的重要手段,而真核生物选择性剪切的存在给准确计算基因异构体表达水平带来了困难。近几年诞生的第三代测序技术是转录组研究的一种新的实验方法,其显著特点是可以获得超长读段,弥补了第二代测序技术中的读段过短,异构体检测较为困难的缺点。PacBio公司针对转录组提出的ISO-seq测序技术,给转录组研究尤其是检测新型异构体领域带来了新机遇。但目前对于ISO-seq数据在转录组研究的应用中极少有工作涉及异构体表达水平的计算,一部分研究工作通过结合RNA-seq技术数据,使用ISO-seq与RNA-seq混合数据进行表达水平的计算。而这些研究工作大多只用到小部分的全长读段数据,丢失了大部分非全长读段数据中较多有用信息,因而数据没有得到充分利用,造成数据通量低。另外,使用ISO-seq和RNA-seq混合数据的方法虽同时兼顾了两种测序技术的优点,但其计算复杂程度高,且获取同一样本下两种测序技术数据的成本高。本文针对这些问题,在保留非全长读段的基础上,提出了仅使用ISO-seq单一数据同时预测异构体结构和计算其表达比例的两个模型DSIDP和MCIDP。具体完成的工作如下:1)鉴于现有的预处理框架并不能满足本文保留非全长读段的需求,本文首先提出了一套保留全长和非全长读段的数据预处理方法。从ISO-seq原始数据出发,经过下机数据处理、读段纠错、读段比对和外显子序列整理四个步骤,最终获得模型的输入数据。2)针对具有全长读段的异构体表达水平计算问题,提出了DSIDP模型,从全长读段中建立异构体预测集,同时采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题。模型在模拟数据和真实数据上得到了有效验证。3)针对没有全长读段的超长异构体检测问题,提出了MCIDP模型,采用马尔科夫链模拟基因外显子之间的选择性剪接,该模型除了从全长读段中建立异构体预测集外,还能预测出数据中没有全长读段的超长异构体,这对新型异构体的发现具有重要意义。模型在模拟数据和真实数据上得到了有效验证。
其他文献
目前,我国耕地资源所面临的形势非常严峻。根据土地人口承载力研究,我国多省土地存在超载严重现象,而且随着人口的进一步增长,我国耕地保有量呈现出逐年减少的趋势,耕地资源
目的探讨枫蓼肠胃康颗粒联合枸橼酸铋雷尼替丁三联疗法治疗慢性胃炎的临床疗效。方法选取2018年1月—2019年3月在巴中市中心医院就诊的130例慢性胃炎患者作为研究对象,将全部
随着全球化的发展,世界各国的联系日益紧密,人们的精神文化需求也与日俱增。纪录片作为传统的影视形式,近年来受到人们的关注。本文是根据CCTV大型历史纪录片《世界历史》中,
本翻译实践报告探讨的是埃莉诺·布朗的小说《巴黎之光》的英译汉翻译实践项目,并依据该小说的第一章为翻译实践基础来完成。《巴黎之光》讲述的是玛德琳和她的祖母玛姬追逐
三元复合驱开采是在水驱和聚合物驱基础上发展出来的新型驱油技术,用以提高原油采收率。三元复合驱采出水成分、性质复杂,处理困难。常规的混凝处理难以有效地打破乳状液稳定
随着经济的发展和中国对外开放程度的加深,中国与世界各国的政治、经济贸易联系日益密切。这极大地推动了翻译产业的巨大转变。同时,这也使译员在国际文化交流中发挥日益重要
本文是一篇以美国作家安德森·库珀的作品《彩虹来了又走了》为原文本的翻译实践报告。对于文学翻译,不仅要真实传递原文内容,也要保留原文风格。如何使小说翻译忠实原文的基
英语长难句的翻译一直是英汉翻译的重点和难点,本文以译者的翻译实践为例,进一步探讨了长难句的翻译策略。在本报告中,译者选取《女性视野》第一章和第二章作为本次英汉翻译
本文是根据美国作家山姆·科恩斯的作品《如何靠写作赚钱:搭建自己的创作帝国》的第一章及第四章部分内容的翻译实践为基础而完成的翻译实践报告。其以著名翻译理论家尤金·
若是2001年9月11日那场恐怖袭击为全世界敲响了反恐的警钟,那么损失未免有点太严重。十六年后的今天,基地组织已经不再是人人避之不谈的对象,而风头正盛的ISIS已经代替基地组