高通量测序数据拼接与分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:qinjiajign1323770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列拼接,是指将测序生成的读段拼接在一起,恢复出测序前的序列。序列拼接问题是非常基础又极具挑战的生命科学问题之一,其结果的好坏直接影响后续功能分析等一系列研究的成败。高通量测序技术的迅猛发展为序列拼接工作带来无限机遇的同时,也令其在计算上遇到前所未有的挑战。高通量测序技术每次可以产生海量的读段,这些读段的长度通常远远短于原始序列。如何利用这些海量的读段恢复出原始的序列是序列拼接问题的研究核心。多外显子的基因在转录时大多存在可变剪接现象,而异常可变剪接是导致癌症等疾病的重要因素。组装和分析转录组是研究疾病和转录组学的重要手段。转录组是转录后的所有mRNA的总称。RNA高通量测序技术能够对这些mRNA序列进行测序,产生大量的读段,少则百万,多则数以亿计。理论上,通过这些读段可以拼接出所有的被测转录本,并准确地估计出它们的表达量。然而受测序错误、可变剪接事件、同源基因事件以及转录本的差异表达等因素的影响,现有的转录组组装算法的准确度远远无法满足实际需求,即使在相对简单的模拟数据上,其表现也不尽人意。因此,研究基于高通量测序数据的转录组拼接问题并设计出行之有效的算法,一直是计算生物学和生物信息学研究领域的难点与热点。研究表明,很多病毒如埃博拉病毒、塞卡病毒、艾滋病病毒、新冠病毒等存在多种菌株。这些菌株通常具有不同的毒性、耐药性以及发病机理等。这说明具体到菌株水平的病毒研究至关重要。其中,病毒菌株拼接是一个具有重要生物学意义并且极具挑战的问题。所谓病毒菌株拼接问题,是指在已知某种病毒的某些菌株的测序数据的情况下,拼接出该数据中所包含的所有菌株的具体序列。对于转录组拼接问题,本文设计了 IsoTree以及DTA-SiST等从头组装算法,提出了一套通用的转录本序列提取策略MultiTrans,并给出了一种用于转录本表达水平估计的方法PSOISO。对于病毒菌株拼接问题,本文提出了一种全新的从头拼接策略LG-Strain。本文的主要内容和创新点如下:1.现有的转录组从头组装算法通常由两个主要步骤组成,一是利用读段构图,二是在图中提取能够表示转录本的路径。在利用读段进行构图的过程中,大多数算法将读段分割为多个长度为k的短序列(k-mer),然后利用这些短序列间的重叠信息进行构图。本文称上述构图法为k-mer构图法。k-mer构图法只能保证k-1长度的重叠信息,忽略了读段间更长的重叠信息。本文认为两个读段重叠的越长,它们来自同一种转录本的可能性越大。为充分利用读段间的重叠信息,本文提出了基于读段的剪接图构造法。该方法首先选择一个未使用过的最厚的读段为种子序列,然后不断地选择一个与当前种子序列重叠最长的读段对其进行扩展与延伸,最终形成一个连通分支。本文称该连通分支为剪接图。随后,本文根据可变剪接事件类型,对剪接图进行修正与完善。为提取剪接图中的转录本路径,本文提出了同源异构树(Isoform Tree)模型。根据剪接图中的顶点与边的厚度等信息,本文将每个剪接图转化为一棵同源异构树。在同源异构树中,每条由根节点出发到叶子节点的路径代表一条候选转录本,叶子节点的权重表示该候选转录本的表达值。本文称上述转录组从头组装算法为IsoTree。实验结果表明,IsoTree在模拟数据和真实数据上都有较好的表现。不足的是,IsoTree在构造剪接图的过程中,所花费的时间较长。2.为解决IsoTree构图耗时长的问题,本文提出了一套基于后缀树的转录组从头组装策略DTA-SiST。该策略改进了 IsoTree的剪接图构造方法,提出了基于后缀树的序列扩展方法。该方法能够在线性时间O(L)内找到与当前序列末端(或首端)重叠最长的读段,其中L表示读段的长度。该方法构造的后缀树所占用的空间为O(N’(L-l)),其中N’≤N,N为读段数量,l为最小重叠长度。在转录本路径提取方面,考虑到越厚的长路径越有可能是转录本路径,本文提出了一个时间复杂度为O((V+E)E)的基于动态规划的最厚最长路径提取算法。其中,V与E分别表示剪接图中的顶点个数与边的条数。此外,为了涵盖尽量多的转录本路径,本文提出了一个时间复杂度为O(V+E)P)的基于深度优先的s~t路径穷举算法。其中,P表示剪接图中初始顶点为s的路径条数。实验结果表明,这两个路径提取策略各有优势。3.本文提出了一套通用的基于混合整数线性规划的转录本序列提取算法,并将该算法应用到目前最流行的图模型(剪接图与装配图)。根据已有的经验,本文综合考虑图的结构、双末端读段、测序深度以及路径条数等信息,将转录本提取问题建模为如下路径提取问题:求取一个能够覆盖图中所有的顶点与边的路径集合,要求属于同一条双末端读段的顶点至少同时被一条路径覆盖。此外,通过每个顶点的路径流量总和需要与该顶点的厚度尽量一致。本文要求在满足上述条件下所选取的路径集合尽量小。针对这个优化问题,本文设计了一套基于混合整数线性规划的路径提取策略MultiTrans。由于综合考虑了图的结构、双末端读段以及测序深度等信息,MultiTrans能够充分提取出剪接图(或装配图)中的转录本序列。另外,在路径尽量少的目标的作用下,MultiTrans具有较高的精度。本文分别在模拟数据以及人类、老鼠、大米的真实数据上对MultiTrans进行了测试。实验结果与预期一致,MultiTrans能够以较高的精度重构出较多的转录本序列。4.现有的病毒菌株从头拼接算法大多沿用了转录组从头拼接的思想,以致最后得到的候选序列的长度差异较大。这与同一病毒的不同菌株序列具有相似长度这一特点不符。基于此,本文综合考虑病毒菌株之间的差异特点,设计了一个专门针对病毒菌株拼接的图模型,称为Level图。本文首先利用读段构造一条主干作为参考,然后将读段回贴到主干,并计算单位点突变(Single Nucleotide Variant,SNV)。随后,本文从主干的最左端开始,不断地移动一个动态大小的窗口,并计算该窗口内能够被读段支持的SNV组合类型。本文将窗口内每种SNV组合视为一个顶点,并将属于同一个窗口的顶点添加到Level图的同一层中。此时,每条病毒菌株序列都可以表示为Level图上的一条长度为LG的路径,其中LG表示Level图的层数。为降低Level图的复杂度,本文利用双末端测序信息对Level图进行局部分解,并将Level图的局部分解问题建模为一个优化问题,并利用混合整数线性规划对其进行求解。然后,本文从顶点数量最多的一层出发,不断地合并相邻层的顶点,直至只剩下一层顶点。本文认为,最后一层中的每个顶点对应一条候选菌株序列。最后,本文把读段再次比对到这些候选序列上,并根据比对结果对候选序列进行更新。本文称上述病毒菌株从头拼接策略为LG-Strain。本文分别在塞卡病毒、艾滋病毒、脊髓灰质炎病毒以及丙肝病毒的数据上对LG-Strain进行了测试。结果表明,LG-Strain构造的主干是高度可信的,它所构造的主干有时甚至就是一条完整的菌株序列。在重构菌株序列方面,LG-Strain也有不错的表现,它拼接出的候选序列的长度的分布更接近真实菌株序列的长度分布。5.虽然很多转录组组装算法在重构转录本序列的过程中,会计算每条转录本的表达值,但是其准确性往往不是很高。学者们通常将转录本的表达水平估计作为一个单独的问题展开研究。针对转录本表达水平估计问题,本文提出了PSOISO。其主要思想是:首先对读段来自于某个外显子独立区域的概率进行分析与计算,随后为每条转录本的表达值赋一个初始值,并不断地对其进行优化,使由该表达值估计出的比对到每个外显子独立区域的读段数量与真实数量尽量一致。本文分别尝试将转录本的表达值初始化为随机值以及组装算法计算得到的表达值。结果表明,在随机化初始值的情况下,PSOISO的准确度要高于一些组装算法。在以Cufflinks、StringTie、Tigar2与rSeq等组装算法计算得到的表达值为初始值时,PSOISO能够有效地提高这些算法在计算转录本的表达值方面的准确性。
其他文献
研究背景糖尿病是全球常见的疾病之一,患病率呈逐渐上升趋势,糖尿病各种并发症以及治疗的不良反应在很大程度上影响患者生活质量,威胁患者生命健康,糖尿病已经成为一个严重的全球公共卫生问题,因此预防及延缓糖尿病并发症是临床治疗的重要目标。糖尿病肾病(Diabetic Kidney Disease,DKD)是常见的糖尿病微血管慢性并发症,也是引起终末期肾病(end stage renal disease,E
学位
前言肺癌的发病率和致死率在恶性肿瘤中均居首位。非小细胞肺癌(NSCLC)作为肺癌中最常见的组织学亚型,约占肺癌的87%。NSCLC的侵袭性较高,5年生存率仅约24%。近年来,随着化疗方案的优化以及靶向治疗的兴起,针对晚期NSCLC患者的治疗方案逐渐多元化,但因为肿瘤异质性、耐药性等因素造成NSCLC患者治疗效果一直欠佳。因此提前预测NSCLC患者的疗效及准确区分NSCLC患者的组织学亚型对临床实施
学位
电荷和自旋是电子的两种内禀属性。基于电子电荷属性的半导体技术和基于自旋属性的自旋电子学的大力发展,在当代信息传播和存储等方面发挥了关键的作用。磁性半导体在单一材料中结合了磁性和半导体性质,是十分有趣的半导体自旋电子学材料之一。本论文以ZnO基磁性半导体材料为研究对象,在以下三方面开展了对其自旋电子学材料制备、自旋相关输运机理及电场调控的研究。一.磁性半导体要达到实际器件应用的目的,除了稳定的半导体
学位
全球心衰患者的数量正在逐年攀升,心脏移植仍然是治疗晚期心衰的最佳方案但心脏供体严重匮乏,促进了机械循环支持装置在临床中的应用和发展。针对长期的连续恒流泵缺乏生理性、会带来并发症、影响患者的生命健康的问题,本文围绕如何实现和增强血流脉动性以及提升左心室辅助装置的生理性展开研究。第一,建立了心血管耦合系统血流动力学模型。鉴于现有的研究很少见在心血管系统模型中纳入压力反射调节,且加入反射模型的则仅改变心
学位
在国内外学界关于正义问题的研究中,“马克思与正义”一直是人们探讨的一个重要问题。关于马克思与正义这个问题,学者之间存在诸多的争论。而争论的重要起因在于,对马克思正义思想材料的挖掘程度以及分析视角的不同。本文立足于马克思的文本,尝试从马克思主义整体性视域,揭示出马克思正义思想的理论图景,展现马克思正义思想的独特魅力。首先,从理论渊源与发展轨迹两个方面,文章剖析了马克思正义思想的发展历史,概括了马克思
学位
计算生物学是一门应用计算机技术对生物数据进行存储、解析、建模和计算,并从中获取生物信息的学科。计算生物学根据研究数据的类别又分为计算基因组学、计算蛋白组学和计算转录组学等。计算机基因组学研究者通常将基因组学中的生物问题抽象为组合优化问题,从而运用解决组合优化问题的方法来求解。组合优化问题属于最优化问题的范畴,即从组合问题的可行解集中求出最优解。然而,这些优化问题往往是比较难解的。因此,计算基因组学
学位
高校建设和发展中,如何有效保障校园安全是高校发展的重点难题。通过静态模型和动态数据结合开发数字底座,建设数字化、智慧化的高校校园安全数字管理系统。将安全管理思路融入系统,是解决问题的途径。研究表明,针对高校校园存在的风险因素,如人的不安全行为、物品的不安全状态、环境的隐患、管理的缺陷等,在系统平台中开发对应的校园风险预测预警、事故应急处置等应用模块,并以此对高校校园内的风险进行管理和预测,可以有效
期刊
社会媒体平台是用户在线交流沟通、创作分享内容的互联网平台,涵盖社交、通讯、娱乐、电商等不同方面。平台提供了隐私管理功能和信息访问控制机制,允许用户通过隐私设定管理个人信息和发布数据。为了吸引流量,系统默认设置隐私为“公开”,引导用户尽可能多地发布信息。由于大多数用户的隐私意识不足,导致大量信息以公开形式发布。攻击者借助这些公开数据,能够分析用户身份、属性、位置等敏感个人信息,构成隐私威胁。针对社会
学位
近年来,通过智能电气化实现住宅和商业建筑节能一直是研究人员的热(?)话题。由于智能电表的大量部署,非侵入式负载监控(NILM)已成为实现这一目标的非常有价值的工具。NILM或简单的能量分解系统从聚合的功率信号中估计单个家用电器或其他电气设备的功耗,该信号是通过使用某种监督/非监督技术从智能电表的单点感测获得的。实用的NILM系统可以为消费者提供实时的可操作反馈,让他们了解单个电器的运行状态、其功耗
学位
研究背景在呼吸衰竭、急性呼吸窘迫综合征(Acute Respiratory Distress Syndrome,ARDS)等危重患者的救治中,机械通气是必不可少的治疗措施;但机械通气有时也会导致急性肺损伤,即呼吸机相关性肺损伤(ventilator-induced lung injury,VILI),严重影响患者的预后。深入探讨VILI发生机制、寻求VILI防治措施,具有重要的临床意义。研究表明,
学位