基于序列比对骨架的基因组结构变异片段检测算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:historycode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组结构变异是存在于基因组中拥有多种变异类型的遗传变异。基因组结构变异影响生物体的表型特征、疾病发展等性状。由于基因组测序技术的局限性及基因组存在大量重复区域,检测及分析基因组结构变异仍是困难的工作。第三代基因组测序技术测得测序序列长度平均可达到10kbp,这些测序序列能覆盖基因组结构变异区域,因此可以用于检测基因组的结构变异信息。基因组测序分析日益成为实现精准医疗,推动人类健康发展的必要技术。从基因组测序数据中检测基因组存在的变异成为生物信息研究领域的热点问题。为了推动基因组结构变异及第三代测序序列分析算法的研究,本文调研了现有的第三代测序序列分析及结构变异检测算法,通过分析序列处理的过程指出目前算法存在的问题,提出基于序列比对骨架的结构变异片段检测算法。本文主要研究成果如下:(1)分析序列处理过程,发现目前结构变异检测的过程都需要先完成序列比对,再对从序列比对结果中分析出序列比对中断点用于检测结果变异。根据这一现状,本文提出绕过进行完整序列比对分析的过程,直接从序列数据检测中断点再进行结构变异分析的方法。(2)通过对测序序列构建de Bruijn图索引进行种子比对定位,对种子构建了无向有环图。在图上应用稀疏动态规划算法检测出种子之间存在的线性连接关系构建出序列比对的原始骨架。(3)设计相似序列块延伸算法得到序列比对骨架,并将序列比对骨架之间存在的连接间断视为序列比对中断点,用于检测测序样本中存在的基因组结构变异。(4)通过数据实验,测试发现本文提出的算法在真实人类第三代测序数据能有效找到结构变异。本文提出了基于序列比对骨架的基因组结构变异片段检测算法,其能在没有获得序列比对信息的情况下检测出基因组结构变异片段。本文提出的算法在进行基因组结构变异检测的时候具有速度优势。对于进行基因组结构变异检测分析及其他序列分析过程有指导意义。
其他文献
近年来,钢结构产业迅猛发展,彩钢板工程也以安装快捷、拆装方便、防水性强、保温效果佳等优点受到广大用户的青睐。下面结合我近几年的施工实践,谈一下屋面彩钢板的施工。
随着宽带业务的迅猛发展以及社会对网络的依赖,来自互联网的网络安全问题日益突显,文章简要地分析了计算机网络存在的几种安全隐患,并探讨了计算机网络的安全防范措施。
科学的旅游产品开发是区域旅游业发展的关键。辽宁中部旅游区旅游产品的资源禀赋好,市场潜力大,开发综合条件十分优越。针对现阶段旅游产品开发中的问题,必须按照分级开发、
[目的]探讨实施超早期冰敷治疗重型颅脑损伤的临床疗效。[方法]按入院先后顺序单双数将68例重型颅脑损伤病人分为观察组和对照组各34例,两组均行常规药物、手术、综合治疗。
"三个代表"重要思想是从中国共产党的历史经验中得出的结论,当把这个结论还原到中国共产党历史中去的时候,就给中共党史研究提出了新的视角和新的课题。将"三个代表"重要思想
[目的]探讨脑卒中后抑郁的发生率及与相关因素的关系,并提出相应的护理措施。[方法]回顾性分析280例脑卒中病人抑郁发生情况、脑卒中后抑郁与各相关因素的关系、治疗及预后情
金代"尊孔崇儒"的文教政策是在辽、宋文化的影响下形成的,但同时女真传统文化对儒学的认同也是不容忽视的。从金代文教政策的特点看,金代崇儒是有选择的,与辽、北宋相比,也是
在环境水质分析测试中,空白测试是必不可少的重要分析试验,如何降低分析空白实验值,保证分析样品的精密度和准确度。本文从环境影响、实验人员影响及试剂、器皿影响五方面做
文章通过将运输成本内生化,构建一个简化的博弈模型,剖析了在双渠道供应链中博弈主体如何采取最优策略,在寻求供应链协调的时候,也使得库存与运输之间达到联合优化。研究结果