基于新一代测序数据的Indel检测方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:king_caspe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
插入缺失变异是人类基因组中一种比较常见的变异形式,准确地检测插入缺失变异发生的位置及大小对疾病的预测有着至关重要的作用。随着新一代测序技术的发展,越来越多检测插入缺失变异的算法也在逐渐被提出。尽管这些算法融合了大量短读段中的信号来提升算法性能,但是大多数算法还是只能检测长度小于50bp的插入缺失变异。新一代测序数据自身的特点以及插入片段中存在的重复区域导致中等长度以及较大长度(50bp-10000bp)的插入缺失变异检测仍然具有相当大的挑战。由于新一代测序数据是大量的100bp-300bp的短序列,序列中插入变异与缺失变异的存在会导致测序片段难以比对,同时,当所插入的变异片段中存在重复区域时,在序列拼接的过程中会导致拼接错误。本文主要的工作就是研究如何准确检测中等长度以及较大长度的插入变异与缺失变异。针对于中等长度及较大长度的插入缺失变异检测问题,我们提出了一种新的方法VRindel,VRindel可以检测任意长度的插入缺失变异,并且对于插入变异的基因型也有较好的检测性能。在检测插入变异时,VRindel基于分裂读段的比对状态可以准确地确定插入变异的发生位点。在此基础上,VRindel利用未匹配读段与分裂读段在每个变异位点依照左边最大匹配策略动态扩展形成一条虚拟参考序列,通过比较虚拟参考序列与原始参考序列的异同可以检测出任意大小的插入变异。同时,VRindel将插入变异基因型的检测转化为拷贝数状态的检测,基于一个统计模型对虚拟参考序列各位点的覆盖度信息进行分析可以检测出各区域的拷贝数状态,继而达到检测插入变异基因型的目的。在检测缺失变异时,VRindel基于层次聚类算法可以确定缺失变异发生区间,提取出各区间内的分裂读段并进行分裂比对即可确定缺失变异发生的精确位置及大小。为了验证VRindel的插入缺失变异检测性能,我们分别在仿真数据与真实数据上做了实验,并且与其他八种不同方法在相同数据上的实验结果进行了比较。仿真实验结果显示,相比于其他八种方法,VRindel具有更好的检测灵敏度与准确度。真实数据得到的结果与其他方法的检测结果也有较高的一致性。同时,为了验证VRindel对于插入变异基因型的检测性能,我们将其实验结果与其他四种方法做了比较,结果显示VRindel具有相对较好的识别性能。
其他文献
目的:近年来乳腺癌的发病率逐年递增,已经位居女性癌症中发病率和死亡率的首位。其中多原发乳腺癌(Multiple Primary Breast Cancer)也呈现逐渐上升的趋势,严重危害女性的身
相同之处是:要掌握好亲鱼的放养密度及饵料的投放量,并且饵料鱼要分次投喂,总投放量为鳜鱼总量的4~6倍。为促进性腺发育,在春季,要勤加水,勤增氧。不同之处是:斑鳜产前雌雄混养易流产
随着现代工业技术的不断发展,工业生产过程日趋复杂,设备系统在高负荷、大功率的条件下连续运转,不可避免地会发生故障,传统的故障诊断方法在解决现在日益复杂的工业设备故障
套管钻井技术是一种能有效提高钻井效率的新型钻井技术,但现有套管技术对设备要求高,投入大,推广应用存在较大难度。在剖析认识现有套管钻井技术优势的基础上,提出了一种利用