论文部分内容阅读
插入缺失变异是人类基因组中一种比较常见的变异形式,准确地检测插入缺失变异发生的位置及大小对疾病的预测有着至关重要的作用。随着新一代测序技术的发展,越来越多检测插入缺失变异的算法也在逐渐被提出。尽管这些算法融合了大量短读段中的信号来提升算法性能,但是大多数算法还是只能检测长度小于50bp的插入缺失变异。新一代测序数据自身的特点以及插入片段中存在的重复区域导致中等长度以及较大长度(50bp-10000bp)的插入缺失变异检测仍然具有相当大的挑战。由于新一代测序数据是大量的100bp-300bp的短序列,序列中插入变异与缺失变异的存在会导致测序片段难以比对,同时,当所插入的变异片段中存在重复区域时,在序列拼接的过程中会导致拼接错误。本文主要的工作就是研究如何准确检测中等长度以及较大长度的插入变异与缺失变异。针对于中等长度及较大长度的插入缺失变异检测问题,我们提出了一种新的方法VRindel,VRindel可以检测任意长度的插入缺失变异,并且对于插入变异的基因型也有较好的检测性能。在检测插入变异时,VRindel基于分裂读段的比对状态可以准确地确定插入变异的发生位点。在此基础上,VRindel利用未匹配读段与分裂读段在每个变异位点依照左边最大匹配策略动态扩展形成一条虚拟参考序列,通过比较虚拟参考序列与原始参考序列的异同可以检测出任意大小的插入变异。同时,VRindel将插入变异基因型的检测转化为拷贝数状态的检测,基于一个统计模型对虚拟参考序列各位点的覆盖度信息进行分析可以检测出各区域的拷贝数状态,继而达到检测插入变异基因型的目的。在检测缺失变异时,VRindel基于层次聚类算法可以确定缺失变异发生区间,提取出各区间内的分裂读段并进行分裂比对即可确定缺失变异发生的精确位置及大小。为了验证VRindel的插入缺失变异检测性能,我们分别在仿真数据与真实数据上做了实验,并且与其他八种不同方法在相同数据上的实验结果进行了比较。仿真实验结果显示,相比于其他八种方法,VRindel具有更好的检测灵敏度与准确度。真实数据得到的结果与其他方法的检测结果也有较高的一致性。同时,为了验证VRindel对于插入变异基因型的检测性能,我们将其实验结果与其他四种方法做了比较,结果显示VRindel具有相对较好的识别性能。