论文部分内容阅读
随着技术的发展,新一代测序技术已经兴起并广泛应用,但传统的PCR片段测序仍非常重要。单核苷酸多态性(single nucleotides polymorphism,SNP)和插入/缺失(insert/deletion,InDel)是新一代DNA分子标记技术,需要一种高效的算法进行验证分析。由于测序厂家提供的软件只能识别各序列位置的最高峰所对应的碱基,对于双峰位置的识别需要第三方软件。而第三方软件均需参考序列,具有局限性,不能有效用于一些序列的分析,并且操作上较为繁琐。因此,本研究运用模式识别方法构建了SNP和InDel自动检测系统,主要内容如下:1.通过传统测序文件格式提取出序列信号,分别运用Haar小波,Symlets小波,Coiflets小波以及ReverseBoir小波滤除杂峰信号,并对比了4种小波函数的滤波结果,为双峰碱基的可靠判读提供了高质量的序列。将去噪后的4种碱基数据融合成完整的桉树基因数据,并提取出波峰距离、高度比值以及起伏度比值作为SNP位点检测的特征参数。之后运用模糊推理器生成可供SNP位点分类器训练的测试数据。2.研究了SNP及InDel的检测算法。根据获取的训练数据,分别应用基于LM算法的BP神经网络、支持向量机以及稀疏识别分类器进行SNP位点检测,并对三种模式识别算法进行对比分析。运用了PrimeIndel算法及错位对应的数学算法进行InDel检测分析。3.采用LabWindows/CVI9.0以及MATLAB2012作为的桉树测序数据系统开发平台,并根据LabWindows/CVI以及MATLAB的混合编程原理,搭建了基于模式识别的二倍体个体内SNP及In Del多态性检测系统。系统集成了数据显示、人工调整以及数据存储等模块。4.本文采用桉树基因识别系统DiSNPIndel分别进行了SNP位点与InDel片段检测的准确性验证,并与现存常用软件进行了对比分析。实验证明,DiSNPIndel的SNP识别率为88.5%,高于novoSNP的1.5%及Mutation Sruveyor的17%。并且,DiSNPIndel检测InDel片段的识别率为53.1%,高于PrimeIndel(6.1%)、novoSNP(7.4%)以及Mutation Sruveyor(6.8%)。证实DiSNPIndel在检测无参考序列二倍体个体内SNP位点及InDel片段时,准确率优于其他软件。