论文部分内容阅读
随着EST序列数据的越来越多,来自于不同个体的大量冗余的EST将会是发掘SNP很好的资源。SNP作为第三代遗传标记,是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。另一方面,EST代表基因的编码部分,可以直接获得基因的表达信息,从中获得的SNP标记能为功能基因提供最直接的标记,对决定重要性状的等位基因进行直接鉴定,为基因的图位克隆提供更可靠的标记信息。基于这两方面的优势,尽管有多种方法用于SNP的发现,在实际应用中,从EST文库中发掘SNF更有应用价值。
本文以国家“863项目”棉花品种分子设计的生物信息数据库建设”为研究基础,构建了基于大规模EST序列的SNP发掘系统,并通过大量的数据比对,验证了本系统发掘出的候选SNP的准确性。本文的主要研究内容如下:
首先,对生物信息上相关数据的常用格式进行了研究,包括Genbank格式、Fasta格式、保存Blast比对结果的格式、蛋白质编码区文件格式、保存序列拼接结果的格式、Align文件格式和SNP文件格式等。在系统的各模块中的输入文件和输出文件格式,都处理为最为常用的数据格式,使本系统生成的文件可以应用于其它相关的生物信息学软件。
其次,本文研究了序列比对算法中的一些典型算法,并实现了其中的点矩阵作图法和Smith—Waterman算法,在与Blast算法做了综合比较后,本文建议在对大规模的EST序列进行比对时,采用Blast算法更合理。在系统中,仍保留了其它两个算法,可以应用于小规模的序列比对。此外本文重点研究了序列拼接算法中的基于Hamilton路径的拼接算法,在PHRAP算法的基础上,对得到的Overlap进行了多次筛选,并且将其在Layout部分所采用的贪婪算法改进为非循环图拓扑排序方法,从而解决了使用贪婪算法导致的不能保证总是产生出最佳Layout的问题,提高了拼接的准确度,为提高候选SNP的正确率打下基础。最终构建了基于大规模EST序列的SNP发掘系统,实现了其中的序列预处理模块,序列比对模块,CDS发现模块,序列拼接模块,SNP发掘及其可视模块。
最后,本研究利用所开发的基于大规模EST序列的SNP发掘系统对雷蒙德氏棉的63577条EST序列进行了SNP发掘,发掘出雷蒙德氏棉花组织相关的候选SNP位点4133个,以期为棉花群体遗传结构分析和遗传资源保护利用、为构建棉花连锁图谱和进行分子标记辅助育种等打下基础。