基于大规模EST序列的SNP发掘的研究与实现

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:yydx_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着EST序列数据的越来越多,来自于不同个体的大量冗余的EST将会是发掘SNP很好的资源。SNP作为第三代遗传标记,是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。另一方面,EST代表基因的编码部分,可以直接获得基因的表达信息,从中获得的SNP标记能为功能基因提供最直接的标记,对决定重要性状的等位基因进行直接鉴定,为基因的图位克隆提供更可靠的标记信息。基于这两方面的优势,尽管有多种方法用于SNP的发现,在实际应用中,从EST文库中发掘SNF更有应用价值。   本文以国家“863项目”棉花品种分子设计的生物信息数据库建设”为研究基础,构建了基于大规模EST序列的SNP发掘系统,并通过大量的数据比对,验证了本系统发掘出的候选SNP的准确性。本文的主要研究内容如下:   首先,对生物信息上相关数据的常用格式进行了研究,包括Genbank格式、Fasta格式、保存Blast比对结果的格式、蛋白质编码区文件格式、保存序列拼接结果的格式、Align文件格式和SNP文件格式等。在系统的各模块中的输入文件和输出文件格式,都处理为最为常用的数据格式,使本系统生成的文件可以应用于其它相关的生物信息学软件。   其次,本文研究了序列比对算法中的一些典型算法,并实现了其中的点矩阵作图法和Smith—Waterman算法,在与Blast算法做了综合比较后,本文建议在对大规模的EST序列进行比对时,采用Blast算法更合理。在系统中,仍保留了其它两个算法,可以应用于小规模的序列比对。此外本文重点研究了序列拼接算法中的基于Hamilton路径的拼接算法,在PHRAP算法的基础上,对得到的Overlap进行了多次筛选,并且将其在Layout部分所采用的贪婪算法改进为非循环图拓扑排序方法,从而解决了使用贪婪算法导致的不能保证总是产生出最佳Layout的问题,提高了拼接的准确度,为提高候选SNP的正确率打下基础。最终构建了基于大规模EST序列的SNP发掘系统,实现了其中的序列预处理模块,序列比对模块,CDS发现模块,序列拼接模块,SNP发掘及其可视模块。   最后,本研究利用所开发的基于大规模EST序列的SNP发掘系统对雷蒙德氏棉的63577条EST序列进行了SNP发掘,发掘出雷蒙德氏棉花组织相关的候选SNP位点4133个,以期为棉花群体遗传结构分析和遗传资源保护利用、为构建棉花连锁图谱和进行分子标记辅助育种等打下基础。
其他文献
互联网的迅速普及给我们生活带来便利的同时,也带来了新的问题。互联网具有匿名性和开放性的特点,也就是说任何人在任何时间、地点都可以通过互联网发布信息或进行交易,而不
本文是一篇关于EPON产品研发的文章。EPON是目前最有前景的解决“信息高速公路上的最后一公里”网络瓶颈问题的接入网方案,因此受到业内人士的广泛关注,不少企业投入了人力和物
随着计算机和互联网技术的快速发展,利用信息化方法对证券数据进行分析评估越来越多地被各种银行企业及投资机构所采用。证券数据本质上是大量的时间序列数据,如果能在传统的金
随着我国城市化进程的快速发展以及区域经济发展的不平衡,产生大量人口的地区间迁移需求,对交通运输发展提出了更高的要求。随着高速铁路的迅速发展、高速铁路网络的不断建设
网络虚拟社会是现实社会在网络上的映射和延伸,具有独特的性质和特征。由于网络虚拟社会的开放性、虚拟性、交互性,挖掘网络虚拟社会的特性及其成员行为特征成为研究的热点,
随着空间数据库研究不断深入和应用和通信技术的发展,对嵌入式空间数据库的研究成为嵌入式GIS应用的难点和突破点。研究目的在于为空间信息提供一个高可靠、高效率的基础软件
随着2007年8月《汉信码》标准的发布,汉信码对提升我国条码技术开发水平、应用水平,尤其对二维条码的应用领域起到了重要的促进作用。本文研究的目的是分析探讨汉信码的编码
随着科学技术的迅猛发展,人们对三维空间世界信息的需求量与日俱增。三维可视化技术一直以来都是计算机技术的研究重点之一,它涉及到计算机图形图像处理、计算机辅助设计及人
随着网络和信息技术的快速发展,大规模的文本处理得到持续研究和关注。大规模文本分类面对的是巨大的文本和类别数量,高维的特征空间对分类算法带来极高的计算复杂度和空间复
随着企业信息化水平的发展,各个领域都积累了大量的异构的数据,为了避免数据重复和资源浪费,整合系统中数据的需求也越来越迫切,数据交换技术也就应运而生了。本文将数据交换