论文部分内容阅读
以计算机为工具,对DNA序列数据进行储存、检索、分析是生物信息学(Bioinformatics)的基本内容。它是当今生命科学和自然科学的重大前沿领域之一。近年来,随着世界各国对不同物种的序列测定工作逐步深入,测序完成的DNA序列数目也呈巨量增长。在此过程中,生物信息学研究人员对序列比对分析软件或比对分析系统也提出了越来越多的针对性需求。如:序列结构可视化、脱机环境比对分析、专用序列数据库的构建、序列分析程序功能的针对性和界面的友好性等等。这些都成为近年来研究者所关注的焦点。
在对生物信息学基础知识和序列比对的算法、专有序列库的构建方式、及国内外生物信息学软件的发展现状等内容进行了深入学习的前提下,参考和借鉴前人的优秀研究成果,本文设计了一种针对哺乳动物线粒体DNA本地序列库的构建方式和对线粒体DNA环状分子结构的可视化实现手段。基本过程是:由国际互联网基本核酸序列数据库(GenBank、EMBL、DDBJ)[2]上下载哺乳动物线粒体DNA全序列,作为本地库中的样本序列,并提取每一个样本序列的功能域划分;运行所编制测试程序,将本地库中所有单个物种序列文件整合生成为一个fasta库文件;通过编程接口调用美国国立生物信息中心(NCBI)上的BLAST比对模块,完成所提交查询序列与本地库的同源性比较;最后依据比对结果,找出本地序列库中最大相似序列的功能域划分记录,对查询序列作出可视化的功能域预测。试验表明,该方法能够实现脱机状态下的BLAST比对需求;可以比较准确地预测查询序列的功能域,并以可视化的手段加以反映。
最后,结合生物信息研究人员的实际需要,在本文的研究过程中采用Visual C++语言编制实现了一个专用于哺乳动物线粒体DNA分析和可视化的测试程序。此测试程序具有构建格式化库文件、生成本地BLAST报告、序列功能域可视化预测、序列编辑修改、序列信息提取等主要功能。研究旨在为生物信息学研究人员提供一个可借鉴的私有库构建方式和一个友好的程序界面,方便其对哺乳动物线粒体DNA序列进行分析。