论文部分内容阅读
生物信息学是当今最重要、最前沿的科学发展领域之一,已被广泛用于基因序列数据的获取、处理、分析和管理等许多方面,对于分子生物学和生物医学研究的深入发展发挥了巨大作用。序列比对是生物信息学中一种基本的信息处理方法,对于发现核酸和蛋白质序列上的功能结构和进化的信息具有非常重要的意义。本文的工作是在本人所从事开发的柑橘生物信息平台的基础上进行的。针对生物信息平台开发过程中遇到的问题——海量的基因数据库序列比对,我们在平台中采用了快速、高效的序列比对算法。本文的主要工作包括基因序列比对算法研究和生物信息平台的构建。本文首先采用了一种基于.NET和SQL Server相关技术构建生物信息平台的方案。在此基础上选择INSDSqe XML作为中间数据格式,以XML为数据存储语言,使用大型关系数据库SQL Server构建二级生物信息数据库。其次,对BLAST算法进行了改进,提出了基于十六进制编码序列通过循环位移寻找最优比对序列的思想,本算法通过将二进制表示的DNA序列转换为十六进制,并根据序列片断相似度得到最佳搜索窗口值,从而提高搜索速度和准确度。本文在搭建好的生物信息平台基础上,以柑橘基因数据为例建立出实验环境并实现了相应算法。最后是生物信息平台的构建,本文所建立的生物信息平台是以生物信息学为基础,通过编程而实现的生物信息处理系统,包括生物信息二级数据库和生物信息处理模块,其作用是通过序列检索、序列比对、相似性搜索、同源性搜索等操作从大量的序列信息中获取基因结构、功能和进化等知识,以便理解数据中蕴含的生物学意义,决定研究方向和策略。实验表明,本文所构建的生物信息平台整合多个一级数据库数据及服务资源,并且开发和整合了大量的生物信息工具,为用户提供统一的查询平台;数据格式、查询方式与公开数据库兼容性好,查询灵活、功能强:运用XML存储数据使得数据库内容更新更加方便;改进算法的应用则使系统对用户操作的响应时间更短,查询的准确率更高;自己独立开发,维护与开发方便、成本低。