论文部分内容阅读
二十一世纪是生命科学的世纪,近年来生物信息学得到了前所未有的发展。生物信息二级数据库是生物信息学中的一个重要研究方向,由于生物信息数据的复杂性及其分析应用的复杂性,至今没有一种比较通用的构建模型能够满足一般性生物信息二级数据库系统的开发需要。序列比对是生物信息学中一个非常重要的操作,是基本的处理信息的方法。将大量累积的核酸和蛋白质序列进行比对,对发现生物序列的功能、结构和进化信息具有重要的意义。
本文对生物信息学的发展、研究内容、生物数据库做了简单的介绍,对序列比对的各种算法:点阵法、动态规划全局比对算法、Smith-Waterman算法、FASTA算法、启发式BLAST算法等做了简单描述,并分析了序列比对研究的目的及其意义。
本文利用.NET、XML和Web Services相关技术,实现了一种建立生物信息学研究平台的框架体系。该平台可自动从Intemet获取生物信息数据并建立本地二级生物信息数据库。重点介绍了用WebClient类的方法提取分析网络数据库资源并创建本地二级生物信息数据库;用ASP.NET和ADO.NET实现了对此二级数据库的查看、查询等操作;使用XML保存从Web站点上下载的数据;用Web Services技术封装序列对比算法,可从客户端直接调用。此系统在.NET技术上采用Web信息自动获取并结合Web services技术有助于二级数据库开发人员在海量的信息源中迅速找到真正需要的生物数据信息,并灵活地加以应用,从而将更多的精力集中在更纯粹的生物信息处理上来,并可以通过Web的方式向Internet用户提供方便、有效的公共生物信息技术服务平台的各类资源。
本文还在BLAST部分算法的基础上,基于十六进制编码序列和寻找最优可变窗口大小的思想,提出了一种相似核苷酸序列搜索算法SLAHAW。本算法采用十六进制编码存储序列,通过序列片断相似度得到最佳搜索窗口值,从而提高搜索速度和准确度并且节约了存诸空间。建立出实验环境和实现了相应算法,通过实验证明在序列满足相似度的情况下,SLAHAW是一种快速而有效的相似序列片断匹配算法。