生物信息学资源及其检索述评

来源 :硅谷 | 被引量 : 0次 | 上传用户:ncepuwade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:Q1-0 文献标识码:A 文章编号:1671-7597(2008)0620051-01
  
  生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息的科学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
  生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。截至目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。
  
  一、生物信息资源
  
  目前,在全球500多个生物学数据库中,最著名的有:
  EMBLDatabase(http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/
  topembl.html)
  欧洲分子生物学实验室(European Molecular Biology Laboratory )核酸序列数据库,为欧洲最主要的核酸序列数据库,目前此数据库由其分支机构EBI(the European Bioinformatics Institute,欧洲生物情报研究所)维护。
  GenBank(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)
  美国国家生物技术情报中心(NCBI,National Center for Biotechnology Information)基因序列数据库。美国最主要的核酸序列数据库,GenBank与EMBL Database是世界两大核酸数据库。
  SWISS-PROT(http://www.ebi.ac.uk/ebi_docs/swissprot_db/swiss
  home.html)
  SWISS-PROT 蛋白序列数据库,由日内瓦大学医学生物化学系(the Department of Medical Biochemistry of the University of Geneva )与EMBL(European Molecular Biology Laboratory,欧洲分子生物学实验室)共同维护,是欧洲最主要的蛋白序列数据库。
  PIR(http://www.bis.med.jhmi.edu/Dan/proteins/pir-last.html)
  PIR(Protein Identification Resource)蛋白序列鉴定数据库,由美国国家生物医学研究基金会(National Biomedical Research Foundation)
  维护。是美国最主要的蛋白序列数据库,SWISS-PROT与PIR为世界两大蛋白序列数据库。
  中国微生物资源数据库群(http://www.im.ac.cn/sdb/xinxi.htm)也是国际上的一个重要的数字化生物学信息资源。
  当前的生物信息学网站主要有:
  生物学(http://www.biology.com/)
  生物世界(http://www.bioworld.com)
  生物通(http://www.ebiotrade.com)
  生物空间(http://www.biospace.com)
  以上网站提供生物学领域的信息,包括最新的科研动态、研究成果、生物工程报告、学术交流、生物投资调查、生态环境、科普新闻、技术疑难、综合论坛、生物资源、生物工具、电子杂志等。支持关键词、主题和刊名检索及分类检索,提供超链接,可通过关键词等。
  
  二、生物信息数据检索
  
  生物信息学主要包含序列比对、结构比对、蛋白质结构预测、计算机辅助基因识别、非编码区分析和DNA语言等研究领域。其中,序列比对是生物信息學的基础,序列比对的目的在于判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
  生物信息数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。生物序列数据库分核酸序列数据库和蛋白质序列数据库,前者有EMBL、GENBANK、DDBJ等,后者有PIR、SWISS-PORT等。常用的数据库搜索系统有BLAST 、FASTA和BLITZ。
  BLAST(Basic Local Alignment Search Tool)是一个序列相似性搜索的程序包,是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。该系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,提供了一个快速的基于碱基数据的搜索引擎。BLAST使用ASN数据描述语言定义了一种基因序列数据模型。
  随着生物学的发展,BLAST数据库的规模也越来越大,随之而来的就是BLAST系统由于数据库的庞大具而带来的检索速度慢、对系统的I/O的要求高、程序消耗内存大等问题。为提高BLAST的检索速度,从1997至今,人们已经对BLAST算法进行了改进,同时采用并行机制以提高搜索速度、敏感度和实用性。
  BLAST检索原理是:系统将数据库名称、检索的基因序列数据和检索方式作为检索标识,读人一个Bioseq的结构中,将数据库中所有的记录采用MAP方式映象到内存中,然后从数据库的第一条记录开始到最后一条记录逐条进行比较,以选择相匹配的信息。这个检索原理与文献检索的原理是相同的。
  FASTA的原理与前者相似。FASTA首先在序列库中进行快速的初检,找出与待检序列高度相似的序列,再进行对比。这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上。
  BLITZ是用于检索远缘序列的工具,该工具在发现家族成员上很可靠,但只用于蛋白质库,而且检索速度较慢。
  计算机检索中常用的逻辑算符和截词,同样适合于以上工具在数据库中的检索,检索人员就视具体情况选择适当的工具,或组配不同工具,以提高检索效率。
  
  参考文献:
  [1]姜鑫,生物信息学数据库及其利用方法[J].现代情报2005(6).
其他文献
[摘要]介绍几种服务器内存数据保护技术,奇偶校验、ECC、Chipkill以及更高级的内存热备份和内存镜像技术,并就各自优劣进行分析和比较,并提供三年内存使用的模拟实验数据,有力的证实了Chipkill技术的可靠性和实用性。  [关键词]奇偶校验 ECC Chipkill 内存热备份 内存镜像  中图分类号:TP309.2;TP333.1 文献标识码:A 文章编号:1671-7597(2008)0
期刊
4G是多种接入技术的综合系统,基于一个公共的平台,实现各种技术的无缝链接。回顾移动通信发展的历史,分析第四代移动通信的概况和采用的关键技术。 4G is a comprehensive s
[摘要]在分析主观题的考试目的和答题特点的基础上,提出以考题相关知识点为基础的关键词以及各个关键词之间的逻辑关系匹配方法来实现自动评分,使自动评分更加灵活,更符合主观题答案多样性的要求。  [关键词]主观题 自动批改 关键词 逻辑关系  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0620048-01    一、引言    国内主观题自动批改的研究刚刚起步,真正实用
[摘要]随着移动计算技术的发展,移动数据库逐步走向应用,在嵌入式操作系统中移动数据库更显示出其优越性。分析移动数据库的特点、体系结构;介绍移动数据库系统中的一些关键性技术,并指出了移动数据库应用方向。   [关键词]嵌入式系统 移动数据库 移动计算 事务处理   中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0620050-01    一、嵌入式移动数据库的定义  从
武汉生物工程职业技术学院是经国家教育部批准设立的一所全日制普通高等学校,直属湖北省教育厅管理,享有独立颁发国家承认的普通大专文凭资格。学院多次获得“湖北省直机关
由于冠状动脉硬化在内外因素影响下能促进其消退,因而长久地对它进行治疗和康复不仅可促使健康和劳动能力的恢复,还可降低死亡率。物理康复中体力锻炼起着最积极的作用。近