论文部分内容阅读
中图分类号:Q1-0 文献标识码:A 文章编号:1671-7597(2008)0620051-01
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息的科学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。截至目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。
一、生物信息资源
目前,在全球500多个生物学数据库中,最著名的有:
EMBLDatabase(http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/
topembl.html)
欧洲分子生物学实验室(European Molecular Biology Laboratory )核酸序列数据库,为欧洲最主要的核酸序列数据库,目前此数据库由其分支机构EBI(the European Bioinformatics Institute,欧洲生物情报研究所)维护。
GenBank(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)
美国国家生物技术情报中心(NCBI,National Center for Biotechnology Information)基因序列数据库。美国最主要的核酸序列数据库,GenBank与EMBL Database是世界两大核酸数据库。
SWISS-PROT(http://www.ebi.ac.uk/ebi_docs/swissprot_db/swiss
home.html)
SWISS-PROT 蛋白序列数据库,由日内瓦大学医学生物化学系(the Department of Medical Biochemistry of the University of Geneva )与EMBL(European Molecular Biology Laboratory,欧洲分子生物学实验室)共同维护,是欧洲最主要的蛋白序列数据库。
PIR(http://www.bis.med.jhmi.edu/Dan/proteins/pir-last.html)
PIR(Protein Identification Resource)蛋白序列鉴定数据库,由美国国家生物医学研究基金会(National Biomedical Research Foundation)
维护。是美国最主要的蛋白序列数据库,SWISS-PROT与PIR为世界两大蛋白序列数据库。
中国微生物资源数据库群(http://www.im.ac.cn/sdb/xinxi.htm)也是国际上的一个重要的数字化生物学信息资源。
当前的生物信息学网站主要有:
生物学(http://www.biology.com/)
生物世界(http://www.bioworld.com)
生物通(http://www.ebiotrade.com)
生物空间(http://www.biospace.com)
以上网站提供生物学领域的信息,包括最新的科研动态、研究成果、生物工程报告、学术交流、生物投资调查、生态环境、科普新闻、技术疑难、综合论坛、生物资源、生物工具、电子杂志等。支持关键词、主题和刊名检索及分类检索,提供超链接,可通过关键词等。
二、生物信息数据检索
生物信息学主要包含序列比对、结构比对、蛋白质结构预测、计算机辅助基因识别、非编码区分析和DNA语言等研究领域。其中,序列比对是生物信息學的基础,序列比对的目的在于判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
生物信息数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。生物序列数据库分核酸序列数据库和蛋白质序列数据库,前者有EMBL、GENBANK、DDBJ等,后者有PIR、SWISS-PORT等。常用的数据库搜索系统有BLAST 、FASTA和BLITZ。
BLAST(Basic Local Alignment Search Tool)是一个序列相似性搜索的程序包,是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。该系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,提供了一个快速的基于碱基数据的搜索引擎。BLAST使用ASN数据描述语言定义了一种基因序列数据模型。
随着生物学的发展,BLAST数据库的规模也越来越大,随之而来的就是BLAST系统由于数据库的庞大具而带来的检索速度慢、对系统的I/O的要求高、程序消耗内存大等问题。为提高BLAST的检索速度,从1997至今,人们已经对BLAST算法进行了改进,同时采用并行机制以提高搜索速度、敏感度和实用性。
BLAST检索原理是:系统将数据库名称、检索的基因序列数据和检索方式作为检索标识,读人一个Bioseq的结构中,将数据库中所有的记录采用MAP方式映象到内存中,然后从数据库的第一条记录开始到最后一条记录逐条进行比较,以选择相匹配的信息。这个检索原理与文献检索的原理是相同的。
FASTA的原理与前者相似。FASTA首先在序列库中进行快速的初检,找出与待检序列高度相似的序列,再进行对比。这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上。
BLITZ是用于检索远缘序列的工具,该工具在发现家族成员上很可靠,但只用于蛋白质库,而且检索速度较慢。
计算机检索中常用的逻辑算符和截词,同样适合于以上工具在数据库中的检索,检索人员就视具体情况选择适当的工具,或组配不同工具,以提高检索效率。
参考文献:
[1]姜鑫,生物信息学数据库及其利用方法[J].现代情报2005(6).
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息的科学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。截至目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。
一、生物信息资源
目前,在全球500多个生物学数据库中,最著名的有:
EMBLDatabase(http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/
topembl.html)
欧洲分子生物学实验室(European Molecular Biology Laboratory )核酸序列数据库,为欧洲最主要的核酸序列数据库,目前此数据库由其分支机构EBI(the European Bioinformatics Institute,欧洲生物情报研究所)维护。
GenBank(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)
美国国家生物技术情报中心(NCBI,National Center for Biotechnology Information)基因序列数据库。美国最主要的核酸序列数据库,GenBank与EMBL Database是世界两大核酸数据库。
SWISS-PROT(http://www.ebi.ac.uk/ebi_docs/swissprot_db/swiss
home.html)
SWISS-PROT 蛋白序列数据库,由日内瓦大学医学生物化学系(the Department of Medical Biochemistry of the University of Geneva )与EMBL(European Molecular Biology Laboratory,欧洲分子生物学实验室)共同维护,是欧洲最主要的蛋白序列数据库。
PIR(http://www.bis.med.jhmi.edu/Dan/proteins/pir-last.html)
PIR(Protein Identification Resource)蛋白序列鉴定数据库,由美国国家生物医学研究基金会(National Biomedical Research Foundation)
维护。是美国最主要的蛋白序列数据库,SWISS-PROT与PIR为世界两大蛋白序列数据库。
中国微生物资源数据库群(http://www.im.ac.cn/sdb/xinxi.htm)也是国际上的一个重要的数字化生物学信息资源。
当前的生物信息学网站主要有:
生物学(http://www.biology.com/)
生物世界(http://www.bioworld.com)
生物通(http://www.ebiotrade.com)
生物空间(http://www.biospace.com)
以上网站提供生物学领域的信息,包括最新的科研动态、研究成果、生物工程报告、学术交流、生物投资调查、生态环境、科普新闻、技术疑难、综合论坛、生物资源、生物工具、电子杂志等。支持关键词、主题和刊名检索及分类检索,提供超链接,可通过关键词等。
二、生物信息数据检索
生物信息学主要包含序列比对、结构比对、蛋白质结构预测、计算机辅助基因识别、非编码区分析和DNA语言等研究领域。其中,序列比对是生物信息學的基础,序列比对的目的在于判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
生物信息数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。生物序列数据库分核酸序列数据库和蛋白质序列数据库,前者有EMBL、GENBANK、DDBJ等,后者有PIR、SWISS-PORT等。常用的数据库搜索系统有BLAST 、FASTA和BLITZ。
BLAST(Basic Local Alignment Search Tool)是一个序列相似性搜索的程序包,是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。该系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,提供了一个快速的基于碱基数据的搜索引擎。BLAST使用ASN数据描述语言定义了一种基因序列数据模型。
随着生物学的发展,BLAST数据库的规模也越来越大,随之而来的就是BLAST系统由于数据库的庞大具而带来的检索速度慢、对系统的I/O的要求高、程序消耗内存大等问题。为提高BLAST的检索速度,从1997至今,人们已经对BLAST算法进行了改进,同时采用并行机制以提高搜索速度、敏感度和实用性。
BLAST检索原理是:系统将数据库名称、检索的基因序列数据和检索方式作为检索标识,读人一个Bioseq的结构中,将数据库中所有的记录采用MAP方式映象到内存中,然后从数据库的第一条记录开始到最后一条记录逐条进行比较,以选择相匹配的信息。这个检索原理与文献检索的原理是相同的。
FASTA的原理与前者相似。FASTA首先在序列库中进行快速的初检,找出与待检序列高度相似的序列,再进行对比。这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上。
BLITZ是用于检索远缘序列的工具,该工具在发现家族成员上很可靠,但只用于蛋白质库,而且检索速度较慢。
计算机检索中常用的逻辑算符和截词,同样适合于以上工具在数据库中的检索,检索人员就视具体情况选择适当的工具,或组配不同工具,以提高检索效率。
参考文献:
[1]姜鑫,生物信息学数据库及其利用方法[J].现代情报2005(6).