论文部分内容阅读
1984年,美国国家生物医学研究基金会启动了一个免费在线数据库项目——蛋白质信息资源数据库(PIR),其中包含超过28.3万种蛋白质序列。如今,世界各地的科学家都可以将其获得的未知蛋白质与该数据库中的已知蛋白质进行比对,考察它们的相似性和差异性。借助这些数据,科学家能够快速、准确地推断出某种蛋白质的进化史,及其与各种生命形式的关系。
这个规模庞大的在线数据库的建立,要归功于一位名叫玛格丽特·戴霍夫的女性撰写的《蛋白质序列与结构图册》。这本书记载了当时已知的65种蛋白质序列。为了编写这本图册,戴霍夫采用了尖端的计算机技术来解决生物学问题,从而在无形中推动了“生物信息学”这个全新领域的诞生。
前卫的研究方法
1925年3月11日,戴霍夫出生于美国费城。1945年,她以优异的成绩毕业于纽约大学数学系。同年,她进入哥伦比亚大学,在著名化学家乔治·金博尔的指导下攻读量子化学博士学位,用了3年获得了量子化学博士学位。这在当时是非常罕见的事情,因为男性在化学领域占据着垄断地位,只有5%的化学博士学位被授予女性。
在戴霍夫就读期间,哥伦比亚大学是美国计算技术的重镇,拥有美国历史最悠久的计算机实验室,其中包括沃森科学计算实验室。在第二次世界大战的最后几个月里,沃森科学计算实验室是盟军的计算机中心。战争结束后,它成为首批超级计算机的开发地,“阿波罗计划”所使用的超级计算机就是在这里诞生的。“近水楼台先得月。”戴霍夫将自己对化学的兴趣与打孔卡片机(早期的计算机)进行的计算相结合。打孔卡片机能够自动执行计算,将算法存储在一组卡片上,将数据存储在另一组卡片上。通过使用该机器,戴霍夫能够更快、更准确地进行计算。戴霍夫特别感兴趣的研究对象是多环有机化合物,她使用打孔卡片机进行了大量计算。1949年,她与金博尔作为共同作者,在《化学物理》杂志上发表了题为《共振能的打孔卡片计算》的论文。
1952年,戴霍夫的第一个孩子出生了,她暂时告别了研究工作,做起了全职妈妈。重返研究领域后,戴霍夫迎来了职业生涯中的黄金时期。1960年,她接受了生物物理学家罗伯特·莱德利的邀请,加入了美国国家生物医学研究基金会。在莱德利看来,戴霍夫高超的计算机技能对于该基金会完成将计算、生物学和医学领域相结合的目标是至关重要的。
戴霍夫和莱德利使用全新的晶体管计算机搜索蛋白质序列。和速度较慢、体积较大的真空管计算机相比,晶体管计算机速度更快、效率更高,能够处理复杂的应用程序。他们用自己编写的程序对蛋白质序列进行比较。他们将计算机分析应用于生物学和化学的做法在当时非常前卫。那时,大多数生物学和化学领域的研究者对统计分析非常陌生——更不用说利用计算机进行数据分析了,有些人甚至以不懂数据分析為荣。
“局外人”的贡献
蛋白质的功能是什么?自20世纪50年代以来,研究人员就一直苦苦思索这个问题。蛋白质测序是解答这个问题的方法之一,但是对单个蛋白质进行测序的效率非常低下。戴霍夫和莱德利采用了不同的方法。他们没有孤立地分析蛋白质,而是比较了不同物种的蛋白质,寻找其中相同的部分。如果一个蛋白质序列在所有物种中都相同,那就表明该序列对于蛋白质的功能至关重要。
戴霍夫进行了更深入的研究。她不仅分析了不同物种的蛋白质的相似性,还分析了它们的差异。她用这些差异来衡量物种之间的进化关系,然后据此重新构建系统发生树(又称演化树或进化树,是表明被认为具有共同祖先的各物种间演化关系的树状图)。
1969年,戴霍夫在《科学美国人》杂志上发表《蛋白质进化的计算机分析》一文,向公众介绍了她使用计算机对蛋白质进行测序的研究成果。她写道:“每测定一个蛋白质序列,每阐明一个进化机制,每揭示一个进化史上的重大突破,都将增进我们对生命科学史的理解。”她试图向生命科学界展示计算机模型的巨大潜力。
戴霍夫的另一个重要工作是将所有已知的蛋白质收集起来,研究人员可以在其中找到所需要的序列并将其与其他序列进行比较。与如今仅用一个关键字即可轻松地在电子数据库中调用数据不同,戴霍夫当时不得不翻阅无数文献来查找她想要的蛋白质。在许多情况下,这意味着要检查研究人员的工作是否存在错误。即使借助计算机,对蛋白质序列的收集和分类也需要大量的时间和敏锐的科学眼光。
但是,当时并不是每个人都认为戴霍夫所做的事情有价值。对很多生物学家来说,戴霍夫的工作类似于19世纪自然史研究者的收集和编目工作,而不是20世纪科学家的实验工作。因此,戴霍夫成了他们眼中的“局外人”,她的贡献没有得到认可。
1965年,戴霍夫的《蛋白质序列和结构图册》出版了,书中收集了当时已知的蛋白质序列。这份成果不断更新,并催生了蛋白质信息资源数据库。如今,各种数据库已经成为生物学研究的必备工具。研究者不仅会在研究成果中提供新的数据,还会将自己的数据与公共数据库中的数据进行比对,做出推论。毫不夸张地说,正是由于戴霍夫的开拓性贡献,一场生物信息学革命才如火如荼地展开。
探索生命起源的强大工具
戴霍夫运用计算机辅助科研的能力在天文学领域也得到了发挥。1961年,通过光谱学家利平科特的介绍,戴霍夫结识了天文学家卡尔·萨根。他们3人进行了为期6年的合作。戴霍夫设计了一个计算机程序来计算行星大气层中气体的平衡浓度。利平科特和萨根利用戴霍夫开发的程序对元素进行分析,从而研究出许多不同的大气成分。最终,他们建立了金星、木星、火星以及地球的原始大气模型。
戴霍夫相信,对地球原始大气的研究能帮助她找到“生命形成所必需的化合物”。从微小的蛋白质到广阔的大气层,戴霍夫利用计算技术不断探索有关地球生命起源的秘密。虽然她没能揭开所有的秘密,但她给后来者提供了继续展开跨学科研究的强大工具。
(摘自《科学画报》2020年第12期)
这个规模庞大的在线数据库的建立,要归功于一位名叫玛格丽特·戴霍夫的女性撰写的《蛋白质序列与结构图册》。这本书记载了当时已知的65种蛋白质序列。为了编写这本图册,戴霍夫采用了尖端的计算机技术来解决生物学问题,从而在无形中推动了“生物信息学”这个全新领域的诞生。
前卫的研究方法
1925年3月11日,戴霍夫出生于美国费城。1945年,她以优异的成绩毕业于纽约大学数学系。同年,她进入哥伦比亚大学,在著名化学家乔治·金博尔的指导下攻读量子化学博士学位,用了3年获得了量子化学博士学位。这在当时是非常罕见的事情,因为男性在化学领域占据着垄断地位,只有5%的化学博士学位被授予女性。
在戴霍夫就读期间,哥伦比亚大学是美国计算技术的重镇,拥有美国历史最悠久的计算机实验室,其中包括沃森科学计算实验室。在第二次世界大战的最后几个月里,沃森科学计算实验室是盟军的计算机中心。战争结束后,它成为首批超级计算机的开发地,“阿波罗计划”所使用的超级计算机就是在这里诞生的。“近水楼台先得月。”戴霍夫将自己对化学的兴趣与打孔卡片机(早期的计算机)进行的计算相结合。打孔卡片机能够自动执行计算,将算法存储在一组卡片上,将数据存储在另一组卡片上。通过使用该机器,戴霍夫能够更快、更准确地进行计算。戴霍夫特别感兴趣的研究对象是多环有机化合物,她使用打孔卡片机进行了大量计算。1949年,她与金博尔作为共同作者,在《化学物理》杂志上发表了题为《共振能的打孔卡片计算》的论文。
1952年,戴霍夫的第一个孩子出生了,她暂时告别了研究工作,做起了全职妈妈。重返研究领域后,戴霍夫迎来了职业生涯中的黄金时期。1960年,她接受了生物物理学家罗伯特·莱德利的邀请,加入了美国国家生物医学研究基金会。在莱德利看来,戴霍夫高超的计算机技能对于该基金会完成将计算、生物学和医学领域相结合的目标是至关重要的。
戴霍夫和莱德利使用全新的晶体管计算机搜索蛋白质序列。和速度较慢、体积较大的真空管计算机相比,晶体管计算机速度更快、效率更高,能够处理复杂的应用程序。他们用自己编写的程序对蛋白质序列进行比较。他们将计算机分析应用于生物学和化学的做法在当时非常前卫。那时,大多数生物学和化学领域的研究者对统计分析非常陌生——更不用说利用计算机进行数据分析了,有些人甚至以不懂数据分析為荣。
“局外人”的贡献
蛋白质的功能是什么?自20世纪50年代以来,研究人员就一直苦苦思索这个问题。蛋白质测序是解答这个问题的方法之一,但是对单个蛋白质进行测序的效率非常低下。戴霍夫和莱德利采用了不同的方法。他们没有孤立地分析蛋白质,而是比较了不同物种的蛋白质,寻找其中相同的部分。如果一个蛋白质序列在所有物种中都相同,那就表明该序列对于蛋白质的功能至关重要。
戴霍夫进行了更深入的研究。她不仅分析了不同物种的蛋白质的相似性,还分析了它们的差异。她用这些差异来衡量物种之间的进化关系,然后据此重新构建系统发生树(又称演化树或进化树,是表明被认为具有共同祖先的各物种间演化关系的树状图)。
1969年,戴霍夫在《科学美国人》杂志上发表《蛋白质进化的计算机分析》一文,向公众介绍了她使用计算机对蛋白质进行测序的研究成果。她写道:“每测定一个蛋白质序列,每阐明一个进化机制,每揭示一个进化史上的重大突破,都将增进我们对生命科学史的理解。”她试图向生命科学界展示计算机模型的巨大潜力。
戴霍夫的另一个重要工作是将所有已知的蛋白质收集起来,研究人员可以在其中找到所需要的序列并将其与其他序列进行比较。与如今仅用一个关键字即可轻松地在电子数据库中调用数据不同,戴霍夫当时不得不翻阅无数文献来查找她想要的蛋白质。在许多情况下,这意味着要检查研究人员的工作是否存在错误。即使借助计算机,对蛋白质序列的收集和分类也需要大量的时间和敏锐的科学眼光。
但是,当时并不是每个人都认为戴霍夫所做的事情有价值。对很多生物学家来说,戴霍夫的工作类似于19世纪自然史研究者的收集和编目工作,而不是20世纪科学家的实验工作。因此,戴霍夫成了他们眼中的“局外人”,她的贡献没有得到认可。
1965年,戴霍夫的《蛋白质序列和结构图册》出版了,书中收集了当时已知的蛋白质序列。这份成果不断更新,并催生了蛋白质信息资源数据库。如今,各种数据库已经成为生物学研究的必备工具。研究者不仅会在研究成果中提供新的数据,还会将自己的数据与公共数据库中的数据进行比对,做出推论。毫不夸张地说,正是由于戴霍夫的开拓性贡献,一场生物信息学革命才如火如荼地展开。
探索生命起源的强大工具
戴霍夫运用计算机辅助科研的能力在天文学领域也得到了发挥。1961年,通过光谱学家利平科特的介绍,戴霍夫结识了天文学家卡尔·萨根。他们3人进行了为期6年的合作。戴霍夫设计了一个计算机程序来计算行星大气层中气体的平衡浓度。利平科特和萨根利用戴霍夫开发的程序对元素进行分析,从而研究出许多不同的大气成分。最终,他们建立了金星、木星、火星以及地球的原始大气模型。
戴霍夫相信,对地球原始大气的研究能帮助她找到“生命形成所必需的化合物”。从微小的蛋白质到广阔的大气层,戴霍夫利用计算技术不断探索有关地球生命起源的秘密。虽然她没能揭开所有的秘密,但她给后来者提供了继续展开跨学科研究的强大工具。
(摘自《科学画报》2020年第12期)