阿尔法折叠:用人工智能理解生命

来源 :中国新闻周刊 | 被引量 : 0次 | 上传用户:songchuans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  7月15日,《自然》和《科学》两本国际顶尖学术杂志同时刊发研究结果证明:人工智能软件对蛋白质结构进行测序既快又精确。其中,英国“深度思维”公司研发的阿尔法折叠(Alpha Fold)在2020年就有惊人成就,现在又升级到阿尔法折叠2,按理说应当足以让人类为之欢呼鼓舞,然而,遗憾的是,绝大多数人并不知道阿尔法折叠为何物。
  简单地说,把阿尔法折叠看成阿尔法狗(Alpha Go)的升级版,及其在生命科学中的应用,或者称其为阿尔法狗的“后浪”,也许让人更容易理解。阿尔法狗暴得大名是因为2016年战胜了韩国顶尖职业围棋手李世石,以及在2017年战胜了世界第一围棋手中国的柯洁。但是,阿尔法折叠的成就可能要假以时日才能为世人所知。

测定蛋白质结构为何重要


  阿尔法折叠也是一个人工智能(AI)软件,其最大的作用是,既快又准确地测定蛋白质的形状,尤其是3D形状。
  生命的本质是蛋白质,蛋白质又是由氨基酸按一定顺序结合而成的多肽链组成,而且,它们的结构从一维(氨基酸序列)、二维(距离),再到三维(坐标),以无数方式,折叠成各种精致的形状,才能完成各种功能和发挥重要作用。
  大量的疾病与蛋白质的折叠形状有千丝万屡的联系。例如,新冠病毒的棘突蛋白(S蛋白)的折叠形式,决定了它入侵人体细胞的速度和致病能力。类似地,普里昂蛋白的折叠形式,也决定了对包括人在内的哺乳动物的传染性海绵状脑病的致病力和致命性。
  从理论上看,一个蛋白质从一维到三维,有无数的折叠方式。早在1969年,美國分子生物学家利文索尔就指出,由于蛋白质在未折叠的多肽链中有极大的自由度,任何蛋白分子都具有天文数量的可能构象,其数量是3的300次方到10的143次方个构型。再加上变异,一些蛋白的构型就更多,如新冠病毒S蛋白的变异。
  认识和精确测定蛋白质的构型,既要耗费大量的时间和精力,同时也不一定能测得准,这也造成了药物、疫苗的研发和疾病治疗总要付出艰苦的努力。例如,现在新冠肺炎尽管有了疫苗,但病毒蛋白质变异频繁,如果不能准确认知蛋白的变异结构,就难以再研发新的疫苗,也很难获得有效的药物。迄今,还没有有效治疗新冠肺炎的药物,原因也在于对病毒蛋白结构认知不清。
  既然如此,让AI来帮助人们认识和精确测定蛋白质的结构,就具有重大意义,而且非常实用。虽然人类已经测算出人和其他物种的数10亿计的蛋白质的氨基酸序列,但截至目前,仅有其中的约10万个蛋白质的结构已经用实验方法得到了解析。
  在2020年的5月至7月举行的第14届“蛋白质结构预测关键评估”(CASP14)大赛上,阿尔法折叠2就大放异彩。该比赛要求参赛团队根据蛋白质的氨基酸序列解析其结构。比赛用的蛋白质会先用实验方法解析出来,具体结果不公开——这听起来有点儿像阿尔法狗与李世石或柯洁的比赛。
  结果,阿尔法折叠2测定的大部分蛋白质的结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,而且远超解析新蛋白质结构的其他方法。阿尔法折叠2测定的组成蛋白质主链骨架的叠加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米),而成绩排第二的方法只能达到2.8埃的准确度。
  这意味着,阿尔法折叠2战胜了所有其他的测定蛋白质结构的方式。而且,阿尔法折叠2的神经网络,能在几分钟内预测出一个典型蛋白质的结构,并能够在几天内生成高精度的结构。

从阿尔法折叠到玫瑰折叠


  阿尔法折叠2准确测定蛋白质结构当然来源于训练和深度学习。训练数据来自大约17万个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库和神经网络模型结构。其中,模型对蛋白质序列以及氨基酸残基对进行操作,在两种表征之间迭代传递信息以生成结构。因此,阿尔法折叠2如同阿尔法狗一样,需要深度学习,才能准确测定蛋白质结构。
  不过,阿尔法折叠2比阿尔法狗更有优势的是,这类AI软件已经形成了集团作战,有更多新技术品种。例如,美国华盛顿大学医学院研发的玫瑰折叠。正如本文开头所提到的,阿尔法折叠2近期首先在《自然》杂志发表其成果;同时,玫瑰折叠则在《科学》杂志上发表。
  玫瑰折叠利用深度学习,仅凭有限的信息就能在普通游戏软件上快速而准确地预测蛋白质结构,在短时间内就能构建出复杂的生物组建模型。玫瑰折叠是一个“三轨”神经网络,能够兼顾蛋白质序列模式、氨基酸如何相互作用以及蛋白质三维结构的可能性。在这种模板中,蛋白质的信息在一维、二维和三维之间来回流动,从而推断蛋白质化学部分与折叠结构之间的关系。
  比较起来,玫瑰折叠预测蛋白质3D结构与阿尔法折叠2的水平几乎相当,而且速度更快、所需计算机处理能力更低,因此可能更实用。华盛顿大学的研究团队已经用玫瑰折叠计算出了数百种新的蛋白质结构,其中包括许多鲜为人知的人类基因组蛋白,如与脂质代谢问题、炎症紊乱和癌细胞生长相关的蛋白质结构。
  人体蛋白质有成千上万种,其他物种的蛋白质更是多达几十亿种,包括细菌和病毒的蛋白质。过去,人类只能用冷冻电镜(CryoEM)、磁共振(MR)和X射线晶体学等手段,来测定蛋白质结构,而且要经过大量试错,才能最终确定蛋白质的结构。有些蛋白质结构还测不出来,如在蛋白质数据库(PDB)中,有4种蛋白质无法用磁共振测定结构,包括牛属甘氨酸N-酰基转移酶、细菌氧化还原酶、细菌表面层蛋白(SLP)和来自真菌平革菌属金孢子菌属的分泌蛋白。
  现在,有了阿尔法折叠2和玫瑰折叠,测定蛋白质结构就轻松多了。这也为揭开生命现象和本质,以及研发无数战胜疾病的药物、疫苗和疗法,提供了尖端武器。随着时间的推移,阿尔法折叠2和玫瑰折叠将比阿尔法狗对人类有更大的贡献,让我们有更强大的手段去了解生命的本质。
其他文献
2016年,海口葫芦岛。图/视觉中国  备受关注的海南围填海整改,正进入胶着和博弈阶段。  一批由填海所造的海岛大限将近。2020年10月19日,海南省发布《海南省贯彻落实中央第三生态环境保护督察组督察报告整改方案》(简称《整改方案》)。在整改清单中,对万宁日月湾月岛项目、海口如意岛项目、海口葫芦岛项目等9个围填海项目,规定了详细的整改措施以及整改期限。  《整改方案》要求海口葫芦岛于2021年8
她是一个三十五六岁的女人,中等姿色,只不过一身净白的肤色衬得原不怎样的眉眼有种委婉的动人风情,特别是当她把头发往上梳盘挽在脑后时。  她有两个孩子,是恰恰好,但都是男的,大男孩读小学、小男孩也已上幼稚园,她并不打算再试试是否生个女儿,倒有些想再恢复工作。  早些年刚结婚时,她做过一阵子会计,后来有了小孩,不放心让人照顾,丈夫也宁可她自己带小孩,不在乎多赚那几个钱,就辞了工作。这些年来,丈夫的生意做
联合工作组入驻近一年后,海航集团风险处置终于有了实质性进展。1月29日,海航集团发布声明,称收到海南省高级人民法院发出的《通知书》,相关债权人因海航集团不能清偿到期债务,申请法院对其破产重整。  值得注意的是,此次对海航的处置方案是“破产重整”而不是“破产清算”,用联合工作组组长、海航集团党委书记顾刚的话说,“破产重整是为了获得挽救与重生”,海航具有优秀的资产、品牌、服务等方面的较高救助价值,“重
全乡十三个村,就是清江村让人担心。乡长担心的是会不会又选出个懒村长?  乡长的担心不是多余的,清江村是全乡最穷的村,自然条件不好,那里山高地贫,出产少,那里的山石头多,不长树,那里的人,一个字——懒,不爱干活。上面追得紧,这新农村建设,是政治任务,不完成不行。别说建设,先得让全村脱贫啊!自从土地下户后,先后换了七八任村长,老的少的,男的女的,都没有起色。  村级组织是直选,也不能完全由上级指定,那
祭坛与穹顶。  车子在山区间的高速公路上飞驰,儿子在午睡中醒来,一睁眼见到路牌,上面写有“Leon 18km”。他问我:“我们不是在西班牙吗?怎么跑去法国了?”  我愣了一下才反应过来,他肯定误以为“Leon”是法国里昂,其实前方的目的地是西班牙莱昂,也是莱昂省的首府。  位于西班牙西北部的莱昂与法国东部的里昂,除名字相近外,还有一个共同点——二者都是“狮子城”。  西班牙语的Leon和法语的Li
2月13日,国务院发布人事任免:全国政协副主席兼秘书长夏宝龙兼任国务院港澳事务办公室主任;免去张晓明的国务院港澳事务办公室主任职务,改任国务院港澳事务办公室分管日常工作的副主任(正部级)。同时,香港中联办主任骆惠宁、澳门中联办主任傅自应兼任国务院港澳事务办公室副主任。  这一人事变动被视为“不寻常”。包括夏宝龙在内,改革开放后成立的国务院港澳办迄今为止共有七位主任,其中由国家级领导兼任的情况有四次
流浪汉吉姆饥肠辘辘时,恰逢慈善家威廉先生驾临本城。  吉姆痛哭流涕:“我饥寒交迫,请先生大发慈悲……”  威廉先生给他买了幾亩地和几袋稻谷。  吉姆再次恳求道:“请先生再赐给我一间房屋和一些金币吧!”  威廉先生淡淡一笑:“对不起,我做慈善,从来只发送种子,而不馈赠果实。”
傅蔚冈  我的邮箱每周都能收到一封来自Uber的邮件,邀请我体验他们最新推出的外卖服务,最高能获得100美元优惠!遗憾的是我无法享用这些优惠,因为Uber在国内并没有外卖服务。一天我把Uber给我的折扣分享给美国的朋友,想让他来薅Uber的羊毛。不出所料,他没法享用该服务,因为他是Uber的老用户。  为何Uber会给新用户提供高达100美元的折扣,却不提供给老用户?原因是两个字,“拉新”。相当长
廖伟棠  今年的诺贝尔文学奖开奖再度让我失望,其实过去十年,我一直押韩国诗人高银得奖,他和一直被诺贝尔文学奖故意忽视的米兰·昆德拉,是这个世纪罕有的“文豪”级别的作家。  以前觉得高银的价值,更多在于他作为韩国的一个国民诗人,跟整个现代韩国的命运纠缠不分。  高银生于1933年,年轻时,在朝鲜战争中做过背尸体的工人,也许在那个过程中,他慢慢认识到了什么是无常。他青年时代坐好几次牢,出过家,又还俗。