AlphaFold精准预测蛋白质三维攻克生物学半世纪蛋白质折叠难题有望加快新药研发

科技日报北京12月1日电 (记者刘霞)人工智能(AI)再度发威,攻克了生物学领域一项重大难题:预测蛋白质如何从线性氨基酸链卷曲成3D形状以执行任务。据美国《科学》杂志网站11月30日报道,“蛋白质结构预测关键评估”(CASP)竞赛传来喜讯:英国“深度学习”(DeepMind)称其AI实现了上述成就,他们的方法将极大加快新药研发进程。

人体拥有成千上万种不同的蛋白质,每一种蛋白质都包含几十到几百种氨基酸,这些氨基酸的顺序决定了它们之间的作用,赋予蛋白质复杂的三维形状,进而决定了蛋白质的功能。了解这些三维形状有助于研究人员设计出能在蛋白质缝隙内滞留的药物。此外,合成出拥有所需结构的蛋白质,还可以加快酶的研制进程,让生物燃料领域受益。

几十年来,研究人员利用X射线晶体学或低温电子显微镜(cryo-EM)等实验技术来破译蛋白质的三维结构,但这种方法可能需要数月甚至数年,且未必见效。目前,在生命体内发现的2亿多个蛋白质中,只有17万个蛋白质的结构被破解。

1994年,为更好预测和破解蛋白质三维结构,马里兰大学结构生物学家约翰·穆尔特等人发起了CASP竞赛,每两年举行一次。在今年的比赛中,“深度学习”团队的“阿尔法折叠”(AlphaFold)方法的中位分数为92.4(满分100分,90分以上被认为预测方法可与实验方法相媲美),预测最具挑战性的蛋白质的平均得分为87,比次优预测高出25分。它甚至擅长预测嵌入细胞膜的蛋白质结构——细胞膜是许多人类疾病的核心,但很难用X射线晶体学研究。

欧洲生物信息学研究所名誉主任珍妮特·桑顿说:“‘深度学习’团队所取得的成就是惊人的,将改变结构生物学和蛋白质研究的未来。”

穆尔特则表示,这是一个有50年历史的问题,“阿尔法折叠”改变了游戏规则,实验学家将能使用精确的结构预测来理解不透明的X射线和低温电磁数据;药物设计者也可借此迅速厘清新冠病毒等新冒出的危险病原体中每种蛋白质的结构,从而更快研制出相关药物。

总编辑圈点

蛋白质的形状决定了其功能。知道蛋白质如何折叠时,我们才能知晓蛋白质的作用。但光是解析蛋白质折叠后的结构,就已经非常困难。常用的方法是冷冻电镜、核磁共振或者X射线等。结构要看得精细,耗时长且成本不菲。预测蛋白质折叠后的形状,则是“地狱难度”。它可以在极短时间内把自己折叠成令人难以想象的形状,预测所需要的算力可谓惊人。在人工智能帮助下,曾经的天方夜谭成为事实。这或许是一项革命性成果,为人类探索药物分子世界提供了强大工具。

“蛋白质折叠问题”

在1972年诺贝尔化学奖的获奖感言中,克里斯蒂安·安芬森 Christian Anfinsen) 著名地提出 ,从理论上讲,蛋白质的 氨基酸序列应完全决定其结构。该假设引发了长达五年的探索,希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构,以作为这些昂贵且耗时的实验方法的补充选择。然而,一个主要的挑战是蛋白质在进入最终的3D结构之前在理论上可以折叠的方式是天文数字。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长。 典型蛋白质的10 ^ 300种可能构象。然而,在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠-这种二分法有时被称为 莱文塔尔悖论

CASP14评估结果

1994年,John Moult教授和Krzysztof Fidelis教授创立了CASP作为两年一次的盲目评估,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特全球社区。最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。它们不会提前发布。参与者必须盲目地预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。

CASP用来衡量预测准确性的主要指标是 全球距离测试(GDT)  ,范围为0-100。简单来说,GDT可以近似地认为是距正确位置的阈值距离内的氨基酸残基(蛋白质链中的小珠)的百分比。根据Moult教授的说法,大约90 GDT的分数被非正式地认为与通过实验方法获得的结果具有竞争力。

在今天发布的第14次CASP评估的结果中,我们最新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。这意味着我们的预测的平均误差(RMSD)约为1.6 ,可与原子的宽度(或0.1纳米)相比。即使对于最困难的蛋白质目标,也就是最具挑战性的自由建模类别中的蛋白质 ,AlphaFold的中值得分也达到87.0 GDT(可在此处获得数据)。

AlphaFold:解决有50年历史的蛋白质折叠生物学重大挑战

自由建模类别中蛋白质靶标的两个示例。ALPHAFOLD可以根据实验结果预测高度精确的结构。

这些令人振奋的结果为生物学家打开了将计算结构预测用作科学研究中的核心工具的潜力。我们的方法可能证明对重要的一类蛋白质(例如膜蛋白)特别有用,这些蛋白质很难结晶,因此很难通过实验确定。

这项计算工作代表了蛋白质折叠问题的惊人进展,这是一个已有50年历史的生物学重大挑战。几十年来,该领域的许多人已经预料不到。看到它将从根本上改变生物学研究的多种方式将是令人兴奋的。–VENKI RAMAKRISHNAN教授 诺贝尔奖获得者兼皇家学会主席

解决蛋白质折叠问题的方法

2018年首次使用 初始版本的AlphaFold进入 CASP13,该版本在参与者中获得了最高的准确性。之后,研究人员 发表 了一篇有关自然界中CASP13方法及相关 代码的论文,该论文继续启发了 其他工作 和社区开发的开源 实现。现在,他们开发的新的深度学习架构推动了CASP14方法的变化,使其能够实现无与伦比的准确性。这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感。

折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。对于CASP14上使用的最新版本的AlphaFold,作者创建了一个基于注意力的神经网络系统,端到端进行了培训,该系统试图解释该图的结构,同时对所构建的隐式图进行推理。它使用进化相关序列,多序列比对(MSA)和氨基酸残基对表示来完善此图。

通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

研究人员在可公开获得的数据上训练了该系统,该数据由来自蛋白质数据库的〜170,000种蛋白质结构  以及  包含未知结构蛋白质序列的大型数据库组成。它使用了约128个 TPUv3内核(大约相当于100-200个GPU),运行了几周,在当今机器学习中使用的大多数大型最新模型的情况下,这是相对适中的计算量。与CASP13 AlphaFold系统一样,研究人员正在准备有关该系统的论文,以适时提交给同行评审期刊。

93tp

主要神经网络模型架构概述。该模型对进化相关的蛋白质序列以及氨基酸残基对进行操作,在两个表示之间反复传递信息以生成结构。

对现实世界的潜在影响

DeepMind十年前开始时,我们希望有一天AI突破能够帮助我们进一步了解基础科学问题。现在,经过4年的构建AlphaFold的努力,我们开始看到这一愿景的实现,对药物设计和环境可持续性等领域产生了影响。

马克斯·普朗克发育生物学研究所所长,CASP评估员Andrei Lupas教授告诉我们,“ AlphaFold惊人的精确模型使我们能够解决近十年来被困的蛋白质结构,从而重新致力于了解信号如何跨细胞膜传输。”

我们对AlphaFold对生物学研究和更广阔的世界所产生的影响持乐观态度,并很高兴与他人合作以进一步了解其在未来几年的潜力。除了撰写经过同行评审的论文外,我们还在探索如何最好地以可扩展的方式提供对系统的更广泛访问。

同时,我们还研究了蛋白质结构预测如何与少数专家小组一起有助于我们对特定疾病的理解,例如,通过帮助鉴定出故障的蛋白质并推断其相互作用方式。这些见解可以使药物开发工作更加精确,从而补充现有的实验方法,从而更快地找到有希望的治疗方法。

AlphaFold是上一代产品中的佼佼者,以惊人的速度和精度预测蛋白质结构。这一飞跃证明了计算方法将如何转变生物学研究,并为加速药物发现过程具有广阔的前景。亚瑟·D·莱文森博士,CALICO创始人兼首席执行官,GENENTECH前董事长兼首席执行官

作为科学界开发的许多工具之一,我们也已经看到有迹象表明蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前未知。在CASP14,我们预测了另一种冠状病毒蛋白ORF8的结构。实验人员令人印象深刻的快速工作现在已经确认了ORF3aORF8的结构。尽管它们具有挑战性且相关序列很少,但与它们的实验确定的结构相比,我们在两个预测中均获得了很高的准确性。

除了加深对已知疾病的了解之外,我们对这些技术有潜力探索我们目前尚无模型的亿万种蛋白质的潜力感到兴奋-广阔的未知生物学领域。由于DNA指定了构成蛋白质结构的氨基酸序列,因此基因组学革命使得从自然界大规模读取蛋白质序列成为可能-拥有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中进行计数。相反,鉴于需要进行从序列到结构的实验工作,蛋白质数据库(PDB)中只有约170,000种蛋白质结构)。在尚未确定的蛋白质中,可能有一些具有令人兴奋的新功能,并且就像望远镜可以帮助我们更深入地了解未知的宇宙一样,像AlphaFold这样的技术也可以帮助我们找到它们。

释放新的可能性

AlphaFold是迄今为止我们最重要的进步之一,但是与所有科学研究一样,仍然有许多问题需要解答。并非我们预测的每个结构都是完美的。还有很多东西要学习,包括多种蛋白质如何形成复合物,它们如何与DNARNA小分子相互作用以及如何确定所有氨基酸侧链的精确位置。与他人合作,还有很多东西要学习如何在新药开发中最好地利用这些科学发现,如何管理环境等等。

对于我们所有致力于科学计算和机器学习方法的人来说,诸如AlphaFold之类的系统都证明了AI作为辅助基础发现工具的惊人潜力。就在50年前,Anfinsen提出了远远超出当时科学范围的挑战,而我们宇宙的许多方面仍然未知。今天宣布的进展使我们更加相信,人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一,我们期待着未来的多年努力和发现!

上一篇:

下一篇:


标签