“AlphaFold 3”要来了？DeepMind 推新蛋白质结构预测工具设计药物

▼

约五年前 Google 最多产 AI 研究实验室 DeepMind 推出 AlphaFold，是能准确预测蛋白质结构的人工智慧系统。

之后DeepMind继续改善，2020年发表功能更强大的AlphaFold版：AlphaFold 2。

而DeepMind继续努力，10月31日宣布最新版AlphaFold出炉，不少人暂时称之“AlphaFold 3”。

最新AlphaFold由DeepMind及衍生公司Isomorphic Labs（专注AI开发药物）共同开发，不再局限蛋白质折叠，还能于配体、蛋白质、核酸及翻译后修饰等产生高精确度结构预测。Isomorphic Labs已将系统用于药物开发。不过最新版AlphaFold 3还是预览阶段，开发进行中。

AlphaFold新版升级哪些地方？

第一大升级：预测蛋白质资料库（PDB）多数分子结构，达原子精准度。

DeepMind说AlphaFold可预测蛋白质资料库（广泛使用的科学资料库）几乎所有分子结构。DeepMind称模型通常以“原子精准度”产生预测。AlphaFold新版不仅可估计蛋白质形状，还可估算其他生物分子形状，如小分子（配体）、蛋白质、核酸（DNA和RNA）、翻译后修饰（PTM）分子。

第二大升级：预测配体结构。

配体指不同分子与蛋白质结合，导致蛋白质功能改变。配体于细胞讯号传导有重要作用，细胞讯号传导是细胞相互影响的关键生物过程。之一是配体附着或结合蛋白质时，组合结构称为“蛋白质─配体复合物”。研究员使用“对接”法评估复合物形状，但限制是只有大量蛋白质─配体复合物的蛋白质组成数据可用时，才能用这种方法。

DeepMind说新版AlphaFold比“对接”法更准确预测蛋白质─配体复合物的形状。AlphaFold新版需要资料少得多。DeepMind最新模型为蛋白质─配体结构预测设定新标准，性能更比传统法高约20%，还能预测未进行结构表征的全新蛋白质。AlphaFold新版可能使科学家更容易研究新发现的蛋白质─配体复合物，这些复合物的资讯很少，能帮助科学家辨识和设计潜在药物新分子。

Isomorphic Labs公布三个案例：抗癌分子结合（PORCN）、关键癌症标靶的共价配体结合（KRAS）、脂质激酶变构抑制剂（PI5P4K）结构预测。结果显示，模型预测结构与案例测定结构非常接近。这引起学者和药厂注意。有人在社群媒体表示：“设计新分子比开发工具更重要，开发类似工具的人可能要改行，毕竟设计新高价值的分子才是更好的生财之道。”

不过有人希望新版功能再提升：很多时候，最新AlphaFold相对准确率（RMSD误差<2A)也只有50%~60%，这对药物设计来说往往有很多问题。更进一步说，蛋白质和小分子复合物的结构预测，应结合AI和CADD两种方法，分别基于资料库和物理原理。

第三大升级：预测核酸、以及翻译后修饰结构。

核酸是关键遗传讯息的携带者，破解翻译后修饰──即蛋白质诞生后发生的化学变化。如CasLambda与crRNA及DNA结合的结构，CasLambda共享CRISPR-Cas9系统的基因编辑能力，通常称为“基因剪刀”，研究员可利用改变动植物和微生物DNA，CasLambda较小尺寸可能使基因编辑时更有效。

据某药物设计公司创办人评价：做核酸药物的人有福了，至少有结果。不过结果是否准确，还需找有经验的CADD（电脑辅助药物设计）研究员评估。也有人指出“我更关心Alphafold 3是否可预测病毒蛋白质结构。AFDB（资料库）有很多预测结构，几乎涵盖所有物种，但没有病毒。且新版RNA结构预测还不太好。”

至少AlphaFold 3的表现，DeepMind和Isomorphic Labs研究员透露：

考虑到比较系统使用已知蛋白质结构为基础，AlphaFold 3配体对接准确性优于开源分子建模模拟软件AutoDock Vina等传统系统。
与AlphaFold 2.3相比，AlphaFold 3预测蛋白质─蛋白质结构，抗体结合结构明显增强。
蛋白质─核酸交互作用方面，AlphaFold 3优于其他方法，如RoseTTA2FoldNA等。
RNA结构预测，AlphaFold 3优于自动化技术，但略低于顶级CASP 15参赛者，后者涉及专家手动干预。

但DeepMind部落格文章并没有详细介绍新版，也没有比较薛丁格的方法。这可能有关商业机密。从表面看，AlphaFold 3功能都有大幅提升，如果真如DeepMind所说，新模型扩展功能和性能提升可加速生物医学突破，为疾病、基因组学、生物可再生材料、植物免疫、潜在治疗标靶、药物设计机制提供新可能性。

AlphaFold 3能否继续开源？

AlphaFold最新版推出不到两天，就有不少人期盼望继续开源，“因学术界蛋白质研究空前高涨”。典型例子是OpenAI ChatGPT在2022年底亮相时席卷全球，但2022年引用最多的论文并非生成式人工智慧（AIGC），甚至不是大型科技公司论文，而是欧洲分子生物学实验室（EMBL-EBI）和DeepMind的〈AlphaFold蛋白质结构资料库〉，引用次数为1,331次。引用量第二同属“蛋白质折叠模型”──ColabFold，由马克斯普朗克多学科科学研究所（MPG）打造，引用次数为1,138次。

尽管企业界说2022年为“生成式人工智慧年”，但学术界认为：2022年绝对是“蛋白质折叠预测年”。

“Alphafold有三项以上专利，这不是理所当然，也不是常态。不过AF历代版确实是生物领域最先进工具，没有之一。”更有人指出，“闭源不是最好解决方案，为什么多数地区都倾向用AlphaFold？我有点怀疑多数地区是否有人才和预算，开发AlphaFold和蛋白质资料库等东西。”

DeepMind于A1lphaFold 3发表当天披露，累积超过140万用户（190多国）存取AlphaFold蛋白质结构资料库，但将来“AlphaFold 3”能否真正推动药物开发，还有待时间验证。

Performance and structural coverage of the latest, in-development AlphaFold model

（本文由雷锋网授权转载；首图来源：Buildington, CC0, via Wikimedia Commons）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI DeepMind Google 人工智慧

AlphaFold新版升级哪些地方？

AlphaFold 3能否继续开源？

相关文章