“AlphaFold 3”要来了?DeepMind 推新蛋白质结构预测工具设计药物
▼
约五年前 Google 最多产 AI 研究实验室 DeepMind 推出 AlphaFold,是能准确预测蛋白质结构的人工智慧系统。
之后DeepMind继续改善,2020年发表功能更强大的AlphaFold版:AlphaFold 2。
而DeepMind继续努力,10月31日宣布最新版AlphaFold出炉,不少人暂时称之“AlphaFold 3”。
最新AlphaFold由DeepMind及衍生公司Isomorphic Labs(专注AI开发药物)共同开发,不再局限蛋白质折叠,还能于配体、蛋白质、核酸及翻译后修饰等产生高精确度结构预测。Isomorphic Labs已将系统用于药物开发。不过最新版AlphaFold 3还是预览阶段,开发进行中。
AlphaFold新版升级哪些地方?
第一大升级:预测蛋白质资料库(PDB)多数分子结构,达原子精准度。
DeepMind说AlphaFold可预测蛋白质资料库(广泛使用的科学资料库)几乎所有分子结构。DeepMind称模型通常以“原子精准度”产生预测。AlphaFold新版不仅可估计蛋白质形状,还可估算其他生物分子形状,如小分子(配体)、蛋白质、核酸(DNA和RNA)、翻译后修饰(PTM)分子。
第二大升级:预测配体结构。
配体指不同分子与蛋白质结合,导致蛋白质功能改变。配体于细胞讯号传导有重要作用,细胞讯号传导是细胞相互影响的关键生物过程。之一是配体附着或结合蛋白质时,组合结构称为“蛋白质─配体复合物”。研究员使用“对接”法评估复合物形状,但限制是只有大量蛋白质─配体复合物的蛋白质组成数据可用时,才能用这种方法。
DeepMind说新版AlphaFold比“对接”法更准确预测蛋白质─配体复合物的形状。AlphaFold新版需要资料少得多。DeepMind最新模型为蛋白质─配体结构预测设定新标准,性能更比传统法高约20%,还能预测未进行结构表征的全新蛋白质。AlphaFold新版可能使科学家更容易研究新发现的蛋白质─配体复合物,这些复合物的资讯很少,能帮助科学家辨识和设计潜在药物新分子。
Isomorphic Labs公布三个案例:抗癌分子结合(PORCN)、关键癌症标靶的共价配体结合(KRAS)、脂质激酶变构抑制剂(PI5P4K)结构预测。结果显示,模型预测结构与案例测定结构非常接近。这引起学者和药厂注意。有人在社群媒体表示:“设计新分子比开发工具更重要,开发类似工具的人可能要改行,毕竟设计新高价值的分子才是更好的生财之道。”
不过有人希望新版功能再提升:很多时候,最新AlphaFold相对准确率(RMSD误差<2A)也只有50%~60%,这对药物设计来说往往有很多问题。更进一步说,蛋白质和小分子复合物的结构预测,应结合AI和CADD两种方法,分别基于资料库和物理原理。
第三大升级:预测核酸、以及翻译后修饰结构。
核酸是关键遗传讯息的携带者,破解翻译后修饰──即蛋白质诞生后发生的化学变化。如CasLambda与crRNA及DNA结合的结构,CasLambda共享CRISPR-Cas9系统的基因编辑能力,通常称为“基因剪刀”,研究员可利用改变动植物和微生物DNA,CasLambda较小尺寸可能使基因编辑时更有效。
据某药物设计公司创办人评价:做核酸药物的人有福了,至少有结果。不过结果是否准确,还需找有经验的CADD(电脑辅助药物设计)研究员评估。也有人指出“我更关心Alphafold 3是否可预测病毒蛋白质结构。AFDB(资料库)有很多预测结构,几乎涵盖所有物种,但没有病毒。且新版RNA结构预测还不太好。”
至少AlphaFold 3的表现,DeepMind和Isomorphic Labs研究员透露:
- 考虑到比较系统使用已知蛋白质结构为基础,AlphaFold 3配体对接准确性优于开源分子建模模拟软件AutoDock Vina等传统系统。
- 与AlphaFold 2.3相比,AlphaFold 3预测蛋白质─蛋白质结构,抗体结合结构明显增强。
- 蛋白质─核酸交互作用方面,AlphaFold 3优于其他方法,如RoseTTA2FoldNA等。
- RNA结构预测,AlphaFold 3优于自动化技术,但略低于顶级CASP 15参赛者,后者涉及专家手动干预。
但DeepMind部落格文章并没有详细介绍新版,也没有比较薛丁格的方法。这可能有关商业机密。从表面看,AlphaFold 3功能都有大幅提升,如果真如DeepMind所说,新模型扩展功能和性能提升可加速生物医学突破,为疾病、基因组学、生物可再生材料、植物免疫、潜在治疗标靶、药物设计机制提供新可能性。
AlphaFold 3能否继续开源?
AlphaFold最新版推出不到两天,就有不少人期盼望继续开源,“因学术界蛋白质研究空前高涨”。典型例子是OpenAI ChatGPT在2022年底亮相时席卷全球,但2022年引用最多的论文并非生成式人工智慧(AIGC),甚至不是大型科技公司论文,而是欧洲分子生物学实验室(EMBL-EBI)和DeepMind的〈AlphaFold蛋白质结构资料库〉,引用次数为1,331次。引用量第二同属“蛋白质折叠模型”──ColabFold,由马克斯普朗克多学科科学研究所(MPG)打造,引用次数为1,138次。
尽管企业界说2022年为“生成式人工智慧年”,但学术界认为:2022年绝对是“蛋白质折叠预测年”。
“Alphafold有三项以上专利,这不是理所当然,也不是常态。不过AF历代版确实是生物领域最先进工具,没有之一。”更有人指出,“闭源不是最好解决方案,为什么多数地区都倾向用AlphaFold?我有点怀疑多数地区是否有人才和预算,开发AlphaFold和蛋白质资料库等东西。”
DeepMind于A1lphaFold 3发表当天披露,累积超过140万用户(190多国)存取AlphaFold蛋白质结构资料库,但将来“AlphaFold 3”能否真正推动药物开发,还有待时间验证。
- Performance and structural coverage of the latest, in-development AlphaFold model
(本文由 雷锋网 授权转载;首图来源:Buildington, CC0, via Wikimedia Commons)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。