照亮整个蛋白质宇宙:DeepMind“顺手”放大招,要一举攻下渐冻人症
▼
罕见疾病渐冻人症陪伴传奇物理学家史蒂芬霍金终生,也困扰医界和生物学家数十年。而答案可能就是核孔蛋白(neucleoporins)。
学者认为渐冻人症和核孔蛋白组成的核孔复合体有强关联,复合体控制细胞核与细胞质的物质传递,如能更了解核孔蛋白,就有可能找到根治渐冻人症的答案。
然而想找到答案不容易:核孔复合体由超过1千条的30多种核孔蛋白组成,以极复杂的方式相互交错,更别提单条蛋白大小可能只有数奈米,即便用最先进显微技术也很难观察,造成生物学家极大障碍。
2019年加入哈佛大学吴皓实验室的Pietro Fontana,就分配到核孔蛋白这天文级难题。他不是第一个想克服的人,前人已用尽各种手段,付出数十年心血却无功而返,但Fontana有强棒在手──AlphaFold,知名人工智慧公司DeepMind开发的蛋白质预测模型。
没多久在AlphaFold帮助下,Fontana就取得关键进展:不仅成功预测没探究清楚的核孔蛋白结构,还首次绘出核孔复合体胞质环(cytoplasmic ring)模型图,研究论文刚登上《科学》期刊。
▲ AlphaFold协助预测的核孔蛋白组成的胞质环。(Source:论文)
此历史性生物资讯学突破,为治愈渐冻人症等罕见、难治神经退化性疾病找到一丝希望。“我认为AlphaFold完全改变结构生物学”,Fontana表示。但这么重要的发现和研究,对AlphaFold来说只像“顺手帮一下”。
蛋白质资料库千倍扩容,成为“蛋白质宇宙”
截至目前地球已知生物共2.14亿种蛋白质,AlphaFold都预测出结构了。DeepMind进展速度之快,AlphaFold效果之好,远超过“令人震惊”程度。去年首次发表并开源AlphaFold模型,当时只预测出人类98%及约1万种生物部分蛋白质,条数只有100万左右,就入选《自然》年度十大科学事件。一年后资料库竟然扩充200倍:
更厉害的是,资料库涵盖动物、植物、细菌、真菌等几乎所有科学有纪录的约100万物种。80%预测结构结果可信度足够支援研究实验,更有35%结果可信度高。
此次AlphaFold放出的“全量蛋白质结构预测资料库”,和之前人类手工测量的资料库相比,内容相差1千倍,以前标准实验测量的蛋白质结构,都存在“蛋白质数据银行”(PDB)资料库,条目只有19万。这简直是为结构生物学、生物资讯学、医药开发等领域送上惊天大礼──更别提资料库完全免费、开放、可搜寻。
最新版AlphaFold资料库,超过99%蛋白质结构之前都是未知。现在人类对蛋白质结构的知识突然200倍增长,可想而知更多生物学和医学进展将更频繁,许多肆虐几百年的疾病有望“根治”,许多延续几十年的生物学难题也将破解。
The Scripps Research Institute创始人Eric Topol直言:
AlphaFold照亮几乎整个蛋白质宇宙。
几分钟破解世界级生物难题
很多细菌能让人生病,为了压制细菌,人类发明抗生素。然而细菌是微生物,能自己进化获得抵抗抗生素的能力,结果就是人们以为“无害”、已克服的病原体突然又成为人类大敌。如大痳疯,接种疫苗只有有限预防效果,现在仍在全球传播,感染数十万人,且需长期吃药治疗。
美国科罗拉多大学博尔德分校两位生物学家Marcelo Sousa和Megan Mitchel,希望以治本方式解决抗生素抗药性。生物化学系教授Marcelo Sousa透露,研究目标是定位产生抗药性的酶链,了解酶的蛋白质结构,然后“定点精准打击”。
然而分离和提出酶非常困难,就算提得出来,研究者想了解结构更难上加难。预测蛋白质结构过去需透过X射线晶体衍射、冷冻电镜等实验室技术,基本上只能人工进行,Sousa等人已花费十年研究,不知道还要多久──如果AlphaFold没出现。
▲Marcelo Sousa和Megan Mitchel。
透过AlphaFold基准预测模型,结合团队从提出酶晶体的数据,酶序列和结构预测大获成功。AlphaFold帮助下,不仅预测速度大提升,结果准确度更十分精确。
“这难题花了我们十年都做不到,现在居然只花30分钟就解决了!”Sousa对AlphaFold赞不绝口。接下来团队可继续透过AlphaFold预测结果,研究这条酶链在抗药性形成扮演的角色,并找到突破点。“我们已了解这链中各种酶,现在我们只要打破其中一环,就可破解整个抗药性难题。”Mitchel表示。
Sousa则说AlphaFold将对新药发现有非常大的积极效果。
▲Marcelo Sousa展示AlphaFold预测的目标酶蛋白质结构。
这只是AlphaFold帮忙解决的“小事”之一。DeepMind透露,全球有超过50万研究人员使用AlphaFold资料库,前所未有的蛋白质结构预测数据用于寻找渐冻人等不治之症的疗法、彻底解决大痳疯和血吸虫病肆虐、发现新药、保护农业、开发高效降解塑胶的杀手锏等。
“希望资料库帮助更多科学家,并在科学探索开启全新道路”,DeepMind创始人兼CEO Demis Hassabis表示,“就像数学是物理学的完美语言,我们相信AI是应付生物学复杂问题的完美工具”。
附录:AlphaFold大事记
2016年:一队成为明星,另一队开始组建
当年DeepMind围棋AI程式AlphaGo击败南韩知名职业棋士李世乭,关键性事件证明DeepMind AI技术够先进,可能解决其他科学挑战,如蛋白质折叠。不久后DeepMind就成立小团队,尝试使用深度神经网络预测蛋白质结构。
2018年:AlphaFold性能首次公开测试
AlphaFold性能在CASP13蛋白质结构预测比赛第一,随后发表于《自然》期刊。 DeepMind扩编AlphaFold团队,正式开始打造新AI系统。
2020年:解决生物学50年难题
AlphaFold在CASP14蛋白质结构预测比赛再次以三倍优势胜出,且准确性接近X射线晶体衍射、冷冻电镜等标准实验法。这次比赛AlphaFold取得CASP主办方认定,破解50年未解的蛋白质折叠难题。《自然》直接评价“改变一切”。
(Source:CASP)
12月Demis Hassabis和AlphaFold专案主管John Jumper承诺,开源AlphaFold。
2021年:边创造历史边全面开源
DeepMind去年兑现开源AlphaFold的承诺。《自然》论文公开AlphaFold研发过程,并开放原始码,提供60页详细补充资料。
7月DeepMind再次发表论文,展示AlphaFold成功预测全部人类蛋白质组,让已知高确信度人类蛋白质结构数量多一倍。DeepMind和欧洲分子生物学实验室 (EMBL-EBI)合作公开资料库,包括人类蛋白质组及20种模式生物(广泛研究生物)蛋白质组,超过35万条。
10月DeepMind发表修改版子模型,名为AlphaFold-Multimer,预测蛋白质复合物结构。11月子模型程式码整合到AlphaFold二代程式码,提高多链蛋白质结构预测准确度。
12月DeepMind增加AlphaFold资料库超过40万条蛋白质结构。
2022年:资料库持续增长
1月DeepMind宣布超过30万研究者使用AlphaFold资料库,并添加超过27个蛋白质组,总计超过19万条蛋白质结构预测数据。这次添加的重要性在于17个蛋白质组都和不受重视的热带疾病有关,却影响全球十多亿人。
7月DeepMind将AlphaFold资料库从近100万条扩展到2.14亿条,涵盖人类已知大多数蛋白质(即UniProt蛋白质资料库大部分内容)。
(本文由 品玩 授权转载;图片来源:DeepMind)
延伸阅读:
- DeepMind 发表人类蛋白质组预测图,重要性堪比人类基因组
- DeepMind AI 预测展现惊人准确度,蛋白质折叠难题有解?
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。