AI预测蛋白质结构的数据库可能改变生物学
最近,两个团队公布了计算机科学家、生物学家和物理学家多年工作的成果:先进的建模程序,可以预测蛋白质和一些分子复合物的精确三维原子结构。其中一个研究团队报告说,他们使用新开发的人工智能 (AI) 程序解决了人类和 20 种模式生物(如大肠杆菌、酵母和果蝇)的 350,000 种蛋白质结构。在接下来的几个月里,他们计划将所有编目蛋白质都包括在模型蛋白质列表中,大约有 1 亿个分子。
“这真是太神奇了。”马里兰大学蛋白质折叠专家约翰莫尔特说,他每两年举办一次名为“关键蛋白质结构预测方法”(CASP)的竞赛。 Moult 说,几十年来,结构生物学家一直梦想有一天,精确的计算机模型将增加通过 X 射线晶体学等实验方法获得的极其精确的蛋白质形状的数量。 “我从没想过这个梦想会成真。”莫尔说。
这个名为 AlphaFold 的模型是 DeepMind 研究人员的成果,DeepMind 是一家英国人工智能公司,隶属于谷歌母公司 Alphabet。 2020 年秋季,AlphaFold 以 92.4 的中位准确率(满分 100)横扫 CASP 竞争,遥遥领先于竞争对手。
但是DeepMind的研究人员没有透露他们理论上是如何绘制蛋白质形状的细节,尤其是AlphaFold的底层计算机代码。这让其他团队感到沮丧,因为他们无法根据这一进展继续前进。
但这种情况已经开始改变。 7 月 15 日,西雅图华盛顿大学的 Minkyung Baek 和 David Baker 研究小组报告说,他们创建了一个名为 RoseTTAFold 的高度准确的蛋白质结构预测程序,并公开发布了该程序。相关结果在线发表于《科学》。
同一天,Nature 发表了 DeepMind 研究人员 Demis Hassabis 和 John Jumper 的研究团队撰写的论文,并公布了 AlphaFold 的细节。
这两个程序都使用人工智能来识别庞大的蛋白质结构数据库中的折叠模式。这些程序通过考虑蛋白质中相邻氨基酸相互作用的基本物理和生物学规则来计算未知蛋白质的最可能结构。论文显示,Baek 和 Baker 使用 RoseTTAFold 创建了一个结构数据库,其中包含数百个 G 蛋白偶联受体(一种常见的药物靶点)。
而 DeepMind 的研究人员在 Nature 上报道称,他们创建了 350,000 个预测结构,是之前实验方法获得的结果的两倍多。研究人员表示,AlphaFold 产生了近 44% 的人类蛋白质结构,涵盖了人类基因组编码的近 60% 的氨基酸。 AlphaFold 确定许多其他人类蛋白质是“无序的”,这意味着它们的形状不是单一结构。贝克说,当这些无序的蛋白质与蛋白质伴侣结合时,它们最终可能会采用某种结构。加州大学旧金山分校的结构生物学家戴维·阿加德 (David Agard) 表示,他们也可能自然而然地采用多种结构。
DeepMind 与欧洲分子生物学实验室(EMBL)合作建立了一个新的蛋白质预测数据库,该数据库可以免费在线访问。 “能够提供这种服务真是太好了。”贝克说,“这将真正加快研究的步伐。”
因为蛋白质的 3D 结构在很大程度上决定了它的功能,这个 A 数据库使生物学家能够阐明数千种未知蛋白质的工作原理。
DeepMind 的合作者表示,AlphaFold 促进了新酶的开发,这些酶可以更快地分解环境中的塑料,并为开发治疗被忽视疾病的药物带来新的可能性。 “这是自绘制人类基因组以来最重要的数据集之一。” EMBL 欧洲生物信息学研究所所长 Ewan Birney 说。
Baek 说这些预测将帮助实验者解决结构问题。来自 X 射线晶体学和冷冻电子显微镜实验的数据可能难以解释,模型会有所帮助。
来源:中国生物技术网
下一篇:没有了