蛋白质也有”涌现”?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

蛋白质也有

蛋白质也有”涌现”?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

一句话看懂:Biohub首席科学家Alex Rives团队发布开源蛋白质基础模型ESMC,用68亿条进化序列训练,性能超越所有开源同类模型,并验证了在蛋白质领域“Scaling Law”依然有效——投入更多数据,模型能力会涌现式提升。

事件核心:发生了什么

Alex Rives团队于近期发布了ESMC(ESM Cambrian),这是目前性能最强的开源蛋白质基础模型。该模型以MIT协议开源,训练数据包含68亿条非冗余蛋白质序列,覆盖了从深海热液喷口到南极冰层的宏基因组数据,而非传统生物学中受控实验的精选序列。团队同时发布了全球最大的蛋白质结构预测图谱,涵盖1.1亿个聚类中心的结构预测。

与上一代ESM2相比,参数量相近(最大60亿参数),但ESMC通过数据升级彻底消除了此前出现的Scaling收益递减现象——此前被认为“参数越多效果越差”的瓶颈,被证明是数据不足而非算法或算力问题。

为什么重要

这项成果从两个层面颠覆了AI蛋白质研究的认知。第一,它用确凿的证据表明,在蛋白质领域Scaling轮子尚未停止转动——可用蛋白质序列总量约1000亿条,远未到天花板,这意味着未来模型性能仍有巨大提升空间。第二,它验证了自然语言模型的经验法则同样适用于生物语言:模型在预测氨基酸“下一个token”时,会自发学习到与人类生物学认知高度一致的层级特征空间,甚至发现了现有科学体系无法解释的新聚类(可能为新型基因编辑系统)。

这对AlphaFold类结构预测方法构成直接挑战。AlphaFold依赖多序列比对(MSA),在抗体设计等多样性目标上表现不佳;而ESMC通过学习全蛋白质空间的本质特征,无需MSA即可找到亲和力达到治疗级别的抗体,效果超越所有开源方法。

对用户/开发者/创作者的影响

对AI+生物学研究者:ESMC以MIT协议开源,意味着学术和工业团队可直接下载使用,无需支付商用授权费,大幅降低了AI辅助蛋白质设计的门槛。特别是在抗体设计、蛋白质-蛋白质相互作用预测(多聚体预测达到开源最高水平)等场景,开发者可以用更少的实验验证成本快速筛选候选分子。

对AI基础设施玩家:当前Scaling的最大瓶颈是算力,不是数据或算法。全球1000亿条可用序列中,只有不到10%被有效训练。这暗示AI芯片和大规模分布式计算的需求将长期存在,云服务商和算力租赁平台可能受益。

对药物研发企业:ESMC的单链抗体(scFv)搜索成功率极高,可显著降低早期药物发现的试验次数和时间成本。但需注意,当前模型主要覆盖进化层面信息,对于细胞内动态、多模态信号通路等复杂生物学问题,仍需配套实验验证,距离“虚拟细胞”愿景还有较大差距。

值得关注的后续

  • ESMC开源后,能否快速获得社区验证并催生新的蛋白质设计应用?其抗体设计的真实成功率需在更多独立数据集上复现。
  • Biohub已投入5亿美元推进“虚拟生物学”计划,其中4亿美元用于内部数据生产,1亿美元用于外部合作。未来2-3年,大规模细胞干预测量数据的产出是否会对齐模型训练需求,将决定是否能跨越当前“虚拟细胞无法泛化”的瓶颈。
  • Meta AI在2018年就已启动ESM项目,如今Alex Rives团队独立运营Biohub并继续主导研发,后续该系列模型是否会与Meta的LLAMa生态产生协同,或形成独立AI生物技术生态,值得跟踪。

来源:虎嗅 (Huxiu)

celebrityanime
celebrityanime
文章: 5943

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注