蛋白质也有”涌现”？Biohub首席科学家：下一个AlphaFold在这里，用68亿条进化序列，训练出蛋白质科学史上最强生物语言模型

一句话看懂：Biohub首席科学家Alex Rives团队发布开源蛋白质基础模型ESMC，用68亿条进化序列训练，性能超越所有开源同类模型，并验证了在蛋白质领域“Scaling Law”依然有效——投入更多数据，模型能力会涌现式提升。

事件核心：发生了什么

Alex Rives团队于近期发布了ESMC（ESM Cambrian），这是目前性能最强的开源蛋白质基础模型。该模型以MIT协议开源，训练数据包含68亿条非冗余蛋白质序列，覆盖了从深海热液喷口到南极冰层的宏基因组数据，而非传统生物学中受控实验的精选序列。团队同时发布了全球最大的蛋白质结构预测图谱，涵盖1.1亿个聚类中心的结构预测。

与上一代ESM2相比，参数量相近（最大60亿参数），但ESMC通过数据升级彻底消除了此前出现的Scaling收益递减现象——此前被认为“参数越多效果越差”的瓶颈，被证明是数据不足而非算法或算力问题。

为什么重要

这项成果从两个层面颠覆了AI蛋白质研究的认知。第一，它用确凿的证据表明，在蛋白质领域Scaling轮子尚未停止转动——可用蛋白质序列总量约1000亿条，远未到天花板，这意味着未来模型性能仍有巨大提升空间。第二，它验证了自然语言模型的经验法则同样适用于生物语言：模型在预测氨基酸“下一个token”时，会自发学习到与人类生物学认知高度一致的层级特征空间，甚至发现了现有科学体系无法解释的新聚类（可能为新型基因编辑系统）。

这对AlphaFold类结构预测方法构成直接挑战。AlphaFold依赖多序列比对（MSA），在抗体设计等多样性目标上表现不佳；而ESMC通过学习全蛋白质空间的本质特征，无需MSA即可找到亲和力达到治疗级别的抗体，效果超越所有开源方法。

对用户/开发者/创作者的影响

对AI+生物学研究者：ESMC以MIT协议开源，意味着学术和工业团队可直接下载使用，无需支付商用授权费，大幅降低了AI辅助蛋白质设计的门槛。特别是在抗体设计、蛋白质-蛋白质相互作用预测（多聚体预测达到开源最高水平）等场景，开发者可以用更少的实验验证成本快速筛选候选分子。

对AI基础设施玩家：当前Scaling的最大瓶颈是算力，不是数据或算法。全球1000亿条可用序列中，只有不到10%被有效训练。这暗示AI芯片和大规模分布式计算的需求将长期存在，云服务商和算力租赁平台可能受益。

对药物研发企业：ESMC的单链抗体（scFv）搜索成功率极高，可显著降低早期药物发现的试验次数和时间成本。但需注意，当前模型主要覆盖进化层面信息，对于细胞内动态、多模态信号通路等复杂生物学问题，仍需配套实验验证，距离“虚拟细胞”愿景还有较大差距。

值得关注的后续

ESMC开源后，能否快速获得社区验证并催生新的蛋白质设计应用？其抗体设计的真实成功率需在更多独立数据集上复现。
Biohub已投入5亿美元推进“虚拟生物学”计划，其中4亿美元用于内部数据生产，1亿美元用于外部合作。未来2-3年，大规模细胞干预测量数据的产出是否会对齐模型训练需求，将决定是否能跨越当前“虚拟细胞无法泛化”的瓶颈。
Meta AI在2018年就已启动ESM项目，如今Alex Rives团队独立运营Biohub并继续主导研发，后续该系列模型是否会与Meta的LLAMa生态产生协同，或形成独立AI生物技术生态，值得跟踪。

来源：虎嗅 (Huxiu)

蛋白质也有”涌现”？Biohub首席科学家：下一个AlphaFold在这里，用68亿条进化序列，训练出蛋白质科学史上最强生物语言模型