AI+ 生物论文 | ICLR 2026 | 利用生成式预训练和测试时计算扩展原子级蛋白质结合剂设计

一句话看懂：NVIDIA、牛津大学等团队在 ICLR 2026 提交的论文中提出了 Proteina-Complexa，一种统一了“生成式”与“幻觉式”两大对立范式的蛋白质结合剂设计方法。该方法通过大规模合成数据集预训练和测试时计算优化，在计算机模拟成功率上显著超越现有标杆，并展示了在小分子靶标和酶设计上的扩展性。

事件核心：发生了什么

蛋白质结合剂设计传统上分为两个对立学派：一是“生成式方法”（如 RFDiffusion），依赖在实验结构数据上训练条件生成模型采样新序列；二是“幻觉方法”（如 BindCraft），以 AlphaFold2 的置信度分数作为奖励信号，直接对序列进行梯度优化。前者受限于高质量 PDB 二聚体数据的极度稀缺（仅约 4.6 万条），后者则缺少先验知识，优化过程昂贵且不稳定。

本文提出的 Proteina-Complexa 融合了两者优势。其核心由三部分构成：1）一个基于 flow matching 的全原子生成基座模型（La-Proteina），将序列、全原子坐标与结构信息压缩为连续隐变量；2）利用大规模合成数据集 Teddymer（从 AlphaFold DB 中自 4718 万预测结构按结构域拆解并筛选出约 51 万高质量“人工二聚体”）进行预训练，作者提供消融实验表明，去掉 Teddymer 后模型完全不可用；3）在推理阶段采用类似 o1/R1 的测试时计算扩展策略，包括 Beam Search、Feynman-Kac Steering 和 MCTS，系统性地搜索高置信度结合剂，而非盲目采样。

论文在标准基准测试中，Proteina-Complexa 的成功率显著高于现有生成式方法及其推理优化策略。此外，它通过 LoRA 微调，在 PLINDER 小分子靶标数据和酶设计任务中也展现出更强的性能。

为什么重要

这项工作的意义在于用技术事实证明，AI 在生物分子设计领域面临的天生结构矛盾——离散序列与连续几何的耦合、数据稀缺导致的先验不足——并非只能通过非此即彼的选择来解决。作者直接指出，LLM 领域早已给出了答案：不是“预训练”或“搜索”二选一，而是将预训练的生成先验与推理时的计算扩展融合进同一个框架。这与 o1/R1 模型的逻辑高度同构，意味着 AI+生命科学正在经历与 NLP 类似的范式转变：从专注于单步生成能力的模型，转向能够通过增加推理计算量来提升问题求解质量的“新一代”模型。

具体来说，合成数据策略 Teddymer 为行业提供了一套可复制的经验：从大规模预测结构中合理提取子结构关系来扩充训练数据，并通过严格的消融与替换独立评估器来验证其有效性，而非依赖理论证明。对于整个蛋白设计社区，这预示着“合成数据 + 强大基座模型 + 推理时搜索”将成为新的标准工作流。

对用户/开发者/创作者的影响

对于从事抗体/蛋白药物发现的研究者与工程师：Proteina-Complexa 提供了一个可以直接使用的开源代码和模型（基于 NVIDIA 研究实验室）。这意味着无需从头构建生成模型与搜索算法，即可获得一个“开箱即用”的统一框架。开发者可以基于预训练权重，针对自身靶点或特定任务（如小分子靶标、酶设计）进行 LoRA 微调，替代目前手动的 ProteinMPNN 重设计或高成本的进化搜索流程，大幅缩短从靶标到候选结合剂的周期。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于 AI 基础设施与算力平台：本文明确验证了“测试时计算扩展”在蛋白质设计中的有效性，这将对算力需求产生重要影响。开发者需要核算是投入更多 GPU 做推理时搜索（如 Beam Search 需在每一步解码并运行折叠器），还是投入更多训练算力提升基座模型。NVIDIA 的做法暗示，在生物分子设计领域，推理侧算力将成为一个可衡量的优化空间，而不仅仅是以往的批量采样。

值得关注的后续

1. 物理真实性的验证数据何时公布？目前所有评价基于计算机模拟成功率（如结构预测器的 ipAE 评分），尚缺乏湿实验验证。这是领域常规流程，但关注点在于：若这类统一框架能通过测试实验室验证，将极大加速从计算设计到候选分子的转化。

2. 合成数据作为训练标配是否会引发质量争议？Teddymer 的构建策略依赖于 AlphaFold DB 预测结构，虽然作者已通过替换评估器（如 RF3 或 Boltz-2）控制过拟合风险，但未来更多团队复现时，合成数据的质量控制标准是否需要形成行业共识？

3. 推理时计算成本是否会成为实际部署的瓶颈？论文中提到，Complexa 的生成足够快（约 15 秒/样本），使得完全去噪搜索可行。但对于需要大规模候选筛库的场景，MCTS 等搜索算法的时间成本是否会限制其在高通量管线中的应用？后续需要关注开源实现的优化程度以及是否提供 API 服务。

来源：Readhub · AI

AI+ 生物论文 | ICLR 2026 | 利用生成式预训练和测试时计算扩展原子级蛋白质结合剂设计

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

人工智能热潮中的资金追逐将目光投向了债券市场的一个新领域

State Farm 全面修订代理合同，强制要求使用人工智能

一位曾任职于谷歌、并创立了character.AI的资深员工即将加入OpenAI

发表回复取消回复