
一句话看懂:2025 年 6 月 18 日,阿里联合中国人民大学发布并开源了 LOGOS,这是业界首个基于统一“科学语法”的多领域科学生成基础模型。它用 1B 参数量(仅为微软 NatureLM 的 1/56),在六项科学任务上跨越式超越后者,核心创新在于将蛋白质、小分子等异质科学对象编码为统一 Token 序列,实现形式与训练目标完全对齐,从而消除预训练与下游应用之间的 gap。
事件核心:发生了什么
阿里 ATH-Token Foundry 与人大高瓴人工智能学院今日宣布正式开源 LOGOS(Language Of Generative Objects in Science)。该模型构建了包含 7 类模态、共 44.87B tokens 的预训练语料库,涵盖蛋白质(28.9B tokens)、抗体(3.0B tokens)、小分子(2.1B tokens)、化学反应与 MOF 材料(0.47B tokens)、蛋白质口袋(5.8B tokens)及蛋白口袋-配体复合物(4.6B tokens)。
核心突破在于设计了一套“共享词表”,将原本无法直接对话的蛋白质、小分子、材料等异构对象全部编码为统一离散 Token 序列,并通过“文字描述法”将 3D 空间接触模式语法化为离散 Token,完全抛弃了传统依赖显式 3D 坐标和复杂几何神经网络的方式。在六项代表性科学任务上,LOGOS 以纯序列建模范式一致性地匹配或超越了领域专用方法,其中 LOGOS-1B 以 1B 参数量超越微软 8×7B 参数的 NatureLM,参数效率提升超过 56 倍。
模型权重、推理代码与技术报告已在 HuggingFace、GitHub 及 arxiv 上完整开源。
为什么重要
LOGOS 不仅是一次性能上的超越,更是一种范式的变革。传统科学 AI 的一大痛点是不同研究环节(如结构预测、分子生成)需要不同模型和假设,且预训练目标与下游任务存在严重“目标偏差”,导致模型落地需大量微调。LOGOS 通过“科学语法”从根本上解决这一问题:预训练数据的序列形式等于下游任务的输入输出形式(形式一致),预训练的 next-token prediction 等于下游的条件生成目标(目标一致)。这种双对齐设计消除了学用脱节,无需复杂适配层即可激活生成能力。
对阿里而言,这是其在大模型领域从通用场景向垂直科学领域拓展的关键一步,兼顾了开源生态与技术领先性。对微软 NatureLM 等竞品构成直接技术压力,尤其是在参数效率这条新赛道上。
对用户/开发者/创作者的影响
对科研人员和生物医药开发者:可直接下载 LOGOS 权重与代码,用于蛋白质设计、小分子结构预测、药物-靶点相互作用分析等方向,无需再为不同任务搭建多套模型体系。其“文字描述法”降低了对 3D 结构数据的依赖,意味着更多仅有序列数据的实验室也能直接调用。
对 AI 行业从业者:LOGOS 展示了一种将跨模态科学对象统一到自回归生成框架下的可行路径,未来可扩展到新材料、化学反应设计等更多场景。开源模式降低了参与门槛,开发者可基于现有代码快速复现和定制。
对普通用户:目前信息显示模型主要用于科研场景,短期不影响大众应用,但长期可能催生更精准的药物发现、材料设计等下游工业级产品。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,LOGOS 能否在更大参数量(如 7B、13B)上保持或超越当前的参数效率优势,并扩展到更多科学模态(如晶体、电子密度)?第二,其开源社区的贡献者数量和活跃度能否持续,进而形成类似 LLM 领域的 Hugging Face 式生态?第三,微软等竞品是否会针对 LOGOS 的“语法化”思路调整自身技术路线,或在参数效率上做出对标回应。
来源:Readhub · AI


