阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM

一句话看懂：2025 年 6 月 18 日，阿里联合中国人民大学发布并开源了 LOGOS，这是业界首个基于统一“科学语法”的多领域科学生成基础模型。它用 1B 参数量（仅为微软 NatureLM 的 1/56），在六项科学任务上跨越式超越后者，核心创新在于将蛋白质、小分子等异质科学对象编码为统一 Token 序列，实现形式与训练目标完全对齐，从而消除预训练与下游应用之间的 gap。

事件核心：发生了什么

阿里 ATH-Token Foundry 与人大高瓴人工智能学院今日宣布正式开源 LOGOS（Language Of Generative Objects in Science）。该模型构建了包含 7 类模态、共 44.87B tokens 的预训练语料库，涵盖蛋白质（28.9B tokens）、抗体（3.0B tokens）、小分子（2.1B tokens）、化学反应与 MOF 材料（0.47B tokens）、蛋白质口袋（5.8B tokens）及蛋白口袋-配体复合物（4.6B tokens）。

核心突破在于设计了一套“共享词表”，将原本无法直接对话的蛋白质、小分子、材料等异构对象全部编码为统一离散 Token 序列，并通过“文字描述法”将 3D 空间接触模式语法化为离散 Token，完全抛弃了传统依赖显式 3D 坐标和复杂几何神经网络的方式。在六项代表性科学任务上，LOGOS 以纯序列建模范式一致性地匹配或超越了领域专用方法，其中 LOGOS-1B 以 1B 参数量超越微软 8×7B 参数的 NatureLM，参数效率提升超过 56 倍。

模型权重、推理代码与技术报告已在 HuggingFace、GitHub 及 arxiv 上完整开源。

为什么重要

LOGOS 不仅是一次性能上的超越，更是一种范式的变革。传统科学 AI 的一大痛点是不同研究环节（如结构预测、分子生成）需要不同模型和假设，且预训练目标与下游任务存在严重“目标偏差”，导致模型落地需大量微调。LOGOS 通过“科学语法”从根本上解决这一问题：预训练数据的序列形式等于下游任务的输入输出形式（形式一致），预训练的 next-token prediction 等于下游的条件生成目标（目标一致）。这种双对齐设计消除了学用脱节，无需复杂适配层即可激活生成能力。

对阿里而言，这是其在大模型领域从通用场景向垂直科学领域拓展的关键一步，兼顾了开源生态与技术领先性。对微软 NatureLM 等竞品构成直接技术压力，尤其是在参数效率这条新赛道上。

对用户/开发者/创作者的影响

对科研人员和生物医药开发者：可直接下载 LOGOS 权重与代码，用于蛋白质设计、小分子结构预测、药物-靶点相互作用分析等方向，无需再为不同任务搭建多套模型体系。其“文字描述法”降低了对 3D 结构数据的依赖，意味着更多仅有序列数据的实验室也能直接调用。

对 AI 行业从业者：LOGOS 展示了一种将跨模态科学对象统一到自回归生成框架下的可行路径，未来可扩展到新材料、化学反应设计等更多场景。开源模式降低了参与门槛，开发者可基于现有代码快速复现和定制。

对普通用户：目前信息显示模型主要用于科研场景，短期不影响大众应用，但长期可能催生更精准的药物发现、材料设计等下游工业级产品。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，LOGOS 能否在更大参数量（如 7B、13B）上保持或超越当前的参数效率优势，并扩展到更多科学模态（如晶体、电子密度）？第二，其开源社区的贡献者数量和活跃度能否持续，进而形成类似 LLM 领域的 Hugging Face 式生态？第三，微软等竞品是否会针对 LOGOS 的“语法化”思路调整自身技术路线，或在参数效率上做出对标回应。

来源：Readhub · AI

阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Terraform MCP Server 发布，助力 AI 助手对接 Terraform 基础设施

机器人整机是“有限游戏”？对话星海图创始人：具身智能商业化的三个阶段，终点是卖Token

Google 想为 AI Agent 打造下一个 Kubernetes

发表回复取消回复