Cell Rep. Phys. Sci. | ChemMLLM: 让化学大模型不只「看懂」化学，还能「书写」化学

一句话看懂：上海人工智能实验室与中国科学技术大学联合发布了ChemMLLM，这是一个能同时理解文本、分子结构和图像，并且能直接生成分子图像的多模态化学大模型。它让化学AI从“识别分子”升级到了“直接设计分子”，大幅缩短了分子优化迭代的路径。

事件核心：发生了什么

上海人工智能实验室与中国科学技术大学等团队近日在《Cell Reports Physical Science》上发表了ChemMLLM。模型第一作者为两机构联培博士谭骞。ChemMLLM的核心创新在于提出了一个统一框架，覆盖了分子图像描述、性质预测、图像到SMILES转换、可控多目标分子图像设计、分子图像优化五类任务。该模型引入了专门训练的图像分词器Mol-VQGAN，能将分子图像离散化为token并与文本、SMILES统一处理。实验数据显示，在分子图像到SMILES转换任务中，ChemMLLM-34B的Tanimoto相似度达到0.92，远超通用模型ChemVLM的0.55；在分子优化任务中，其LogP提升能力相比GPT-4o提高了120.81%。该模型已在GitHub开源。

为什么重要

化学研究天然涉及多模态信息，但现有AI系统多为单向任务，能“看懂”分子图像却无法“画出”分子。ChemMLLM打通了从视觉识别到视觉生成的闭环。这意味着化学家不再需要先让模型输出SMILES字符串，再通过外部工具渲染成图像，而是可以直接与模型以分子图像的形式交互。这种端到端的能力可能加速药物设计、材料筛选等场景中的迭代速度。从技术路线看，它验证了专用图像分词器（Mol-VQGAN）在科学领域多模态大模型中的可行性，为其他需要精细视觉理解与生成的学科（如材料学、生物学）提供了参考范式。

对用户/开发者/创作者的影响

对化学研究者：可以直接用分子图像与模型对话，输入一张结构图就能获得性质预测或优化后的新结构，省去绘图软件的转换步骤。这种“所见即所得”的交互方式降低了AI工具的使用门槛。对AI开发者：ChemMLLM的两阶段训练策略和Mol-VQGAN的设计是宝贵的开源资源，开发者可在此基础上扩展更多化学任务，或借鉴其思路构建其他科学领域的多模态模型。对药物研发企业：在分子设计环节，模型能够直接基于图像优化分子，减少中间计算环节，可能提升先导化合物优化的效率。不过目前模型仍处于研究阶段，实际落地效果需进一步验证。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，ChemMLLM是否会在真实药物研发项目中与主流计算化学工具（如Schrödinger、OpenEye）对接，形成完整的自动化工作流。第二，模型对复杂分子（如大环化合物、多手性中心分子）的生成准确率能否接近专业化学软件。第三，由于模型基于Transformer架构，其在更大规模分子数据集上的训练与推理成本是否具备实用性，以及是否会出现竞品同类模型（如其他团队推出的化学多模态模型）的跟进构建。目前公开信息显示，该模型的GitHub仓库已开放，社区反馈和技术迭代速度将是衡量其影响力的核心指标。

来源：Readhub · AI

Cell Rep. Phys. Sci. | ChemMLLM: 让化学大模型不只「看懂」化学，还能「书写」化学