
Cell Rep. Phys. Sci. | ChemMLLM: 让化学大模型不只「看懂」化学,还能「书写」化学
一句话看懂:上海人工智能实验室与中国科学技术大学联合发布了ChemMLLM,这是一个能同时理解文本、分子结构和图像,并且能直接生成分子图像的多模态化学大模型。它让化学AI从“识别分子”升级到了“直接设计分子”,大幅缩短了分子优化迭代的路径。
事件核心:发生了什么
上海人工智能实验室与中国科学技术大学等团队近日在《Cell Reports Physical Science》上发表了ChemMLLM。模型第一作者为两机构联培博士谭骞。ChemMLLM的核心创新在于提出了一个统一框架,覆盖了分子图像描述、性质预测、图像到SMILES转换、可控多目标分子图像设计、分子图像优化五类任务。该模型引入了专门训练的图像分词器Mol-VQGAN,能将分子图像离散化为token并与文本、SMILES统一处理。实验数据显示,在分子图像到SMILES转换任务中,ChemMLLM-34B的Tanimoto相似度达到0.92,远超通用模型ChemVLM的0.55;在分子优化任务中,其LogP提升能力相比GPT-4o提高了120.81%。该模型已在GitHub开源。
为什么重要
化学研究天然涉及多模态信息,但现有AI系统多为单向任务,能“看懂”分子图像却无法“画出”分子。ChemMLLM打通了从视觉识别到视觉生成的闭环。这意味着化学家不再需要先让模型输出SMILES字符串,再通过外部工具渲染成图像,而是可以直接与模型以分子图像的形式交互。这种端到端的能力可能加速药物设计、材料筛选等场景中的迭代速度。从技术路线看,它验证了专用图像分词器(Mol-VQGAN)在科学领域多模态大模型中的可行性,为其他需要精细视觉理解与生成的学科(如材料学、生物学)提供了参考范式。
对用户/开发者/创作者的影响
对化学研究者:可以直接用分子图像与模型对话,输入一张结构图就能获得性质预测或优化后的新结构,省去绘图软件的转换步骤。这种“所见即所得”的交互方式降低了AI工具的使用门槛。对AI开发者:ChemMLLM的两阶段训练策略和Mol-VQGAN的设计是宝贵的开源资源,开发者可在此基础上扩展更多化学任务,或借鉴其思路构建其他科学领域的多模态模型。对药物研发企业:在分子设计环节,模型能够直接基于图像优化分子,减少中间计算环节,可能提升先导化合物优化的效率。不过目前模型仍处于研究阶段,实际落地效果需进一步验证。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,ChemMLLM是否会在真实药物研发项目中与主流计算化学工具(如Schrödinger、OpenEye)对接,形成完整的自动化工作流。第二,模型对复杂分子(如大环化合物、多手性中心分子)的生成准确率能否接近专业化学软件。第三,由于模型基于Transformer架构,其在更大规模分子数据集上的训练与推理成本是否具备实用性,以及是否会出现竞品同类模型(如其他团队推出的化学多模态模型)的跟进构建。目前公开信息显示,该模型的GitHub仓库已开放,社区反馈和技术迭代速度将是衡量其影响力的核心指标。
来源:Readhub · AI
![[问与答] 国产 glm kimi deepseek qwen 怎么排位?](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_5-393-768x403.jpg)

