J. Med. Chem. ｜用 AI 重构 hit-to-lead: 发现高活性 ALDH3A1 抑制剂

一句话看懂：美国国立卫生研究院（NIH）团队在《Journal of Medicinal Chemistry》上发表了一种名为CSAR的AI驱动工作流，通过虚拟反应枚举和深度学习QSAR，仅合成150个化合物，就将一个针对难成药靶点ALDH3A1的苗头化合物活性从1.41 μM提升至约1 nM，提升近1000倍。这不仅是算法实验，更是一次“可合成性优先”的药物化学方法论验证。

事件核心：发生了什么

该研究由NIH下属的国家转化科学促进中心（NCATS）主导，提出了名为CSAR（Comprehensive Structure–Activity Relationship）的hit-to-lead优化框架。其核心不是用AI“凭空生成”分子，而是将经典药化的“逐位取代”逻辑与大规模虚拟反应枚举结合：在KNIME平台上用RDKit编写反应SMARTS，将2-氯噻唑骨架与超过百万个商业砌块虚拟反应，两轮枚举共生成约25万个可合成虚拟分子。随后通过药效团对接与深度学习共识架构（DLCA）进行三重打分排序，最终仅实际合成了150个化合物。生化活性从苗头的1.41 μM跃升至1.12 nM（化合物SM0707），细胞活性达到3.84 nM（SM0708），且对ALDH家族其他同工酶（如高度同源的ALDH3A2）选择性超过2800倍。所有代码和qHTS数据已公开于GitHub和PubChem。

为什么重要

这项工作的意义在于瞄准了药物发现中真正的瓶颈——hit-to-lead阶段。现有生成式AI模型（如REINVENT）擅长骨架跃迁和创意生成，但常忽视“可合成性”和“精细化SAR扩展”。CSAR填补了这一空白：它保留了药化专家“修改R基团”的直觉，但用算力将探索空间扩大千倍，并全程嵌入合成可行性约束。R²从第一轮的0.51（已可指导早期选型）到第二轮重训练后提升至0.74，证明了“设计-制造-测试”循环中数据反哺模型的价值。对于ALDH3A1这类“家族同源性高、选择性极难实现”的靶点，这一方法展现了系统性攻克高难度靶点的潜力，而非依赖偶然发现。

对用户/开发者/创作者的影响

对于AI制药领域的开发者，CSAR提供了一个可直接复用的开源代码框架（基于KNIME和RDKit），其模块化设计（反应枚举、药效团对接、DLCA打分）允许使用者替换自家反应模板或QSAR模型。对于药化从业者，它展示了一种“不颠覆工作流，而是用算力放大效率”的实用路径——不需要大量训练数据，第一轮仅72个合成实验就实现了活性提升。对于关注AI落地效果的投资者，该案例给出了一个可核查、可复现的量化结果（活性飞跃千倍），而非仅停留在预测准确率指标上。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 化学空间扩展：目前CSAR仅演示了两个反应位点（哌嗪SNAr和酰胺偶联），后续是否纳入更多反应模板（如酰胺生物电子等排体、骨架跃迁）将决定该平台的通用性上限。2. 体内数据缺失：当前成果停留在生化和细胞活性层面，仍在早期发现阶段，需要关注其ADMET和体内药效进展。3. 开源生态竞争：NCATS已将代码和数据集公开，与商业药化平台（如Schrödinger、Chemical Computing Group）的对比或差异化合作值得跟踪。

来源：Readhub · AI

J. Med. Chem. ｜用 AI 重构 hit-to-lead: 发现高活性 ALDH3A1 抑制剂