Show HN: Thaw – 用于运行中的大型语言模型(LLM)的 Git 分支(分叉代理,跳过预填充)

Show HN: Thaw – 用于运行中的大型语言模型(LLM)的 Git 分支(分叉代理,跳过预填充)

Show HN: Thaw – 用于运行中的大型语言模型(LLM)的 Git 分支(分叉代理,跳过预填充)

一句话看懂:开源工具Thaw为运行中的大模型提供了类似“Git分支”的功能,让AI代理可以从同一共享内存状态并行分叉出多个推理路径,完全跳过冷启动的预填充阶段,将分叉耗时从约340秒压缩至0.88秒。

事件核心:发生了什么

开发团队thaw-ai在GitHub上开源了项目Thaw,其核心创新是ForkPool技术。它允许用户对一个正在运行的大模型会话(包括权重、KV缓存、调度器状态和前缀哈希表)进行快照,然后像Git创建分支一样,从该“快照点”分出N个独立子进程并行推理。在Llama-3.1-8B模型、H100 80GB PCIe显卡上的基准测试显示:一次性的冷启动初始化需22.3秒,首次分支仅需1.16秒,后续中位分支时间降至0.88秒,相较传统每次冷启动约340秒的预填充实现了约400倍的成本均摊。所有分支在分叉边界处保证比特级一致,输出可复现。

为什么重要

在当前的强化学习后训练(如PPO、DPO、树结构GRPO)和最佳N候选(Best-of-N)等场景中,每轮推理都需要为每个分支重新执行昂贵的预填充步骤,这部分开销在训练和推理成本中占比极高。Thaw直接解决了HuggingFace在2026年异步RL调查中指出的“无现成库支持KV枢轴重采样”的空白。它将16次分叉的轮次从约90分钟压缩到约15秒,对于月消耗10万美元以上训练预算的RL团队而言,能直接转化为可量化的算力成本节约。同时,它也首次证明了在真实硬件上实现亚秒级大模型分叉的可行性。

对用户/开发者/创作者的影响

RL后训练团队:可直接采用ForkPool替代现有重复预填充逻辑,实现训练吞吐量的数量级提升,尤其在PPO/DPO等循环中收益显著。对AI代理开发团队:当构建需要并行探索多个解决方案的代理产品(如类Cursor的编程助手、SWE-bench测试循环)时,能从“8个代理分别全量预填充”转变为“8个分支共享同一热点KV状态”,在不增加GPU支出的前提下提升用户请求的假设探索深度。对平台与框架团队:Thaw提供可序列化的fork句柄,支持跨进程、跨GPU甚至跨数据中心的会话迁移,LangGraph节点、Modal函数或Ray工作节点均可以直接调用。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,扩展性验证:目前公开数据仅基于Llama-3.1-8B和70B模型,在更大规模模型(如300B+)及多机多卡环境下的稳定性和性能有待更多团队复现。第二,生态集成进度:项目说明中承诺支持vLLM和SGLang,且对LangGraph等框架提供了“开箱即用”接口,未来是否会被主流RL训练框架(如TRL、GRPO库)正式集成将是关键。第三,商业模型:代码以Apache-2.0完全开源,但“Thaw”是否会推出托管服务或企业版来管理“分支合并”与“会话恢复”的复杂状态,将影响它在非开发者用户中的普及速度。

来源:github.com

celebrityanime
celebrityanime
文章: 4659

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注