Show HN: Thaw – 用于运行中的大型语言模型（LLM）的 Git 分支（分叉代理，跳过预填充）

一句话看懂：开源工具Thaw为运行中的大模型提供了类似“Git分支”的功能，让AI代理可以从同一共享内存状态并行分叉出多个推理路径，完全跳过冷启动的预填充阶段，将分叉耗时从约340秒压缩至0.88秒。

事件核心：发生了什么

开发团队thaw-ai在GitHub上开源了项目Thaw，其核心创新是ForkPool技术。它允许用户对一个正在运行的大模型会话（包括权重、KV缓存、调度器状态和前缀哈希表）进行快照，然后像Git创建分支一样，从该“快照点”分出N个独立子进程并行推理。在Llama-3.1-8B模型、H100 80GB PCIe显卡上的基准测试显示：一次性的冷启动初始化需22.3秒，首次分支仅需1.16秒，后续中位分支时间降至0.88秒，相较传统每次冷启动约340秒的预填充实现了约400倍的成本均摊。所有分支在分叉边界处保证比特级一致，输出可复现。

为什么重要

在当前的强化学习后训练（如PPO、DPO、树结构GRPO）和最佳N候选（Best-of-N）等场景中，每轮推理都需要为每个分支重新执行昂贵的预填充步骤，这部分开销在训练和推理成本中占比极高。Thaw直接解决了HuggingFace在2026年异步RL调查中指出的“无现成库支持KV枢轴重采样”的空白。它将16次分叉的轮次从约90分钟压缩到约15秒，对于月消耗10万美元以上训练预算的RL团队而言，能直接转化为可量化的算力成本节约。同时，它也首次证明了在真实硬件上实现亚秒级大模型分叉的可行性。

对用户/开发者/创作者的影响

对RL后训练团队：可直接采用ForkPool替代现有重复预填充逻辑，实现训练吞吐量的数量级提升，尤其在PPO/DPO等循环中收益显著。对AI代理开发团队：当构建需要并行探索多个解决方案的代理产品（如类Cursor的编程助手、SWE-bench测试循环）时，能从“8个代理分别全量预填充”转变为“8个分支共享同一热点KV状态”，在不增加GPU支出的前提下提升用户请求的假设探索深度。对平台与框架团队：Thaw提供可序列化的fork句柄，支持跨进程、跨GPU甚至跨数据中心的会话迁移，LangGraph节点、Modal函数或Ray工作节点均可以直接调用。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，扩展性验证：目前公开数据仅基于Llama-3.1-8B和70B模型，在更大规模模型（如300B+）及多机多卡环境下的稳定性和性能有待更多团队复现。第二，生态集成进度：项目说明中承诺支持vLLM和SGLang，且对LangGraph等框架提供了“开箱即用”接口，未来是否会被主流RL训练框架（如TRL、GRPO库）正式集成将是关键。第三，商业模型：代码以Apache-2.0完全开源，但“Thaw”是否会推出托管服务或企业版来管理“分支合并”与“会话恢复”的复杂状态，将影响它在非开发者用户中的普及速度。

来源：github.com

Show HN: Thaw – 用于运行中的大型语言模型（LLM）的 Git 分支（分叉代理，跳过预填充）