Show HN：Needle：我们将 Gemini 工具调用提炼成 26M 模型

一句话看懂：一个名为 Cactus 的团队发布了仅 2600 万参数的模型 Needle，专为在手机、手表等终端设备上进行单次工具调用（如设定闹钟、发送消息）而设计。它通过完全去除传统 Transformer 中的 MLP（前馈网络）层，在特定任务上击败了参数规模大 10 倍以上的模型。

事件核心：发生了什么

Cactus Compute 团队在 Hacker News 上发布了 Needle 模型，这是一个只有 2600 万参数的轻量级模型，核心能力是单次函数调用（single-shot function calling）。其最大的技术特点在于架构创新：整个模型由 Simple Attention Networks 构成，只包含注意力机制和门控单元，完全没有 MLP 层。训练上，Needle 先在没有 MLP 的架构上预训练了 2000 亿 tokens（使用 16 块 TPU v6e 耗时 27 小时），再用 Gemini 合成的 20 亿 tokens 函数调用数据微调了 45 分钟，覆盖计时器、消息、导航、智能家居等 15 类工具。项目代码及权重（MIT 许可）已在 GitHub 和 HuggingFace 上开源。

为什么重要

Needle 的意义在于它明确指出了两条路径：第一，工具调用本质上是一个“检索与组装”任务（匹配工具名→提取参数→输出 JSON），其计算需求远低于复杂推理，因此大规模模型在此场景下是过度的。第二，研究团队发现“无需 FFN”的结论可以泛化到任何模型能访问外部结构化知识的任务（如 RAG、检索增强生成），这暗示未来很多 Agent 应用或许不需要在模型内部存储大量事实参数。这使得在廉价终端设备上运行 Agent 成为可能，直接挑战了“端侧模型必须大而全”的普遍认知。

对用户/开发者/创作者的影响

对于普通用户，它意味着未来手机、智能手表、AR 眼镜等设备上的语音助手可能更快、更省电，且不必依赖云端。对于开发者，Needle 模型极小（可以跑在 Mac 或 PC 上），并且提供了可直接测试和微调的工具（playground），这降低了构建定制化端侧 Agent 的门槛。目前公开信息显示，虽然 Needle 在单次工具调用上优于 FunctionGemma-270M、Qwen-0.6B、Granite-350M 等更大模型，但这些对手在对话场景下能力更强，开发者需要根据自身用例（工具调用 vs. 对话）做出选择。

值得关注的后续

通用性验证：Needle 的“无 MLP”设计能否在更复杂的多轮对话和长上下文 RAG 任务中保持优势，需要更多独立复现和 benchmark 验证。
生态整合：Cactus 团队正在开发专为移动和可穿戴设备打造的推理引擎 Cactus，Needle 能否与主流硬件（如高通、Apple 芯片）深度适配并量产商用，是落地关键。
行业反应：Google、Meta 等巨头在大参数端侧模型（如 Gemma、Llama 系列）上投入巨大，Needle 的“极简路线”是否会引发行业对专用小模型（而不是通用大模型的蒸馏版）的重新评估。

来源：hackernews

Show HN：Needle：我们将 Gemini 工具调用提炼成 26M 模型