[Local LLM] 分享个自己在用的玩具

一句话看懂：V2EX 用户 mountainl 分享了一次低成本本地大模型硬件搭建实践，利用两块二手 RTX 3060（12GB）和 E5 平台，成功运行通义千问 Qwen3.6-35B-A3B-APEX 模型（128K 上下文，输出约 100 tps），并配合 hermes agent 实现脚本辅助编写。这件事直观展示了当前消费级硬件跑大模型的上限与可行性，对本地推理爱好者具有现实参考价值。

事件核心：发生了什么

mountainl 在 V2EX 发帖记录了一次本地大模型（Local LLM）的硬件“折腾”过程。起因是此前尝试用 RTX 4070 跑 Qwen3.5 9B 时发现上下文仅能支持 32K 且卡顿明显，因此购买了 2 块 RTX 3060 12G、X99 主板、E5 2673 v3 CPU 及 1200W 电源搭建专用机。正好赶上 Qwen3.6 发布，作者最终选用 mudler/Qwen3.6-35B-A3B-APEX-GGUF 模型，在 128K 上下文下实现了输入约 2000 tps、输出约 100 tps 的生成速度。帖子还引发了关于“二手显卡跑模型性价比”的讨论，有用户提及可采用两张 2080Ti 配合桥接器达到 27B 稠密模型 100+ tps 的效果。

为什么重要

该案例再次印证了消费级硬件运行大模型的可行性与成本曲线变化。首先，Qwen3.6 系列（尤其是 35B A3B APEX 版）在降低推理显存需求方面做出了显著优化，使双 3060 即能跑出可用的生成速度。其次，设备总成本被控制在“千把块钱”级别，且配件二手可流通，意味着本地推理的入门门槛已从“数万购卡”降至普通爱好者可以承受的范围。再者，论文级别的性能数据（128K 上下文、100 tps 输出）并非厂商宣传，而是社区自建平台真实可达，这为“离线/私有化 AI 应用”提供了低成本基础。

对用户/开发者/创作者的影响

本地 AI 开发者/脚本编写者：可用不到 2000 元的硬件组合（如双 3060 或 2080Ti）搭配 Qwen3.6、Llama 系列模型，完成代码辅助、文案生成、Agent 编排等轻量任务，避免依赖云端 API 的隐私隐患和持续性费用。
硬件折腾爱好者：N 卡（特别是 3060 12G、2080Ti 20G）在二手市场性价比突出，配合 GGUF 格式和 hermes agent 等开源工具，本地部署的体验已接近“即插即用”，但需注意 20 系显卡对新特性（如 Flash Attention）的支持可能不完整，需自行测试。
内容创作者/隐私敏感用户：无需向云端传输数据即可获得 100 tps 级别的文本生成速度，这对处理内部知识库、撰写复杂方案等场景有吸引力。

值得关注的后续

模型优化与硬件适配进展：Qwen3.6 的 35B A3B 版本在低显存设备上表现突出，后续通义千问或其他厂商是否继续加码中小参数模型的推理效率优化，将直接影响本地生态的活跃度。
二手显卡价格波动：若“双卡跑模型”成为固定玩法，可能推高 3060 12G、2080Ti 等型号二手价，影响整套方案成本。
社区工具链成熟度：如 hermes agent、Ollama、llama.cpp 等推理框架对双卡、多上下文长度的支持是否进一步提高稳定性，将决定此类方案能从“折腾玩具”进化为“日常生产力工具”。