智力平替 GPT-5?Qwen 3.6 27B 评测显示本地模型已达前沿水准

阿里通义千问最新开源的 Qwen3.6-27B 模型,在 MacBook 本地运行测试中达到了 37 分(Artificial Analysis 评分),直接追平了 2025 年中 GPT-5 和 Claude Sonnet 4.5 的智力水平,且推理速度稳定在 32 tok/s。这意味着消费级硬件跑出的开源…

智力平替 GPT-5?Qwen 3.6 27B 评测显示本地模型已达前沿水准

一句话看懂:阿里通义千问最新开源的 Qwen3.6-27B 模型,在 MacBook 本地运行测试中达到了 37 分(Artificial Analysis 评分),直接追平了 2025 年中 GPT-5 和 Claude Sonnet 4.5 的智力水平,且推理速度稳定在 32 tok/s。这意味着消费级硬件跑出的开源模型,已经可以替代一年前的顶级付费 API 模型。

事件核心:发生了什么

开发者 Piotr Migdał 在一台搭载 128GB 内存的 MacBook Max M5 上,对 Qwen3.6-27B 进行了系统评测。该模型采用 8-bit GGUF 量化版本,配合 llama.cpp 服务端、多 token 预测(MTP)与 flash attention 优化,在 64K 上下文长度下实现了稳定的 32 tok/s 生成速度。其 35B A3B MoE 版本在同配置下速度可超过 100 tok/s。

在评测分数上,Qwen3.6-27B 获得 37 分,直接持平 2025 年中 GPT-5 与 Claude Sonnet 4.5。相比之下,此前被视为本地编码首选模型的 Gemma3-31B 仅获得 29 分。实际测试中,该模型能一次性完成复杂韵脚八行诗写作,以及用 pnpm 生成六边形扫雷游戏等任务。

为什么重要

这一评测结果标志着开源本地模型进入新的能力区间:过去一年,本地部署意味着在智能水平上向闭源 API 妥协,但现在 Qwen3.6-27B 的评分显示,开源模型仅用一年时间就从“两年前的前沿水平”跃升至“一年前的顶级付费 API 水平”。智力的代差正在被抹平。尤其对于开发者而言,本地模型意味着完全的控制权——无需担心 API 服务被撤销、调用成本飙升或数据隐私泄露,模型完全运行在自有硬件之上。

对用户/开发者/创作者的影响

对于开发者,最大的利好是可以在个人工作流中集成高智能模型而无须承担持续 API 支出,适合代码生成、脚本编写、数据分析等高频调用场景。对于创作者,本地部署意味着隐私安全:敏感内容(如商业计划、未发布作品)可直接在本地处理。对于普通用户,尽管仍需 MacBook Max 级别的高内存硬件(128GB),但 MoE 版本的 100+ tok/s 速度表明,随着模型量化与推理优化技术的持续进步,适配中端硬件的版本可能很快到来。目前公开信息显示,这一评测结果尚未在大规模商用负载下验证,但已为本地模型树立了新的能力标杆。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Qwen3.6 系列是否会在 Hugging Face 等平台正式发布开源权重,以及阿里云是否推出官方推理服务。第二,Gemma、Llama 等竞品在面对这一分数差距后,是否会加速发布新版本以回应。第三,测评结果仅在 M5 128GB 硬件条件下获得,需关注其在更普及的硬件(如 64GB、32GB 内存)上的实际表现与可用性。

来源:AIbase

celebrityanime
celebrityanime
文章: 10684

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注