核心宣言
Qwen 在发布公告中的核心主张是:Qwen3.6-27B 在所有主要编程基准上,超越了前一代旗舰模型 Qwen3.5-397B-A17B。
这个对比数字是整件事的关键:397B 总参数(MoE 架构下 17B 活跃参数)VS 27B 稠密模型。Qwen 的说法是稠密 27B 在编程任务上超越了 14 倍规模的 MoE 前辈。
硬件门槛的变化
规格数字能直接说明硬件要求的变化:
| 模型 | 全精度大小 | 量化版本 |
|---|---|---|
| Qwen3.5-397B | ~807GB | 需要多卡服务器 |
| Qwen3.6-27B | 55.6GB | 16.8GB(GGUF 量化) |
16.8GB 意味着可以在带有 24GB 显存的消费级 GPU(RTX 4090、RTX 3090)或配备统一内存的 Mac(M2/M3 Pro 48GB 以上)上运行。
Simon Willison 的实测
Simon Willison 用 llama-server 在本地运行了 Qwen3.6-27B 量化版本,并记录了两个性能指标:
- 读取速度:54.32 tokens/s
- 生成速度:约 25 tokens/s
他用 SVG 生成任务进行了验证——输入描述性文字,要求模型生成 SVG 代码。实测包括「骑自行车的鹈鹕」和「骑电动滑板车的负鼠」,模型成功输出了符合描述的 SVG 图形。这类任务同时测试代码生成能力和空间推理能力。
25 tokens/s 的生成速度对于本地代码 Agent 是一个重要的门槛:低于约 10 tokens/s 的情况下,实时代码生成会明显感觉「慢」;25 tokens/s 已经接近或超过人类阅读代码的速度,interactive 使用体验可接受。
技术规格
Qwen3.6-27B 的主要技术参数:
- 参数量:27B(稠密,非 MoE)
- 上下文窗口:65536 tokens
- 推理能力:内置(可切换推理模式)
- 授权:开放权重
- 可获取渠道:Hugging Face、兼容 llama.cpp 推理框架
65536 token 上下文窗口对代码 Agent 有实际意义:可以在单次上下文中加载完整的中等规模代码库片段,减少多轮分批处理的需求。
更大的趋势
Qwen3.6-27B 是近期一系列「小模型追上大模型」案例中的最新一个,延续了 Mistral Small 4(119B MoE)等发布传递的信号:密集型训练和强化学习对特定任务的提升,可以在一定程度上抵消参数量差距。
对于使用开源模型构建代码 Agent 的开发者,这个发布的直接含义是:本地运行的编程能力上限已经明显提高,同时硬件要求降低到消费级可及的范围内。