Qwen3.6-27B 在小型模型中实现旗舰级编程能力

Simon Willison··作者 Simon Willison

关键信息

该模型在本地使用 llama.cpp 和 Q4_K_M 量化方式运行时,每秒可生成约 25–26 个 token,并能从文本提示生成高质量 SVG 图像,展示了强大的推理和创意生成能力。

资讯摘要

Qwen3.6-27B 是由 Qwen 开发的一个开源权重语言模型,声称在仅 270 亿参数下实现了旗舰级代理式编程性能——相比前代 3970 亿总参数的 MoE 模型(仅激活 170 亿)大幅减少。该模型提供 55.6GB 版本,并进一步压缩为适合本地推理的 16.8GB GGUF 量化版本。一位用户通过 llama-server 在配备 16GB 显存的设备上测试,成功生成了复杂 SVG 图像,如一只骑自行车的鹈鹕和一只乘坐电动滑板车的北美负鼠,图像细节丰富。

性能数据显示生成速度约为每秒 25 个 token,对如此紧凑的模型而言表现优异。这标志着高效大模型设计的重大进步。

Qwen3.6-27B 在小型模型中实现旗舰级编程能力

资讯正文

Qwen3.6-27B:在270亿参数密集模型中实现旗舰级编程能力

Qwen对其最新开源权重模型提出了重磅声明:

Qwen3.6-27B实现了旗舰级别的代理编程性能,在所有主要编程基准测试中均超越了上一代开源旗舰模型Qwen3.5-397B-A17B(总参数3970亿,活跃MoE参数170亿)。

在Hugging Face上,Qwen3.5-397B-A17B模型大小为807GB,而这款新的Qwen3.6-27B模型仅为55.6GB。

我使用了16.8GB的Unsloth量化版本Qwen3.6-27B-GGUF(Q4_K_M),并按照Hacker News用户benob提供的配置方法,先通过brew install llama.cpp安装llama-server后运行如下命令:

llama-server \

-hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \

--no-mmproj \

--fit on \

-np 1 \

-c 65536 \

--cache-ram 4096 -ctxcp 2 \

--jinja \

--temp 0.6 \

--top-p 0.95 \

--top-k 20 \

--min-p 0.0 \

--presence-penalty 0.0 \

--repeat-penalty 1.0 \

--reasoning on \

--chat-template-kwargs '{"preserve_thinking": true}'

首次运行时,该模型约17GB被保存至~/.cache/huggingface/hub/models--unsloth--Qwen3.6-27B-GGUF目录。

以下是生成“一只鹈鹕骑自行车”的SVG代码的完整对话记录。对于一个仅需16.8GB本地内存的模型而言,这一结果堪称卓越:

图片描述:自行车有辐条、链条和正确形状的车架。把手略显松脱。鹈鹕的翅膀搭在把手上,腿部异常弯曲且触碰到踏板,喙部形态良好。背景细节令人愉悦——半透明云朵、鸟类、草地和太阳。

llama-server报告的性能数据如下:

- 读取速度:20 tokens,耗时0.4秒,速率为54.32 tokens/s

- 生成速度:4,444 tokens,耗时2分53秒,速率为25.57 tokens/s

为了进一步验证,这里还展示了生成“一辆电动滑板车上的一只北弗吉尼亚负鼠”的SVG代码(此前曾用GLM-5.1模型完成过类似任务):

图片描述:一只灰色猫形生物戴着青色护目镜,骑着一辆发光的青色未来感摩托车穿越黑夜中的城市景观,长尾巴拖在身后,背景是黄色窗户亮灯的剪影建筑,右侧有一轮粉红色的月亮。

这次生成耗时6,575 tokens,共4分25秒,速率为24.74 tokens/s。

Qwen3.6-27B:在270亿参数密集模型中实现旗舰级编程能力

来源与参考

  1. 原始链接
  2. Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model

收录于 2026-04-23