实战教程:用 Qwen3.6 及开源权重模型搭建本地编程智能体
英文摘要
Sebastian Raschka provides a detailed guide on setting up a fully local coding agent environment. The tutorial uses Ollama to serve open-weight LLMs such as Qwen3.6 35B-A3B and Cohere North Mini Code, connecting them to agent harnesses like Qwen-Code, Codex, and Claude Code. Performance testing shows both Qwen3.6 and North Mini Code generate ~30–40 tokens per second on a Mac Mini or DGX Spark and solve 4–5 out of 5 tasks on a custom agent problem pack. The article also includes an audit checklist for agent codebases, noting that Claude Code consumes substantially more input tokens than Codex for comparable task outcomes. Setup instructions cover modeling serving, harness configuration, and an SSH tunnel for offloading model execution to a dedicated machine.
中文摘要
Sebastian Raschka 详细介绍了如何搭建完全本地的编程智能体环境。教程使用 Ollama 在本地部署 Qwen3.6 35B-A3B 和 Cohere North Mini Code 等开源权重模型,并将它们连接到 Qwen-Code、Codex 和 Claude Code 等智能体框架。性能测试表明,Qwen3.6 和 North Mini Code 在 Mac Mini 或 DGX Spark 上的输出速度约为 30–40 token/秒,并在自定义问题集上解决 5 个任务中的 4–5 个。文章还提供了智能体代码库的安全审计清单,并指出在任务成功率相近时,Claude Code 的输入 token 消耗远高于 Codex。配置部分涵盖模型服务、框架设置以及通过 SSH 隧道将模型运行分离到专用机器的方案。
关键要点
The tutorial targets a fully local stack: Ollama serves models like Qwen3.6 35B-A3B, and harnesses include Qwen-Code, Codex, and Claude Code.
目标是全本地方案:Ollama 部署 Qwen3.6 35B-A3B 等模型,配合 Qwen-Code、Codex 和 Claude Code 等智能体框架。
Speed tests on a Mac Mini and DGX Spark show Qwen3.6 35B-A3B and North Mini Code reach ~30–40 tok/sec with up to 30 GB RAM usage at 50k context.
速度测试显示,在 Mac Mini 和 DGX Spark 上,Qwen3.6 35B-A3B 与 North Mini Code 在 50k 上下文下可达 30–40 token/秒,RAM 使用约 30 GB。
A custom agent problem pack yields 4/5 tasks solved by Qwen3.6 and North Mini Code in Qwen-Code; Gemma 4 E2B fails most tasks.
自定义问题集测试中,Qwen3.6 和 North Mini Code 在 Qwen-Code 中正确解决 5 题中的 4 题,Gemma 4 E2B 大部分失败。
Among harnesses, Claude Code uses significantly more input tokens than Codex or Qwen-Code for equivalent problem-solving, potentially slowing workflows.
在智能体框架比较中,Claude Code 解决问题所消耗的输入 token 数显著高于 Codex 和 Qwen-Code,可能拖慢工作流。
An audit checklist covers data egress (telemetry defaults), shell execution controls, and sandboxing, with settings provided to disable telemetry in Qwen-Code.
安全审计清单涵盖数据外传(遥测默认值)、shell 执行控制及沙盒,并提供了禁用 Qwen-Code 遥测的配置方案。