GITHUB·
llama.cpp 发布标签 b9659,包含对 mtmd 组件中 n_tokens 计数错误的修复(PR #24656)。该版本同时提供了面向多平台的预编译二进制文件,涵盖 macOS(ARM64、Intel)、Linux(x64、ARM64、s390x,支持 Vulkan、ROCm、OpenVINO、SYCL)、Android(ARM64)和 Windows(x64、ARM64,支持 CUDA 12/13、Vulkan、SYCL、HIP)。其中,启用 KleidiAI 的 macOS Apple Silicon 构建被标记为禁用,而 iOS XCFramework 产物可用。
GITHUB·
llama.cpp 项目发布了 build b9658。一项重要改进是增强了聊天调试功能:当发生解析错误时,调试信息现在会包含完整的未解析提示。该版本仍提供面向多个平台的预编译二进制文件,包括 macOS(Apple Silicon 和 Intel)、Linux(CPU、Vulkan、ROCm、OpenVINO、SYCL)、Android(arm64 CPU)以及 Windows(CPU、CUDA、Vulkan、SYCL、HIP)。目前,启用 KleidiAI 的 macOS Apple Silicon 版本被暂时禁用。
GITHUB·
llama.cpp b9656 版本强化了 PEG 原生工具调用解析。现在可接受可选的 "type":"function" 字段,以兼容 OpenAI 风格的工具调用序列化。最终解析失败时,解析器返回清晰的错误并记录未解析的片段,而非抛出原始内部状态。当 raw arguments 不是合法 JSON 时会保留原始字符串,避免中断提示渲染。解析失败会以更清晰的错误消息呈现,消除静默的空 assistant 回合。对 "type":"function" 字段的宽松解析受分析标志控制。
GITHUB·
llama.cpp 项目发布标签 b9655,修复了聊天功能中因近期代码变动而暴露的一个“古老但经典的”语法生成器 bug(PR #24653),并更新了 PEG 解析器测试中的一个错误用例。该版本提供了面向广泛平台的预编译二进制文件,包括 macOS(Apple Silicon、Intel、KleidiAI)、Linux(x64、arm64、s390x、Vulkan、ROCm、OpenVINO、SYCL)、Android(arm64)以及 Windows(x64、arm64、CUDA 12/13、Vulkan、SYCL、HIP),同时也包含了 openEuler 构建版本和 UI 组件。
GITHUB·
llama.cpp 版本 b9654 为 mtmd(多模态文本解码)模块新增了一个解码后回调,该功能由 PR #24645 实现,并得到了 Qwen3.6-27B 模型的支持。此次发布提供了针对 macOS Apple Silicon、Linux x64/arm64、Windows x64/arm64 和 Android 平台的预编译二进制文件,涵盖多种 GPU 后端(Vulkan、CUDA 12/13、ROCm、SYCL、HIP),部分构建因平台问题被禁用。
GITHUB·
llama.cpp 的 b9653 版本扩展了 Vulkan 后端,使其支持更多 CONCAT 张量操作类型,提升了依赖此类操作的模型的兼容性。该版本同时提供了针对 macOS(Apple Silicon、Intel)、Linux(含 Vulkan、ROCm、OpenVINO、SYCL 等多种 GPU 后端)、Android、Windows(CUDA 12/13、Vulkan、SYCL、HIP)以及 openEuler 平台的预编译二进制文件,于 2026 年 6 月 15 日自动发布。