REDDIT LOCALLLAMA·
一位开发者试图用本地量化模型(Gemma 4 31B、Qwen 3.5)构建全本地智能体文本提取管道,但给予模型自主决策导致每日结果不一致、频繁出错和高资源消耗。他将推理循环替换为严格的Python代码,由代码负责分块、正则、API逻辑和错误分流,而LLM仅需在固定schema中提取三个特定实体。新管道连续四天无逻辑故障,处理速度提升且资源占用下降。经验表明,在消费级GPU上运行小型本地模型时,僵化脚本+专注的LLM解析器比需要持续监控的灵活智能体更实用。
REDDIT LOCALLLAMA··重点
论文提出前瞻稀疏注意力(LSA),一种基于神经记忆索引器并与DeepSeek‑V4架构结合的新型推理范式。该方法主动预测未来上下文需求,仅在GPU内存中保留查询关键的KV块,而非保留全部KV缓存。索引器通过无骨干解耦训练策略独立训练,采用双编码器检索框架,无需加载完整骨干模型。在LongBench‑v2、LongMemEval和RULER等长上下文评测中,FM‑DS‑V4将物理KV缓存压缩至全上下文基线的13.5%,同时平均准确率绝对提升0.6个百分点。在50万tokens的极端规模下,物理KV缓存开销被抑制超过90%,且无损骨干模型的核心推理能力。代码与权重已在GitHub和HuggingFace公开。
REDDIT LOCALLLAMA·
Lemonade v10.7 推出本机全模态聊天,通过组合多个后端和模型支持图像生成与编辑,其 LMX-Omni 虚拟模型现已兼容 Open WebUI 及其他 OpenAI 客户端。该版本新增 lemonade bench 命令行工具,可在 llama.cpp、FastFlowLM 和 vLLM 之间收集标准化的 LLM 性能数据。跨厂商支持得到扩展,为 llama.cpp 和 stable-diffusion.cpp 添加 CUDA 后端,为 sd-cpp 添加 Vulkan 后端,实现在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 加速。项目现已划分为六个工作组,其中四个由非 AMD 贡献者领导,本版共有 19 位贡献者参与。
REDDIT LOCALLLAMA·
一位Reddit用户使用Intel Core Ultra 7 165H(AVX2,无AVX512)和64GB内存,通过标准llama.cpp测试了Qwen3.6 35B A3B Q4_K_M的CPU推理。在非思考模式下获得约10 tps,用户认为可用,但思考模式性能不可接受。该用户正在寻求其他模型、量化或llama.cpp版本的建议,以更好地利用其高内存但有限计算/带宽的庞大MoE配置。
REDDIT LOCALLLAMA·
Unsloth 已在 Hugging Face 上发布了 Cohere 新模型 North-Mini-Code-1.0 的 GGUF 量化文件。North-Mini-Code-1.0 是一个 30B 参数的代码语言模型,采用 3B 活跃参数架构 (A3B)。这些 GGUF 文件可支持通过 llama.cpp 或兼容工具进行本地推理。可能需要关联的 llama.cpp 拉取请求 (PR #24260) 才能实现完整模型支持。发帖时模型尚未经过原帖作者测试。
REDDIT LOCALLLAMA·
一位拥有 RTX 5090 和 64GB 内存的本地 LLM 新手在 r/LocalLLaMA 发帖,因工具繁多而感到不知所措,寻求适用于 Windows 的 GUI 推荐。他已安装 ollama 并下载了 gemma4 和 qwen3.6 模型,请求一份比较 qwen 与 gemma 的综合基准测试资源。用户对模型大小变体(如 27B 与 35B)和量化文件名感到困惑,想知道如何判断模型是否适合显存,以及应选择哪个以获得更好性能。