REDDIT LOCALLLAMA··重点
Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型,使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B,激活参数3.8B(MoE),支持256K上下文窗口,在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度,并发布在Hugging Face上,可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。
REDDIT LOCALLLAMA·
DeepSeek v4 Pro 在 SWE-bench Verified 上获得 80.6%,在 LiveCodeBench 上获得 93.5% 的顶级编程得分。但 CAISI 跨领域评估显示其大约落后于美国前沿模型 8 个月,而 DeepSeek 官方声称落后 2 个月。差异源于编码基准测试的局限性,而 CAISI 测试涵盖了网络安全和抽象推理等更广领域。前沿模型也在进步,如封闭模型 Fable 5 已发布。对于本地用户,量化后的版本在执行工具调用时可能表现不同于 1.6T 参数的完整 Pro 配置。
REDDIT LOCALLLAMA·
一位Reddit用户在r/LocalLLaMA发帖,寻求适合其硬件配置的最强开源AI编码模型推荐。其系统搭载AMD Ryzen 7 7700处理器、NVIDIA RTX 5070显卡(12GB显存)、32GB DDR5内存,运行Windows 11。使用场景为写作、编码和调试。该帖直接请求符合上述配置的模型建议。
REDDIT LOCALLLAMA··重点
论文提出前瞻稀疏注意力(LSA),一种基于神经记忆索引器并与DeepSeek‑V4架构结合的新型推理范式。该方法主动预测未来上下文需求,仅在GPU内存中保留查询关键的KV块,而非保留全部KV缓存。索引器通过无骨干解耦训练策略独立训练,采用双编码器检索框架,无需加载完整骨干模型。在LongBench‑v2、LongMemEval和RULER等长上下文评测中,FM‑DS‑V4将物理KV缓存压缩至全上下文基线的13.5%,同时平均准确率绝对提升0.6个百分点。在50万tokens的极端规模下,物理KV缓存开销被抑制超过90%,且无损骨干模型的核心推理能力。代码与权重已在GitHub和HuggingFace公开。
REDDIT LOCALLLAMA·
Lemonade v10.7 推出本机全模态聊天,通过组合多个后端和模型支持图像生成与编辑,其 LMX-Omni 虚拟模型现已兼容 Open WebUI 及其他 OpenAI 客户端。该版本新增 lemonade bench 命令行工具,可在 llama.cpp、FastFlowLM 和 vLLM 之间收集标准化的 LLM 性能数据。跨厂商支持得到扩展,为 llama.cpp 和 stable-diffusion.cpp 添加 CUDA 后端,为 sd-cpp 添加 Vulkan 后端,实现在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 加速。项目现已划分为六个工作组,其中四个由非 AMD 贡献者领导,本版共有 19 位贡献者参与。
REDDIT LOCALLLAMA·
Cohere 发布了 North Mini Code 开源编码模型,总参数量 300 亿,但仅激活 30 亿参数以实现高效推理。该模型在 Artificial Analysis Coding Index 上获得 33.4 分,在类似规模模型中具有竞争力。它专为 agentic 编码任务设计,采用 Apache 2.0 许可,已在 Hugging Face 的 CohereLabs 组织下提供。