R LOCALLLAMA·
Clark Labs 将 Sana 1.6B 文生图 Transformer 压缩为三进制量化(约 1.85 比特/权重),体积从 3.21 GB(FP16)缩减至 374 MB,缩小 8.6 倍,同时保持接近 FP16 的图像生成质量。该模型采用分组量化缩放,并对约 5% 的调节和投影层参数保留高精度尾部以保护关键细节。除了打包的三进制权重,还提供了解包后的 bf16 版本,可作为 diffusers 的直接替代品。模型以 Apache-2.0 许可证发布,便于在资源受限的硬件上高效本地部署 Sana 1.6B。
R LOCALLLAMA·
一位 LocalLLaMA 社区成员用已有的 RTX 5090 和新购入的 RTX PRO 5000 搭建了双卡主机,总显存达 80GB。该主机搭载 9950X3D 处理器、192GB 内存和 17TB 存储,由 1300W 电源供电。用户原本计划以 8500 美元购买 RTX PRO 6000 并申请 NVIDIA Inception 计划折扣,但等待 3 个月后申请被拒,此时产品价格已涨至 13500 美元。最终他们用准备的钱在本国买到了最后一块 RTX PRO 5000。现在该主机用于运行大型 Q8 量化 LLM 和多 GPU ComfyUI 工作流。
R LOCALLLAMA·
一位Reddit用户发表了一个推测性的思想实验,探讨将轻量级游戏特定适配层整合到DLSS或FSR等AI游戏升频器中。该想法旨在通过增加一个小型专用层来捕捉游戏的渲染特性,并利用现有基础模型,从而让掌机设备能从极低的内部分辨率(如360p)重建800p或1080p图像。用户提到了AMD正为低功耗设备开发更轻量的FSR版本,但好奇游戏特定调优是否能进一步提升效率。该帖未引用任何具体研究、实现或基准测试,仅询问这一方向是否已被探索或存在根本性限制。
R LOCALLLAMA··重点
一项社区实验测量了Gemma 4-31B-it主干在Q5_K_S、IQ4_XS、IQ3_M、IQ2_M量化下配合其MTP起草器的推测解码接受率。单token草稿接受率(n=1)从88.5%(Q5_K_S)降至84.5%(IQ2_M);n=4时分别为66.7%和61.2%。IQ4_XS与IQ3_M在各个深度下表现几乎一致。最大加速收益来自CUDA上的n=2配置,Apple Metal仅从n=1中获益微小。IQ2_M主干约需12 GB内存,使消费级GPU可运行推测解码。
R LOCALLLAMA··重点
Reddit用户u/segmond分享了一套成本低于2500美元的硬件方案,可运行GLM5.2的Q2、Q3或Q4量化版本。该配置包含Epyc主板/CPU套装(460美元)、两块NVIDIA Tesla P40 24GB GPU(每块230美元)以及512GB DDR4内存(1000美元),基础部件总计约1920美元,加上电源、存储和散热约580美元即可完成。通过llama.cpp进行推理速度较慢,但能够正常工作;该方案还能运行KimiK2.6、DeepSeek和MiniMax等其他大模型。作者指出此配置不适合运行agent任务,但可用于规划和调试,并强调具备动手能力就无需极高预算便可实现本地顶尖模型推理。
R LOCALLLAMA··重点
谷歌正在举办以 Gemma 4 31B 小模型为特色的黑客马拉松,庆祝其创纪录的 1500 tokens/秒推理速度,比本地部署快 50–100 倍。这一举措凸显了该公司对小型模型在 AI 辅助软件工程中价值的持续看好。活动旨在促进利用高效开源模型进行编码创新,符合社区对“氛围编码”项目的兴趣。