AI 信息流

R LOCALLLAMA2026年6月28日

Clark Labs 发布三进制 Sana 1.6B 文生图 Transformer，体积缩小 8.6 倍，质量接近 FP16

Clark Labs 将 Sana 1.6B 文生图 Transformer 压缩为三进制量化（约 1.85 比特/权重），体积从 3.21 GB（FP16）缩减至 374 MB，缩小 8.6 倍，同时保持接近 FP16 的图像生成质量。该模型采用分组量化缩放，并对约 5% 的调节和投影层参数保留高精度尾部以保护关键细节。除了打包的三进制权重，还提供了解包后的 bf16 版本，可作为 diffusers 的直接替代品。模型以 Apache-2.0 许可证发布，便于在资源受限的硬件上高效本地部署 Sana 1.6B。

R LOCALLLAMA2026年6月28日

发烧友用 RTX 5090 与 RTX PRO 5000 双卡搭建 80GB 显存本地 LLM 主机

一位 LocalLLaMA 社区成员用已有的 RTX 5090 和新购入的 RTX PRO 5000 搭建了双卡主机，总显存达 80GB。该主机搭载 9950X3D 处理器、192GB 内存和 17TB 存储，由 1300W 电源供电。用户原本计划以 8500 美元购买 RTX PRO 6000 并申请 NVIDIA Inception 计划折扣，但等待 3 个月后申请被拒，此时产品价格已涨至 13500 美元。最终他们用准备的钱在本国买到了最后一块 RTX PRO 5000。现在该主机用于运行大型 Q8 量化 LLM 和多 GPU ComfyUI 工作流。

R LOCALLLAMA2026年6月28日

Reddit用户提出为AI升频器添加游戏特定适配层以提升掌机游戏表现

一位Reddit用户发表了一个推测性的思想实验，探讨将轻量级游戏特定适配层整合到DLSS或FSR等AI游戏升频器中。该想法旨在通过增加一个小型专用层来捕捉游戏的渲染特性，并利用现有基础模型，从而让掌机设备能从极低的内部分辨率（如360p）重建800p或1080p图像。用户提到了AMD正为低功耗设备开发更轻量的FSR版本，但好奇游戏特定调优是否能进一步提升效率。该帖未引用任何具体研究、实现或基准测试，仅询问这一方向是否已被探索或存在根本性限制。

R LOCALLLAMA2026年6月28日重点

量化Gemma 4-31B MTP草稿接受率：Q5_K_S最高，IQ4_XS和IQ3_M几乎持平，IQ2_M在n=1时仍达84.5%

一项社区实验测量了Gemma 4-31B-it主干在Q5_K_S、IQ4_XS、IQ3_M、IQ2_M量化下配合其MTP起草器的推测解码接受率。单token草稿接受率（n=1）从88.5%（Q5_K_S）降至84.5%（IQ2_M）；n=4时分别为66.7%和61.2%。IQ4_XS与IQ3_M在各个深度下表现几乎一致。最大加速收益来自CUDA上的n=2配置，Apple Metal仅从n=1中获益微小。IQ2_M主干约需12 GB内存，使消费级GPU可运行推测解码。

R LOCALLLAMA2026年6月28日重点

使用Epyc CPU和双Tesla P40的$2500预算方案可在llama.cpp上运行GLM5.2 Q2–Q4版本

Reddit用户u/segmond分享了一套成本低于2500美元的硬件方案，可运行GLM5.2的Q2、Q3或Q4量化版本。该配置包含Epyc主板/CPU套装（460美元）、两块NVIDIA Tesla P40 24GB GPU（每块230美元）以及512GB DDR4内存（1000美元），基础部件总计约1920美元，加上电源、存储和散热约580美元即可完成。通过llama.cpp进行推理速度较慢，但能够正常工作；该方案还能运行KimiK2.6、DeepSeek和MiniMax等其他大模型。作者指出此配置不适合运行agent任务，但可用于规划和调试，并强调具备动手能力就无需极高预算便可实现本地顶尖模型推理。

R LOCALLLAMA2026年6月28日重点

谷歌举办 Gemma 4 31B 黑客马拉松，庆祝小型模型推理速度突破

谷歌正在举办以 Gemma 4 31B 小模型为特色的黑客马拉松，庆祝其创纪录的 1500 tokens/秒推理速度，比本地部署快 50–100 倍。这一举措凸显了该公司对小型模型在 AI 辅助软件工程中价值的持续看好。活动旨在促进利用高效开源模型进行编码创新，符合社区对“氛围编码”项目的兴趣。

过滤噪音，保留 AI 信号。

Clark Labs 发布三进制 Sana 1.6B 文生图 Transformer，体积缩小 8.6 倍，质量接近 FP16

发烧友用 RTX 5090 与 RTX PRO 5000 双卡搭建 80GB 显存本地 LLM 主机

Reddit用户提出为AI升频器添加游戏特定适配层以提升掌机游戏表现

量化Gemma 4-31B MTP草稿接受率：Q5_K_S最高，IQ4_XS和IQ3_M几乎持平，IQ2_M在n=1时仍达84.5%

使用Epyc CPU和双Tesla P40的$2500预算方案可在llama.cpp上运行GLM5.2 Q2–Q4版本

谷歌举办 Gemma 4 31B 黑客马拉松，庆祝小型模型推理速度突破