R LOCALLLAMA·
一位Reddit用户报告,在三台低端笔记本电脑(Intel i3、8GB内存、集成显卡)上大量测试后,Qwen3-VL-2B的Q4_K_M GGUF量化版本能可靠地从图像中提取数据生成JSON,表现优于Qwen3-VL-4B和Qwen3.5 2B。该用户指出此模型未出现在Artificial Analysis或Open LLM Leaderboard等主流基准测试中(它们只列出4B版本),并质疑为何被忽视,询问是否有其他模型能在手机或树莓派等类似受限设备上完成该任务。未提供量化基准或复现细节。
R LOCALLLAMA·
Clark Labs 将 Sana 1.6B 文生图 Transformer 压缩为三进制量化(约 1.85 比特/权重),体积从 3.21 GB(FP16)缩减至 374 MB,缩小 8.6 倍,同时保持接近 FP16 的图像生成质量。该模型采用分组量化缩放,并对约 5% 的调节和投影层参数保留高精度尾部以保护关键细节。除了打包的三进制权重,还提供了解包后的 bf16 版本,可作为 diffusers 的直接替代品。模型以 Apache-2.0 许可证发布,便于在资源受限的硬件上高效本地部署 Sana 1.6B。
R LOCALLLAMA·
一位用户提出了一种实验范式,检验大型语言模型能否从其在Three.js任务上的优势中提取可复用的“过程脚手架”,并将其迁移至小模型,使其无需微调即可生成更深层的输出。该范式采用跨领域设计:大模型先在领域一(复杂场景)上生成脚手架,再将其应用到小模型的领域二任务(低多边形炮塔)中。一个不知情的第三方大模型作为盲审评委,对小模型在有无脚手架情况下的渲染图像进行评分,比较视觉质量和结构连贯性。该实验尚未执行;核心假设是,若添加脚手架的小模型在未见领域上的表现优于基线,则证明其具备可迁移的过程性知识。
R LOCALLLAMA·
一位 LocalLLaMA 社区成员用已有的 RTX 5090 和新购入的 RTX PRO 5000 搭建了双卡主机,总显存达 80GB。该主机搭载 9950X3D 处理器、192GB 内存和 17TB 存储,由 1300W 电源供电。用户原本计划以 8500 美元购买 RTX PRO 6000 并申请 NVIDIA Inception 计划折扣,但等待 3 个月后申请被拒,此时产品价格已涨至 13500 美元。最终他们用准备的钱在本国买到了最后一块 RTX PRO 5000。现在该主机用于运行大型 Q8 量化 LLM 和多 GPU ComfyUI 工作流。
R LOCALLLAMA·
Koboldcpp 1.116 版本已发布。该公告未提供任何关于变更、修复或新功能的具体信息。
R LOCALLLAMA··重点
一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题,随后模型之间进行盲审互评,排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差:Qwen裁判对其他Qwen模型评分平均高出0.91分,而Mistral裁判对其他Mistral模型评分低出1.02分,为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠,且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放,作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。