R LOCALLLAMA·
一位Reddit用户报告,在三台低端笔记本电脑(Intel i3、8GB内存、集成显卡)上大量测试后,Qwen3-VL-2B的Q4_K_M GGUF量化版本能可靠地从图像中提取数据生成JSON,表现优于Qwen3-VL-4B和Qwen3.5 2B。该用户指出此模型未出现在Artificial Analysis或Open LLM Leaderboard等主流基准测试中(它们只列出4B版本),并质疑为何被忽视,询问是否有其他模型能在手机或树莓派等类似受限设备上完成该任务。未提供量化基准或复现细节。
R LOCALLLAMA·
Clark Labs 将 Sana 1.6B 文生图 Transformer 压缩为三进制量化(约 1.85 比特/权重),体积从 3.21 GB(FP16)缩减至 374 MB,缩小 8.6 倍,同时保持接近 FP16 的图像生成质量。该模型采用分组量化缩放,并对约 5% 的调节和投影层参数保留高精度尾部以保护关键细节。除了打包的三进制权重,还提供了解包后的 bf16 版本,可作为 diffusers 的直接替代品。模型以 Apache-2.0 许可证发布,便于在资源受限的硬件上高效本地部署 Sana 1.6B。
R LOCALLLAMA·
Koboldcpp 1.116 版本已发布。该公告未提供任何关于变更、修复或新功能的具体信息。
R LOCALLLAMA··重点
一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题,随后模型之间进行盲审互评,排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差:Qwen裁判对其他Qwen模型评分平均高出0.91分,而Mistral裁判对其他Mistral模型评分低出1.02分,为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠,且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放,作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。
R LOCALLLAMA··重点
开发者发布了 claude_converter,一款开源工具,可将 Claude Code 会话的 .jsonl 文件转换为 TRL/SFTTrainer、Axolotl 和 LLaMA-Factory(ShareGPT 格式)等框架可接受的 messages 格式。该工具提供 clean_messages() 辅助函数以去除工具使用块,以及 inspect_session() 函数用于显示 token 计数和结构分解。工具无外部依赖,可通过 `uv pip install claude-converter` 安装。建议用户仅筛选出最终助手回复确实解决了问题的会话再进行训练。
R LOCALLLAMA·
开发者Ravindra Marella创建了Model Registry,一个用于分享流行开放模型种子文件的GitHub仓库和网站。系统通过自定义后端服务将BitTorrent客户端请求重定向到Hugging Face URL,在没有其他对等节点时提供Web种子后备。该服务目前为实验阶段,偶尔出现CDN错误,重试后通常成功。计划通过GitHub Actions自动化种子创建与发布,但免费运行器的100 GB磁盘限制对超过100 GB的模型构成障碍。