AI 信息流

R LOCALLLAMA2026年6月28日

用户声称Qwen3-VL-2B是低端硬件上唯一可行的JSON提取视觉语言模型

一位Reddit用户报告，在三台低端笔记本电脑（Intel i3、8GB内存、集成显卡）上大量测试后，Qwen3-VL-2B的Q4_K_M GGUF量化版本能可靠地从图像中提取数据生成JSON，表现优于Qwen3-VL-4B和Qwen3.5 2B。该用户指出此模型未出现在Artificial Analysis或Open LLM Leaderboard等主流基准测试中（它们只列出4B版本），并质疑为何被忽视，询问是否有其他模型能在手机或树莓派等类似受限设备上完成该任务。未提供量化基准或复现细节。

R LOCALLLAMA2026年6月28日

Clark Labs 发布三进制 Sana 1.6B 文生图 Transformer，体积缩小 8.6 倍，质量接近 FP16

Clark Labs 将 Sana 1.6B 文生图 Transformer 压缩为三进制量化（约 1.85 比特/权重），体积从 3.21 GB（FP16）缩减至 374 MB，缩小 8.6 倍，同时保持接近 FP16 的图像生成质量。该模型采用分组量化缩放，并对约 5% 的调节和投影层参数保留高精度尾部以保护关键细节。除了打包的三进制权重，还提供了解包后的 bf16 版本，可作为 diffusers 的直接替代品。模型以 Apache-2.0 许可证发布，便于在资源受限的硬件上高效本地部署 Sana 1.6B。

R LOCALLLAMA2026年6月28日

Koboldcpp v1.116 发布

Koboldcpp 1.116 版本已发布。该公告未提供任何关于变更、修复或新功能的具体信息。

R LOCALLLAMA2026年6月28日重点

55个LLM盲审互评揭示裁判系统性同家族偏见

一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题，随后模型之间进行盲审互评，排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差：Qwen裁判对其他Qwen模型评分平均高出0.91分，而Mistral裁判对其他Mistral模型评分低出1.02分，为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠，且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放，作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。

R LOCALLLAMA2026年6月28日重点

claude_converter：将 Claude Code 会话转化为本地模型微调数据

开发者发布了 claude_converter，一款开源工具，可将 Claude Code 会话的 .jsonl 文件转换为 TRL/SFTTrainer、Axolotl 和 LLaMA-Factory（ShareGPT 格式）等框架可接受的 messages 格式。该工具提供 clean_messages() 辅助函数以去除工具使用块，以及 inspect_session() 函数用于显示 token 计数和结构分解。工具无外部依赖，可通过 `uv pip install claude-converter` 安装。建议用户仅筛选出最终助手回复确实解决了问题的会话再进行训练。

R LOCALLLAMA2026年6月28日

模型注册表：使用Hugging Face作为后备Web种子的开放模型种子文件

开发者Ravindra Marella创建了Model Registry，一个用于分享流行开放模型种子文件的GitHub仓库和网站。系统通过自定义后端服务将BitTorrent客户端请求重定向到Hugging Face URL，在没有其他对等节点时提供Web种子后备。该服务目前为实验阶段，偶尔出现CDN错误，重试后通常成功。计划通过GitHub Actions自动化种子创建与发布，但免费运行器的100 GB磁盘限制对超过100 GB的模型构成障碍。

过滤噪音，保留 AI 信号。

用户声称Qwen3-VL-2B是低端硬件上唯一可行的JSON提取视觉语言模型

Clark Labs 发布三进制 Sana 1.6B 文生图 Transformer，体积缩小 8.6 倍，质量接近 FP16

Koboldcpp v1.116 发布

55个LLM盲审互评揭示裁判系统性同家族偏见

claude_converter：将 Claude Code 会话转化为本地模型微调数据

模型注册表：使用Hugging Face作为后备Web种子的开放模型种子文件