R LOCALLLAMA·
一位Reddit用户报告,在三台低端笔记本电脑(Intel i3、8GB内存、集成显卡)上大量测试后,Qwen3-VL-2B的Q4_K_M GGUF量化版本能可靠地从图像中提取数据生成JSON,表现优于Qwen3-VL-4B和Qwen3.5 2B。该用户指出此模型未出现在Artificial Analysis或Open LLM Leaderboard等主流基准测试中(它们只列出4B版本),并质疑为何被忽视,询问是否有其他模型能在手机或树莓派等类似受限设备上完成该任务。未提供量化基准或复现细节。
R LOCALLLAMA·
一位 LocalLLaMA 社区成员用已有的 RTX 5090 和新购入的 RTX PRO 5000 搭建了双卡主机,总显存达 80GB。该主机搭载 9950X3D 处理器、192GB 内存和 17TB 存储,由 1300W 电源供电。用户原本计划以 8500 美元购买 RTX PRO 6000 并申请 NVIDIA Inception 计划折扣,但等待 3 个月后申请被拒,此时产品价格已涨至 13500 美元。最终他们用准备的钱在本国买到了最后一块 RTX PRO 5000。现在该主机用于运行大型 Q8 量化 LLM 和多 GPU ComfyUI 工作流。
R LOCALLLAMA··重点
开发者发布了 claude_converter,一款开源工具,可将 Claude Code 会话的 .jsonl 文件转换为 TRL/SFTTrainer、Axolotl 和 LLaMA-Factory(ShareGPT 格式)等框架可接受的 messages 格式。该工具提供 clean_messages() 辅助函数以去除工具使用块,以及 inspect_session() 函数用于显示 token 计数和结构分解。工具无外部依赖,可通过 `uv pip install claude-converter` 安装。建议用户仅筛选出最终助手回复确实解决了问题的会话再进行训练。
R LOCALLLAMA·
一名本地AI爱好者打造了一款私人语音助手,具备语音验证、唤醒词、持续对话、Home Assistant控制、Hermes Agent集成和深度研究等高级功能。系统运行在一台定制服务器上,配备四块改造后的RTX 4090(共192GB显存)、128GB DDR5内存和3000W电源,通过240V/30A烘干机线路供电。在测试了Qwen 397B、MiniMax M3、Nemotron 3 Ultra和GLM 4.7/5.2等大模型后,用户发现谷歌的Gemma 4 31B QAT表现优于所有这些模型,且在同尺寸下速度惊人。该助手通过会议扬声器麦克风部署全家,热量由洗衣房排风扇管理。
R LOCALLLAMA··重点
一项社区实验测量了Gemma 4-31B-it主干在Q5_K_S、IQ4_XS、IQ3_M、IQ2_M量化下配合其MTP起草器的推测解码接受率。单token草稿接受率(n=1)从88.5%(Q5_K_S)降至84.5%(IQ2_M);n=4时分别为66.7%和61.2%。IQ4_XS与IQ3_M在各个深度下表现几乎一致。最大加速收益来自CUDA上的n=2配置,Apple Metal仅从n=1中获益微小。IQ2_M主干约需12 GB内存,使消费级GPU可运行推测解码。
R LOCALLLAMA·
用户通过 Claude Code 工具要求 Ornith 35B 快速创建一个 3D 游戏,模型在三次提示后成功生成。相同测试中,Qwen3.5-35b-A3B 多次提示仍失败。这是一次零散的编码能力对比,未提供系统性评估或指标,但表明 Ornith 35B 在此任务上表现更好。