REDDIT MACHINELEARNING·
Cleo是一个开源的text-to-SQL模型,通过微调Qwen3.5-2B-Base实现,旨在用20亿参数模型封装完整的分析师行为。系统在训练、评估和推理中使用同一套结构化工具链,实现“采集-修复-回答”合约,并在候选查询搜索中利用实时执行证据。关键设计包括模型合约、SQL安全层、方言处理、超时和澄清行为的协同优化。模型、工具链和数据集均在GitHub和Hugging Face上完全开源。该项目展示了通过将训练和推理紧密耦合在同一工具链中,小型模型同样能处理复杂的SQL生成和交互式调试。
REDDIT MACHINELEARNING·
Reddit用户/u/summerday10发布了FeynRL,一个旨在让大语言模型、视觉语言模型和智能体的强化学习后训练完全透明且可修改的开源框架。该框架暴露了完整的训练流程——数据加载、轨迹生成、奖励计算、损失构建、优化和评估——使研究人员无需对抗隐藏系统即可开发新算法。它目前包含监督微调、DPO和RL风格训练的示例,并支持单GPU、多GPU和集群配置。该项目源于一个信念:仅有开放权重是不够的;开放训练代码、保持算法显式化且系统分离对于推动开放机器学习/人工智能研究至关重要。
REDDIT MACHINELEARNING·
Pyrecall 是一款全新的开源工具,旨在填补持续学习研究中实用工具的空白。它会在微调前后记录技能评分,标记性能退化,并支持按名称回滚 LoRA 适配器。该工具完全本地运行,采用 MIT 许可证发布 v0.1.0 版本,可通过 pip 安装。开发者正在就基准设计征求社区反馈。
REDDIT MACHINELEARNING·
该帖子讨论了量化感知训练(QAT)是否专门为某种量化方法(如Google在Gemma-4中使用的方法)设计,还是像Unsloth提供的替代量化方式也有意义。Unsloth对Gemma-4-QAT的量化结果据称更接近QAT微调后的模型。作者质疑这种接近性是有益的还是破坏了QAT的目的——即模拟特定的推理时量化。讨论揭示了在保持精度与遵循原始量化方案之间的潜在权衡。
REDDIT MACHINELEARNING··重点
来自Hugging Face的Niels宣布在PapersWithCode上新增了一个热门术语——在线策略蒸馏(OPD)。OPD是一种后训练技术,被用于Qwen 3.6、GLM-5.1和DeepSeek-V4等模型中。该方法通过注入提示标记来抑制特定错误,而无需重新生成新的轨迹。帖子还提供了Sasha Rush的白板讲解视频链接,并邀请用户建议其他方法。