HUGGINGFACE·
微软发布了 HARC-Qwen2.5-7B-Instruct,这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型,以 Apache 2.0 许可证在 Hugging Face 上开放,采用 safetensors 格式,支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。
HUGGINGFACE·
微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。
HUGGINGFACE··重点
该论文表明,密集的在策略自蒸馏(SDPO)在教师信号稳定时能加速领域内专化,但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下,在策略强化学习方法(如GRPO)的适应更为保守,能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移,并通过自我强化的师生循环放大高频格式化伪影。研究警告,仅在策略数据不足以实现持续学习,密集自蒸馏不应被当作默认的稳定器。
HUGGINGFACE··重点
SkillCoach 提出一个自演化的评分框架,从运行足迹中自动归纳基于技能的过程评分标准,从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号,从而区分过程质量与偶然成功,揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督,用于筛选高质量训练轨迹,优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量,并为增强智能体的技能使用提供了更强的监督信号。
HUGGINGFACE··重点
该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域,并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分,扩散模型匹配或超越了自回归性能,且解码速度加快3.5-4.4倍。微调后的模型(激活参数3.8B)与前沿视觉语言模型竞争激烈。更重要的是,扩散范式支持任意顺序的文本填充:放射科医生可修正报告片段,模型能生成夹在中间的文字,这一能力是自回归模型难以提供的,适合风格与完整度不一致的真实放射学报告。
HUGGINGFACE··重点
该论文提出 Perceive-to-Reason (P2R) 框架,将细粒度视觉推理解耦为两阶段:感知器定位与问题相关的图像证据,推理器基于标注图像和裁剪区域回答问题。同时引入感知-推理交替 GRPO (PRA-GRPO),一种角色感知的强化学习策略,仅使用最终答案监督,交替进行感知和推理训练更新。基于 Qwen3-VL-Instruct-2B/4B/8B 构建,P2R 在所有规模上均带来性能提升;P2R-4B 在 V-Star 上达 93.2%、HR-Bench-4K 上 81.9%、HR-Bench-8K 上 80.5%,大幅超越其基础模型。进一步实验表明,P2R 的优势从高分辨率基准拓展至更广泛的多模态推理任务。