AI 信息流

HUGGINGFACE2026年7月2日

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布了 HARC-Qwen2.5-7B-Instruct，这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型，以 Apache 2.0 许可证在 Hugging Face 上开放，采用 safetensors 格式，支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。

HUGGINGFACE2026年7月2日

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。

HUGGINGFACE2026年7月2日重点

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

该论文表明，密集的在策略自蒸馏（SDPO）在教师信号稳定时能加速领域内专化，但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下，在策略强化学习方法（如GRPO）的适应更为保守，能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移，并通过自我强化的师生循环放大高频格式化伪影。研究警告，仅在策略数据不足以实现持续学习，密集自蒸馏不应被当作默认的稳定器。

HUGGINGFACE2026年7月2日重点

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

SkillCoach 提出一个自演化的评分框架，从运行足迹中自动归纳基于技能的过程评分标准，从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号，从而区分过程质量与偶然成功，揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督，用于筛选高质量训练轨迹，优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量，并为增强智能体的技能使用提供了更强的监督信号。

HUGGINGFACE2026年7月1日重点

Discrete Diffusion Language Models for Interactive Radiology Report Drafting

该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域，并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分，扩散模型匹配或超越了自回归性能，且解码速度加快3.5-4.4倍。微调后的模型（激活参数3.8B）与前沿视觉语言模型竞争激烈。更重要的是，扩散范式支持任意顺序的文本填充：放射科医生可修正报告片段，模型能生成夹在中间的文字，这一能力是自回归模型难以提供的，适合风格与完整度不一致的真实放射学报告。