AI 信息流

HUGGINGFACE2026年7月2日

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布了 HARC-Qwen2.5-7B-Instruct，这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型，以 Apache 2.0 许可证在 Hugging Face 上开放，采用 safetensors 格式，支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。

HUGGINGFACE2026年7月2日

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。

HUGGINGFACE2026年7月2日重点

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

该论文表明，密集的在策略自蒸馏（SDPO）在教师信号稳定时能加速领域内专化，但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下，在策略强化学习方法（如GRPO）的适应更为保守，能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移，并通过自我强化的师生循环放大高频格式化伪影。研究警告，仅在策略数据不足以实现持续学习，密集自蒸馏不应被当作默认的稳定器。

HUGGINGFACE2026年7月2日重点

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

WorldDirector 是一个可控的视频世界模型框架，首次明确将语义运动编排与视觉生成过程解耦。它利用大语言模型协调三维物体轨迹与相机运动，并将这些编排好的轨迹作为视频生成的控制信号。这样的设计保证了严格的物理一致性和外观稳定性，并实现持久的动态物体记忆——即使物体长时间离开视野后再次进入场景，其精确的视觉身份也能得以保留。该框架支持不受限制的视角探索，能够合成高可控性的复杂、长时间事件。

HUGGINGFACE2026年7月2日重点

AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

该论文提出了 AgenticSTS，一个面向长周期 LLM 智能体的有限内存契约，每个决策均通过类型化检索构建的全新用户消息做出，不附加任何跨决策的原始对话记录，从而使提示长度在任意长度的运行中保持有界。该契约在封闭规则牌组构建游戏《杀戮尖塔 2》中实例化，该游戏需要数百次战术和战略决策。同一游戏上的公开在线基准测试中，前沿 LLM 在最低难度下零胜，而开发者报告的人类胜率在同一难度下为 16%，表明任务困难但尚未饱和。在作者的测试框架中，一项消融实验显示，未启用触发式战略技能的基线模型 10 局中赢得 3 局，增加技能层后胜局提升至 6 局（方向性结果，Fisher 精确检验 p≈0.37）。作者发布了一个可复现的测试平台，包含 298 条带条件标签的完整轨迹、冻结的内存/技能快照、提示记录和分析脚本。

HUGGINGFACE2026年7月1日重点

Discrete Diffusion Language Models for Interactive Radiology Report Drafting

该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域，并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分，扩散模型匹配或超越了自回归性能，且解码速度加快3.5-4.4倍。微调后的模型（激活参数3.8B）与前沿视觉语言模型竞争激烈。更重要的是，扩散范式支持任意顺序的文本填充：放射科医生可修正报告片段，模型能生成夹在中间的文字，这一能力是自回归模型难以提供的，适合风格与完整度不一致的真实放射学报告。

过滤噪音，保留 AI 信号。

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

Discrete Diffusion Language Models for Interactive Radiology Report Drafting