HUGGINGFACE·
微软发布了 HARC-Qwen2.5-7B-Instruct,这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型,以 Apache 2.0 许可证在 Hugging Face 上开放,采用 safetensors 格式,支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。
HUGGINGFACE·
微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。
HUGGINGFACE··重点
该论文表明,密集的在策略自蒸馏(SDPO)在教师信号稳定时能加速领域内专化,但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下,在策略强化学习方法(如GRPO)的适应更为保守,能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移,并通过自我强化的师生循环放大高频格式化伪影。研究警告,仅在策略数据不足以实现持续学习,密集自蒸馏不应被当作默认的稳定器。
HUGGINGFACE··重点
WorldDirector 是一个可控的视频世界模型框架,首次明确将语义运动编排与视觉生成过程解耦。它利用大语言模型协调三维物体轨迹与相机运动,并将这些编排好的轨迹作为视频生成的控制信号。这样的设计保证了严格的物理一致性和外观稳定性,并实现持久的动态物体记忆——即使物体长时间离开视野后再次进入场景,其精确的视觉身份也能得以保留。该框架支持不受限制的视角探索,能够合成高可控性的复杂、长时间事件。
HUGGINGFACE··重点
该论文提出了 AgenticSTS,一个面向长周期 LLM 智能体的有限内存契约,每个决策均通过类型化检索构建的全新用户消息做出,不附加任何跨决策的原始对话记录,从而使提示长度在任意长度的运行中保持有界。该契约在封闭规则牌组构建游戏《杀戮尖塔 2》中实例化,该游戏需要数百次战术和战略决策。同一游戏上的公开在线基准测试中,前沿 LLM 在最低难度下零胜,而开发者报告的人类胜率在同一难度下为 16%,表明任务困难但尚未饱和。在作者的测试框架中,一项消融实验显示,未启用触发式战略技能的基线模型 10 局中赢得 3 局,增加技能层后胜局提升至 6 局(方向性结果,Fisher 精确检验 p≈0.37)。作者发布了一个可复现的测试平台,包含 298 条带条件标签的完整轨迹、冻结的内存/技能快照、提示记录和分析脚本。
HUGGINGFACE··重点
该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域,并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分,扩散模型匹配或超越了自回归性能,且解码速度加快3.5-4.4倍。微调后的模型(激活参数3.8B)与前沿视觉语言模型竞争激烈。更重要的是,扩散范式支持任意顺序的文本填充:放射科医生可修正报告片段,模型能生成夹在中间的文字,这一能力是自回归模型难以提供的,适合风格与完整度不一致的真实放射学报告。