AI 信息流

HUGGINGFACE2026年7月2日

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布了 HARC-Qwen2.5-7B-Instruct，这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型，以 Apache 2.0 许可证在 Hugging Face 上开放，采用 safetensors 格式，支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。

HUGGINGFACE2026年7月2日

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。

HUGGINGFACE2026年7月2日重点

AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

AGVBench是一个综合性基准，在五个公开的掌静脉和指静脉数据集上，使用七种骨干架构（包括CNN、视觉Transformer和静脉专用模型）评估了30种数据增强策略。多图像混合方法（MixUp、PuzzleMix、StarMixup）取得了最高的识别精度，但校准性差且容易受到对抗扰动攻击。剧烈的几何变换通常因特征错位或空间裁剪导致性能下降。结果表明，仅以精度为中心的评价不足以满足生物特征数据增强的需求，必须考虑安全性和鲁棒性。AGVBench提供了标准化协议和开源代码，以推动可复现且安全的静脉识别研究。

HUGGINGFACE2026年7月2日重点

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

该论文表明，密集的在策略自蒸馏（SDPO）在教师信号稳定时能加速领域内专化，但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下，在策略强化学习方法（如GRPO）的适应更为保守，能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移，并通过自我强化的师生循环放大高频格式化伪影。研究警告，仅在策略数据不足以实现持续学习，密集自蒸馏不应被当作默认的稳定器。

HUGGINGFACE2026年7月2日重点

PACE: A Proxy for Agentic Capability Evaluation

PACE 构建了一个代理基准，通过自动从非智能体评估实例中选择一小部分子集来预测昂贵智能体基准上的模型得分。结合目标相关性和全局信息性两种选择策略，PACE-Bench 由19个非智能体基准构成。在14个模型和4个智能体基准（包括 SWE-Bench 和 GAIA）上的评估显示，留一交叉验证的平均绝对误差低于4%，Spearman 相关系数高于0.80，成对模型排序准确性约85%，而成本不到完整智能体评估的1%。所选实例还揭示了每个智能体基准所要求的独特技能。PACE 使模型开发、选择和路由过程中能经济高效地估计智能体性能，无需承担完整评估的开销。

HUGGINGFACE2026年7月2日重点

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

SkillCoach 提出一个自演化的评分框架，从运行足迹中自动归纳基于技能的过程评分标准，从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号，从而区分过程质量与偶然成功，揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督，用于筛选高质量训练轨迹，优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量，并为增强智能体的技能使用提供了更强的监督信号。

过滤噪音，保留 AI 信号。

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

PACE: A Proxy for Agentic Capability Evaluation

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use