AI 信息流

HUGGINGFACE2026年7月2日重点

AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

AGVBench是一个综合性基准，在五个公开的掌静脉和指静脉数据集上，使用七种骨干架构（包括CNN、视觉Transformer和静脉专用模型）评估了30种数据增强策略。多图像混合方法（MixUp、PuzzleMix、StarMixup）取得了最高的识别精度，但校准性差且容易受到对抗扰动攻击。剧烈的几何变换通常因特征错位或空间裁剪导致性能下降。结果表明，仅以精度为中心的评价不足以满足生物特征数据增强的需求，必须考虑安全性和鲁棒性。AGVBench提供了标准化协议和开源代码，以推动可复现且安全的静脉识别研究。

HUGGINGFACE2026年7月2日重点

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

该论文表明，密集的在策略自蒸馏（SDPO）在教师信号稳定时能加速领域内专化，但在持续后训练中会导致严重遗忘甚至完全崩溃。相比之下，在策略强化学习方法（如GRPO）的适应更为保守，能更好地保留先前能力。更密集的自蒸馏会引起参数空间和响应空间的更大漂移，并通过自我强化的师生循环放大高频格式化伪影。研究警告，仅在策略数据不足以实现持续学习，密集自蒸馏不应被当作默认的稳定器。

HUGGINGFACE2026年7月2日重点

PACE: A Proxy for Agentic Capability Evaluation

PACE 构建了一个代理基准，通过自动从非智能体评估实例中选择一小部分子集来预测昂贵智能体基准上的模型得分。结合目标相关性和全局信息性两种选择策略，PACE-Bench 由19个非智能体基准构成。在14个模型和4个智能体基准（包括 SWE-Bench 和 GAIA）上的评估显示，留一交叉验证的平均绝对误差低于4%，Spearman 相关系数高于0.80，成对模型排序准确性约85%，而成本不到完整智能体评估的1%。所选实例还揭示了每个智能体基准所要求的独特技能。PACE 使模型开发、选择和路由过程中能经济高效地估计智能体性能，无需承担完整评估的开销。

HUGGINGFACE2026年7月2日重点

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

SkillCoach 提出一个自演化的评分框架，从运行足迹中自动归纳基于技能的过程评分标准，从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号，从而区分过程质量与偶然成功，揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督，用于筛选高质量训练轨迹，优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量，并为增强智能体的技能使用提供了更强的监督信号。

HUGGINGFACE2026年7月2日重点

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

WorldDirector 是一个可控的视频世界模型框架，首次明确将语义运动编排与视觉生成过程解耦。它利用大语言模型协调三维物体轨迹与相机运动，并将这些编排好的轨迹作为视频生成的控制信号。这样的设计保证了严格的物理一致性和外观稳定性，并实现持久的动态物体记忆——即使物体长时间离开视野后再次进入场景，其精确的视觉身份也能得以保留。该框架支持不受限制的视角探索，能够合成高可控性的复杂、长时间事件。

HUGGINGFACE2026年7月2日重点

Representation Distribution Matching for One-Step Visual Generation

本文形式化了用于单步图像生成的表征分布匹配（RDM）范式，分析了分布比较方法和表征空间两个设计维度。他们发现经典MMD在使用大批量（>2048）估计时成为强大且可扩展的目标，而任何单一表征都可能被欺骗，因此需要一组编码器及SW_r14评估指标。其改进版iRDM在ImageNet上实现了单步生成新最优（SW_r14 = 1.30），并在71.2%的样本上被PickScore优先于此前最佳单步生成器。该方法还将四步FLUX.2模型后训练为单步生成器，在GenEval（0.826 vs 0.794）和PickScore（22.76 vs 22.58）上超越四步版本，仅需90个H200 GPU小时。

过滤噪音，保留 AI 信号。

AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

PACE: A Proxy for Agentic Capability Evaluation

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

Representation Distribution Matching for One-Step Visual Generation