HUGGINGFACE··重点
AGVBench是一个综合性基准,在五个公开的掌静脉和指静脉数据集上,使用七种骨干架构(包括CNN、视觉Transformer和静脉专用模型)评估了30种数据增强策略。多图像混合方法(MixUp、PuzzleMix、StarMixup)取得了最高的识别精度,但校准性差且容易受到对抗扰动攻击。剧烈的几何变换通常因特征错位或空间裁剪导致性能下降。结果表明,仅以精度为中心的评价不足以满足生物特征数据增强的需求,必须考虑安全性和鲁棒性。AGVBench提供了标准化协议和开源代码,以推动可复现且安全的静脉识别研究。
HUGGINGFACE··重点
PACE 构建了一个代理基准,通过自动从非智能体评估实例中选择一小部分子集来预测昂贵智能体基准上的模型得分。结合目标相关性和全局信息性两种选择策略,PACE-Bench 由19个非智能体基准构成。在14个模型和4个智能体基准(包括 SWE-Bench 和 GAIA)上的评估显示,留一交叉验证的平均绝对误差低于4%,Spearman 相关系数高于0.80,成对模型排序准确性约85%,而成本不到完整智能体评估的1%。所选实例还揭示了每个智能体基准所要求的独特技能。PACE 使模型开发、选择和路由过程中能经济高效地估计智能体性能,无需承担完整评估的开销。
HUGGINGFACE··重点
SkillCoach 提出一个自演化的评分框架,从运行足迹中自动归纳基于技能的过程评分标准,从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号,从而区分过程质量与偶然成功,揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督,用于筛选高质量训练轨迹,优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量,并为增强智能体的技能使用提供了更强的监督信号。
HUGGINGFACE··重点
该论文提出了 AgenticSTS,一个面向长周期 LLM 智能体的有限内存契约,每个决策均通过类型化检索构建的全新用户消息做出,不附加任何跨决策的原始对话记录,从而使提示长度在任意长度的运行中保持有界。该契约在封闭规则牌组构建游戏《杀戮尖塔 2》中实例化,该游戏需要数百次战术和战略决策。同一游戏上的公开在线基准测试中,前沿 LLM 在最低难度下零胜,而开发者报告的人类胜率在同一难度下为 16%,表明任务困难但尚未饱和。在作者的测试框架中,一项消融实验显示,未启用触发式战略技能的基线模型 10 局中赢得 3 局,增加技能层后胜局提升至 6 局(方向性结果,Fisher 精确检验 p≈0.37)。作者发布了一个可复现的测试平台,包含 298 条带条件标签的完整轨迹、冻结的内存/技能快照、提示记录和分析脚本。
HUGGINGFACE·
AnyGroundBench是一个新的基准,用于评估视觉语言模型在时空视频定位(STVG)中的表现,将评估范式从零样本测试转向严格的领域适应。它涵盖五个专业领域:动物、工业、体育、手术和公共安全,使用新采集的视频和现有数据集,并带有密集的时空标注。基准提供了专门的训练子集,以系统地衡量领域适应能力。对15个最先进的VLM的评估表明,所有模型在零样本和上下文学习方式下都无法适应,暴露了其时空推理能力的关键缺陷。
HUGGINGFACE··重点
该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域,并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分,扩散模型匹配或超越了自回归性能,且解码速度加快3.5-4.4倍。微调后的模型(激活参数3.8B)与前沿视觉语言模型竞争激烈。更重要的是,扩散范式支持任意顺序的文本填充:放射科医生可修正报告片段,模型能生成夹在中间的文字,这一能力是自回归模型难以提供的,适合风格与完整度不一致的真实放射学报告。