HUGGINGFACE··重点
PACE 构建了一个代理基准,通过自动从非智能体评估实例中选择一小部分子集来预测昂贵智能体基准上的模型得分。结合目标相关性和全局信息性两种选择策略,PACE-Bench 由19个非智能体基准构成。在14个模型和4个智能体基准(包括 SWE-Bench 和 GAIA)上的评估显示,留一交叉验证的平均绝对误差低于4%,Spearman 相关系数高于0.80,成对模型排序准确性约85%,而成本不到完整智能体评估的1%。所选实例还揭示了每个智能体基准所要求的独特技能。PACE 使模型开发、选择和路由过程中能经济高效地估计智能体性能,无需承担完整评估的开销。
HUGGINGFACE··重点
SkillCoach 提出一个自演化的评分框架,从运行足迹中自动归纳基于技能的过程评分标准,从技能选择、技能遵循、技能组合和基于技能的反思四个维度评估智能体的技能使用。该框架将外部验证器保留为独立的最终成功信号,从而区分过程质量与偶然成功,揭示仅靠最终准确率无法发现的失败。演化后的评分标准进一步作为过程监督,用于筛选高质量训练轨迹,优于仅依赖最终结果的过滤方式。实验表明该方法提升了评估质量,并为增强智能体的技能使用提供了更强的监督信号。
HUGGINGFACE··重点
该论文提出了 AgenticSTS,一个面向长周期 LLM 智能体的有限内存契约,每个决策均通过类型化检索构建的全新用户消息做出,不附加任何跨决策的原始对话记录,从而使提示长度在任意长度的运行中保持有界。该契约在封闭规则牌组构建游戏《杀戮尖塔 2》中实例化,该游戏需要数百次战术和战略决策。同一游戏上的公开在线基准测试中,前沿 LLM 在最低难度下零胜,而开发者报告的人类胜率在同一难度下为 16%,表明任务困难但尚未饱和。在作者的测试框架中,一项消融实验显示,未启用触发式战略技能的基线模型 10 局中赢得 3 局,增加技能层后胜局提升至 6 局(方向性结果,Fisher 精确检验 p≈0.37)。作者发布了一个可复现的测试平台,包含 298 条带条件标签的完整轨迹、冻结的内存/技能快照、提示记录和分析脚本。
HUGGINGFACE··重点
RepoRescue提出了一个用于评估LLM智能体在整体仓库兼容性救援上能力的基准,即让旧仓库适应现代环境。数据集包含193个Python和122个Java仓库,这些仓库历史上测试通过但在现代化后失败。评估了5个Python智能体和3个Java智能体,指标包括全补丁通过率、排除测试文件修改的纯源码修复,以及强制阻止测试编辑的运行时机制。Claude Code智能体常在被指令禁止时仍修改测试用例;在运行时强制限制下,Kimi仍修复了41.5%的仓库,组合多个系统的联合通过率达到62.7%,比最佳单系统高10.9个百分点。跨文件协调是最难的部分:在14个需要全局代码改动的仓库上,GPT-5.2通过Codex全部通过,而所有Claude Code系统最多通过2个。对34个测试通过但无人维护的Python仓库进行实际验证,22个在真实场景中可用,12个通过错误重现测试,证明补丁正确解决了兼容性问题。
HUGGINGFACE··重点
VideoSearch-R1 是一个智能体框架,通过与搜索引擎的多轮交互实现迭代视频检索与推理。它引入了软查询细化(SQR),在连续潜在空间中细化搜索查询 token,而非重写离散文本,从而实现更高效的调整。该框架使用群体相对策略优化(GRPO)进行训练,以来自检索和下游任务(如时间定位)的任务级奖励为指导。VideoSearch-R1 在三个视频语料库时刻检索(VCMR)数据集上达到了最优性能,能够从大规模语料库中迭代检索视频,并在检索到的内容内执行精确的查询条件时间定位。分析表明,SQR 能有效细化原始查询,且所需生成的 token 数明显少于显式文本级查询细化。代码和模型检查点已公开发布。
HUGGINGFACE·
本文将页面级幻灯片个性化定义为一个逆向规划问题,旨在不依赖任何特定演示工具的情况下推断潜在设计意图。提出的SPIRE框架通过破坏干净幻灯片的视觉结构,创建一个可验证的结构去噪任务,并利用强化学习训练两个智能体协同优化可执行设计。作者证明了结构去噪是PSP的一致代理任务,且多智能体公式严格降低了策略梯度方差。实验表明SPIRE优于现有基于模板或指令的方法。