论文 来源: ARXIV 2026年6月12日 重要度: 4/5
本文推出了EvoArena评测基准,模拟终端、软件和社交领域中渐进式环境变化来测试LLM代理。现有代理在EvoArena上平均准确率仅为39.6%。作者提出EvoMem,一种基于补丁的记忆范式,以结构化更新历史记录环境演化,使得代理能通过记忆变化推理环境动态。EvoMem在EvoArena上带来1.5个百分点的绝对提升,同时在GAIA和LoCoMo基准上分别提高了6.1和4.8个百分点。在需要连续完成多个相关子任务的链式任务中,准确率提升3.7个百分点。机理分析表明EvoMem能更完整地捕获不断变化的环境状态。
论文 来源: ARXIV 2026年6月12日 重要度: 4/5
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。
论文 来源: ARXIV 2026年6月12日 重要度: 3/5
Mana 是一个从仿真到现实(sim-to-real)的框架,将关节工具的灵巧操作重新定义为动画问题。它采用由粗到精的流水线,将程序生成的抓取关键帧与运动规划和强化学习相结合。数据生成仅需几次鼠标点击来指定功能可供性,每个工具不到一分钟。该方法在四种不同规模和关节类型的关节工具上实现了抓取和手中操作的零样本 sim-to-real 迁移,展示了一种可扩展的关节工具使用方案。
论文 来源: ARXIV 2026年6月12日 重要度: 4/5
SpatialClaw是一个无需训练的框架,采用代码执行作为动作接口,通过维护一个有状态的Python内核,预加载输入帧以及感知与几何原语,让基于VLM的智能体根据过往输出逐步编写可执行单元。在20个涵盖静态与动态的3D/4D空间推理基准上,平均准确率达到59.9%,较此前的最佳空间智能体提升11.2个百分点。在六个来自两个模型家族的VLM骨干上均获一致增益,无需针对基准或模型进行特化调整。结果表明,灵活的迭代式代码接口在开放式空间任务上显著优于单次执行或结构化工具调用的设计。
论文 来源: ARXIV 2026年6月12日 重要度: 3/5
本文研究了图神经网络中截断位置编码的理论表达能力,这些编码因计算效率而在实践中普遍使用。研究表明,在截断条件下,原本表达能力等价的谱编码和游走编码系列产生了根本性差异,其中截断谱编码不再强于1-WL测试。作者引入了k-调和距离来进一步对比相近的截断谱编码。在真实数据集上的实验表明,混合不同截断编码系列的表现优于使用任何单一编码系列。
论文 来源: ARXIV 2026年6月12日 重要度: 4/5
研究人员在76项已发表的社会与行为科学研究上评估了一个LLM流水线,这些研究均带有预定义结论。排除7项LLM无法生成有效效应量估计的研究,该流水线在剩余41%的研究中以±0.05 Cohen's d的容差恢复了原始效应量。它在96%的案例中得出了与原始研究相同的定性结论,优于人类再分析者34%的效应量恢复率和74%的结论一致性。这些结果表明LLM能够自动化并扩展可重复性评估,为系统性审核实证结果奠定了基础。