机器人策略学习的几何动作模型
该论文提出几何动作模型(GAM),利用预训练的几何基础模型来增强三维物理环境中的语言条件操纵。GAM将预训练基础模型分为观测编码层和未来预测层,使其能够根据语言、本体感知和动作历史预测未来令牌,然后解码为动作。这种三维感知方法在模拟和真实机器人接触密集任务中,较传统二维视觉-语言-动作模型显著提升了准确性、鲁棒性、效率和速度。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
43 条内容
该论文提出几何动作模型(GAM),利用预训练的几何基础模型来增强三维物理环境中的语言条件操纵。GAM将预训练基础模型分为观测编码层和未来预测层,使其能够根据语言、本体感知和动作历史预测未来令牌,然后解码为动作。这种三维感知方法在模拟和真实机器人接触密集任务中,较传统二维视觉-语言-动作模型显著提升了准确性、鲁棒性、效率和速度。
该论文提出了Data2Story,一个通过模拟虚拟新闻编辑室中不同角色的多智能体框架,来自动化数据新闻生产。它能够生成基于证据的多格式新闻故事,包括文字报道、交互地图和音频,并链接数据源以确保可验证性。在与人类专家记者的对比评估中,Data2Story展现出有竞争力的表现,尤其在透明度和可审计性方面突出,但人类记者在编辑角度和创意设计方面仍占优势。该系统被定位为记者的协作工具。
FastContext 将仓库探索与代码求解解耦,避免无关代码片段消耗大量 token。它使用专门的探索模型作为子智能体,并行调用工具并仅提供精确的文件路径与行号范围作为上下文。该方法可将 token 消耗降低高达 60%,同时将任务解决率提升最多 5.5%。
APPO 是一种新的智能体强化学习方法,旨在增强大语言模型智能体的多轮工具调用能力。它通过关注细粒度的 token 级别决策点而非粗粒度的交互单元,改进分支选择与功劳分配。该方法利用 token 不确定性和策略诱导的似然增益来选择分支位置,从而实现更精准的探索,并在分支展开间更合理地分配功劳。在 13 个基准测试中,APPO 相较于现有智能体强化学习方法平均提升约 4 个百分点,同时确保高效的工具调用并保持行为可解释性。
HarnessX 是一个实现可组合、自适应、可进化的智能体运行时框架的平台。它引入了组合原语和 AEGIS(一种基于执行反馈的轨迹驱动进化引擎)以迭代优化框架设计。该平台通过代换代数取代了传统静态、手工编写的框架,实现动态适配。在多个基准测试中,HarnessX 相比传统框架平均性能提升了 +14.5%,证明在模型规模之外,运行时接口的进化同样关键。完整代码库将于未来发布。
OmniDirector 提出了一种统一的相机运动克隆框架,利用网格运动视频直观编码相机参数,支持多镜头场景下的多样化轨迹。该方法在大规模相机网格-视频对数据集上训练,无需交叉配对数据。框架通过多模态扩散变换器整合角色、动作和相机,实现导演级控制;并采用分层提示扩展代理协调不同控制信号,增强相机运动和视觉内容描述。大量实验表明其性能和控制能力优于现有方法。