ARXIV·
作者提出 ContextRL,一种上下文感知的强化学习方法,提升大语言模型在长程推理和多模态任务上的表现。该方法通过间接目标训练:模型需从两个高度相似的上下文中选出支持给定问答对的那个,从而获得奖励,促进细粒度的证据定位。通过条件过滤和生成式编辑,他们从编码智能体的执行轨迹构建了 1,000 对对比上下文数据,从多模态图像构建了 7,000 对。ContextRL 在 5 个长程基准测试上平均比标准 GRPO 提高 2.2%,在 12 个视觉问答基准上提高 1.8%。仅将相同对比数据作为标准示例的数据增强基线提升甚微,证实性能增益来自上下文选择目标而非额外数据。
ARXIV··重点
在线强化学习微调预训练的视觉语言动作策略时,稀疏的二元回合结果会混淆可行性与效率,无法提供逐步监督,并且简单地将回合结果分配给含有人工干预的片段会导致错误的信用分配。本文提出分层优势加权行为克隆(HABC),分别训练可行性和效率的评估头,并通过状态自适应门控合并单步优势,在成功不确定时优先关注可行性,仅当可行性高时才转向效率;干预感知的信用分配仅将结果标签赋予自主执行片段,防止监督泄漏。在三个接触密集型双手灵巧操作的真实机器人任务上,HABC将监督微调基线的成功率从36%、44%和12%分别提升至92%、88%和38%。
ARXIV·
该论文提出了FusionRS,首个面向遥感视觉语言学习的大规模RGB-红外-文本数据集,通过将公开RGB遥感图像转化为红外风格构建,包含对齐的RGB-红外图像对以及常规场景描述和红外感知描述。作者训练了CLIP风格模型用于RGB-红外-文本对齐,并微调生成式视觉语言模型进行双模态图像描述。实验表明,FusionRS在RGB-红外对齐、红外到文本检索和双模态描述任务上显著优于仅使用RGB或未使用红外感知文本的设置。消融研究证实红外感知描述对于强化红外-语言对齐至关重要,强调了模态特定文本监督的重要性。
ARXIV··重点
该论文提出ROVE框架,利用不完美的人类干预对视觉-语言-动作(VLA)模型进行人形机器人操作的强化学习后训练。ROVE通过人在回路的流水线收集实际部署与干预数据,这些轨迹往往次优。为避免模仿犹豫或错误行为,它引入乐观价值估计(OVE),从质量参差不齐的轨迹中优先选择高价值动作。跨具身人类经验视频为长尾故障与恢复模式提供额外监督,改善评价器的优势信号。在真实世界中接触密集和精细操作任务上,ROVE持续优于经验学习基线,并在多次部署-干预迭代中不断提升。
ARXIV··重点
本文提出NEXIS方法,通过将异质处理效应(HTE)识别重构为在充分对齐的预训练多模态表示上进行马尔可夫毯发现,从而避免未观测效应修饰因子导致的虚假因果特征。NEXIS以可证明的筛选一致性迭代选择潜在交互因子。该方法被应用于非洲两个反贫困项目,结合卫星图像捕捉此前未测量的环境修饰因子,生成了可解释的优化指南以改进项目下一轮实施。
ARXIV··重点
研究人员提出了TuneJury,一个开源的实例级成对奖励模型,用于文本到音乐生成,根据文本提示和音频片段预测音乐偏好评分。模型使用公开的人类偏好数据训练,包括竞技场式投票、度量对齐偏好对、众包成对比较和专家美学评分。在留出测试集上得分差值校准良好,可通过简单阈值进行数据过滤,并能泛化至分布外基准。针对训练后新发布的生成器,论文提出锚定校准,一种无需重新训练即可高效恢复一致性的后验Bradley-Terry校准方法。使用该固定的奖励模型,TuneJury在三个下游任务中带来稳定收益:推理时best-of-N选择、DITTO风格潜在优化和专家迭代后训练。模型已在GitHub上开源。