The Value Axis: Language Models Encode Whether They're on the Right Track
内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
203 条内容
内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。
作者提出 ContextRL,一种上下文感知的强化学习方法,提升大语言模型在长程推理和多模态任务上的表现。该方法通过间接目标训练:模型需从两个高度相似的上下文中选出支持给定问答对的那个,从而获得奖励,促进细粒度的证据定位。通过条件过滤和生成式编辑,他们从编码智能体的执行轨迹构建了 1,000 对对比上下文数据,从多模态图像构建了 7,000 对。ContextRL 在 5 个长程基准测试上平均比标准 GRPO 提高 2.2%,在 12 个视觉问答基准上提高 1.8%。仅将相同对比数据作为标准示例的数据增强基线提升甚微,证实性能增益来自上下文选择目标而非额外数据。
该论文推导了线性高斯逆问题在一般高斯插值下的闭式精确后验评分,将后验采样简化为在算子相关偏移锚点及各向异性噪声协方差下的去噪问题。精确后验评分(EPS)方法定义了一个与标准预训练结构一致的去噪训练目标,支持从头训练或微调预训练去噪器。推理时,EPS直接使用骨干采样器,无需似然梯度或投影。在FFHQ和ImageNet上的五种线性逆任务评估中,EPS在保真度、感知和分布指标上均优于无训练和基于训练的基线,同时去噪器评估次数比基于梯度的后验采样器减少约一个数量级。
该论文提出几何动作模型(GAM),一种语言条件下的操控策略,通过重构预训练的几何基础模型(GFM)显式引入3D几何信息以处理需要精细接触的任务。GAM在GFM的中间层进行拆分,浅层用于观测编码,并插入一个因果未来预测器,该预测器根据语言指令、本体感知和动作历史预测未来的隐式令牌。预测的令牌随后流经剩余的GFM模块,使得同一骨干网络能以最小的架构改动同时输出未来几何场景和机器人动作。在仿真和真实机器人基准测试中,GAM在准确性、鲁棒性、速度和模型轻量化方面均优于现有的基础模型规模方法。
在线强化学习微调预训练的视觉语言动作策略时,稀疏的二元回合结果会混淆可行性与效率,无法提供逐步监督,并且简单地将回合结果分配给含有人工干预的片段会导致错误的信用分配。本文提出分层优势加权行为克隆(HABC),分别训练可行性和效率的评估头,并通过状态自适应门控合并单步优势,在成功不确定时优先关注可行性,仅当可行性高时才转向效率;干预感知的信用分配仅将结果标签赋予自主执行片段,防止监督泄漏。在三个接触密集型双手灵巧操作的真实机器人任务上,HABC将监督微调基线的成功率从36%、44%和12%分别提升至92%、88%和38%。
该论文提出MetaSyn数据集,包含442篇经专家整理的《自然》系列期刊荟萃分析,每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中,对12种流程配置(9种检索增强生成方案和1种基于协议的智能体)进行了基准测试。尽管在K=200时检索召回率达90.9%,但没有任何系统对真实纳入文献的召回率超过52.7%,暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点,作者建议使用分阶段归因指标,而非单一的端到端评分。