ARXIV··重点
该论文推导了线性高斯逆问题在一般高斯插值下的闭式精确后验评分,将后验采样简化为在算子相关偏移锚点及各向异性噪声协方差下的去噪问题。精确后验评分(EPS)方法定义了一个与标准预训练结构一致的去噪训练目标,支持从头训练或微调预训练去噪器。推理时,EPS直接使用骨干采样器,无需似然梯度或投影。在FFHQ和ImageNet上的五种线性逆任务评估中,EPS在保真度、感知和分布指标上均优于无训练和基于训练的基线,同时去噪器评估次数比基于梯度的后验采样器减少约一个数量级。
ARXIV··重点
在线强化学习微调预训练的视觉语言动作策略时,稀疏的二元回合结果会混淆可行性与效率,无法提供逐步监督,并且简单地将回合结果分配给含有人工干预的片段会导致错误的信用分配。本文提出分层优势加权行为克隆(HABC),分别训练可行性和效率的评估头,并通过状态自适应门控合并单步优势,在成功不确定时优先关注可行性,仅当可行性高时才转向效率;干预感知的信用分配仅将结果标签赋予自主执行片段,防止监督泄漏。在三个接触密集型双手灵巧操作的真实机器人任务上,HABC将监督微调基线的成功率从36%、44%和12%分别提升至92%、88%和38%。
ARXIV·
DeepRubric 是一个数据构建框架,它反转了通常为查询生成评分标准的流程。该框架先从种子主题出发,递归扩展证据支撑的子问题,构建一棵证据树;随后以树的叶子节点作为原子化、可验证的评估目标,合成对齐的查询-评分标准对。由此确保奖励信号准确评估查询所要求的信息。作者利用 9K 条此类样本,以基于评分标准的 GRPO 训练了 DeepRubric-8B,使其在三个基准上的性能与之前开源的最佳深度研究模型持平,而所需的强化学习 GPU 小时仅约 1/13。
ARXIV··重点
ExpRL 提出了一种基于强化学习的中期训练方法,将人工编写的问答对作为奖励脚手架,隐藏参考解答,由 LLM 评判器比较采样的推理痕迹并给出密集的结果或过程奖励。该方法能强化部分进展和有用的推理行为,弥补稀疏最终答案奖励的不足。在挑战性数学任务上,ExpRL 作为后续稀疏奖励 RL 的初始化,优于监督微调、稀疏奖励 GRPO 和自我蒸馏。混合领域实验表明该方法可扩展到数学之外。
ARXIV·
本文针对可穿戴设备的行为时间序列(步数、屏幕使用时间、睡眠时长)预测,在三个公开数据集(超过800名参与者)上系统比较了六种深度学习架构、两种零样本基础模型(TimesFM)以及统计基线在1至8天预测窗口内的表现。主要发现:在训练模型中PatchTST表现最优,但TCN、MLP和Transformer之间无显著差异;基础模型TimesFM零样本性能持平或优于训练模型,尤其在少数据场景下;对参与者进行个体微调可使RMSE降低16%至60%,其中睡眠预测收益最大。这是首次联合评估深度学习、基础模型和个性化策略在多时间尺度移动健康行为预测中的研究。
ARXIV··重点
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。