AI 信息流

OPENREVIEW2026年6月28日重点

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

该论文首次将大视觉语言模型（LVLM）中的物体幻觉溯源至视觉编码器，指出统计偏差、固有偏差和脆弱性三个关键问题。为解决这些问题，提出了无需训练的框架 SHIELD，通过三种策略缓解幻觉：重加权视觉令牌以降低统计偏差、引入噪声衍生令牌对抗固有偏差、采用对抗攻击与对比解码应对脆弱性。在多个基准和 LVLM 家族上的实验表明，SHIELD 有效减少了物体幻觉，并保持了强大的通用性能，代码已开源。

OPENREVIEW2026年6月28日重点

SELF-ALIGNED REWARD: TOWARDS EFFECTIVE AND EFFICIENT REASONERS

本文提出自对齐奖励（SAR），一种细粒度的强化学习信号，用于补充可验证奖励，以提升大语言模型推理的准确性和效率。SAR定义为基于查询条件的回答与独立回答之间的相对困惑度差异，从而奖励简洁且与查询相关的回答，抑制冗余。定量分析表明SAR能可靠地判断答案质量，给简洁正确的答案打出更高分。在四个模型家族、七个基准上，将SAR集成到PPO或GRPO中可平均减少30%的回答长度，同时提升4%的准确率，且具有强域外泛化能力。该方法在正确性与效率之间实现了帕累托最优前沿，在缩短不必要展开的同时保留高级推理行为。代码和数据已公开。

过滤噪音，保留 AI 信号。

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

SELF-ALIGNED REWARD: TOWARDS EFFECTIVE AND EFFICIENT REASONERS