OPENREVIEW · 2026年6月28日 · 重点
该论文指出受限强化学习中的三个根本缺陷:未知的随机后果延迟导致TD目标错误,对因果效应与已有后果的混淆造成系统性过罚或欠罚,以及将乘子内嵌入单一Q函数导致贝尔曼目标在乘子更新时非平稳。CCPL提出延迟修正的贝尔曼算子,学习完整延迟分布并计算自适应有效折扣因子,首次给出了该情形下的收缩性证明。证明状态条件的λ(s)严格优于任何标量λ,弥补了现有理论的空白,并用干预后果网络(基于环境结构因果模型真实标签预训练)估计边际因果贡献来代替成本估计。CCPL分离奖励与约束Q函数,保持目标平稳且仅在推理时组合惩罚值。在6个环境(含对抗场景)和8个基线中,CCPL是唯一同时获得高奖励(+4.84)和完全约束满足(100%)的智能体,且核心定理在每次训练中均经机器验证。
OPENREVIEW · 2026年6月28日 · 重点
本文提出了一种时空风险评估的统一Dirichlet框架,证明了每个空间单元维护的单个Dirichlet后验及其加性证据更新规则是满足四个公理的唯一更新-预测对,并与七种经典方法(AHP、Dempster–Shafer、Hawkes过程等)极限等价。该框架从后验中同时输出危险严重性评分和威胁特征描述。在大规模基准测试(41个区域×10,000单元×365天)中,它的one-vs-rest AUROC为0.666,严重度AUROC为0.725,统计显著优于15个结构化基线(Holm校正p < 10⁻²⁶),威胁特征描述准确率达到79.1%,而AUROC相当的竞争方法仅为0–26%。向169万伦敦和11.9万芝加哥犯罪事件的真实迁移保持了双重输出优势,预注册专业化实验证实运行配置优于匹配的专用方法。该方法仅需七个独立模型3.6分之一的内存(每单元128字节 vs 464字节),吞吐量达41K信号/秒。
OPENREVIEW · 2026年6月28日 · 重点
该论文首次将大视觉语言模型(LVLM)中的物体幻觉溯源至视觉编码器,指出统计偏差、固有偏差和脆弱性三个关键问题。为解决这些问题,提出了无需训练的框架 SHIELD,通过三种策略缓解幻觉:重加权视觉令牌以降低统计偏差、引入噪声衍生令牌对抗固有偏差、采用对抗攻击与对比解码应对脆弱性。在多个基准和 LVLM 家族上的实验表明,SHIELD 有效减少了物体幻觉,并保持了强大的通用性能,代码已开源。
OPENREVIEW · 2026年6月28日 · 重点
AI皮肤癌分诊系统在深肤色患者中每千人约产生106次不必要的额外转诊,原因并非漏诊,而是过度预测。其根源在于黑色素浓度降低皮损与背景的光学对比度,导致类别重叠。作者用信噪比(SNR)框架形式化该机制,预测从浅肤色到深肤色SNR下降5.2倍。在HAM10000数据集高置信度ITA子集上,深肤色灵敏度略高(0.848 vs. 0.821),但特异性显著更低(0.720 vs. 0.831,降幅11.1个百分点)。消融研究对比了ITA色调调节(特征校准)与深肤色增强(决策边界调整),揭示两者独立效果。零样本迁移至DDI数据集(n=656)确认了AUC差距。代码和训练权重已公开发布。
OPENREVIEW · 2026年6月28日 · 重点
IncidentMind 是一个面向生产级AI故障自主根因分析的令牌预算多智能体系统。它通过MCP将Slack、Confluence和Jira预同步至HydraDB时序知识图谱,使所有智能体查询简化为单次图谱遍历。三层推理策略(同步时使用minilm-l6,智能体使用量化Llama-3-14B,仅当置信度低于85%时调用GPT-4o-mini)将单次事件成本从1.50美元降至0.003美元。结构化令牌预算将50,000条原始日志令牌压缩至1,050条(缩减98%)。在847个生产事件的评估中,IncidentMind实现了91%的修复准确率,并将平均检测时间从4.2小时缩短至3分钟。
OPENREVIEW · 2026年6月28日 · 重点
本文提出自对齐奖励(SAR),一种细粒度的强化学习信号,用于补充可验证奖励,以提升大语言模型推理的准确性和效率。SAR定义为基于查询条件的回答与独立回答之间的相对困惑度差异,从而奖励简洁且与查询相关的回答,抑制冗余。定量分析表明SAR能可靠地判断答案质量,给简洁正确的答案打出更高分。在四个模型家族、七个基准上,将SAR集成到PPO或GRPO中可平均减少30%的回答长度,同时提升4%的准确率,且具有强域外泛化能力。该方法在正确性与效率之间实现了帕累托最优前沿,在缩短不必要展开的同时保留高级推理行为。代码和数据已公开。