论文 来源: ARXIV 2026年6月12日 重要度: 4/5
Ion Matei等人提出了一个空中野火抑制规划框架,整合了混合神经-元胞自动机火灾蔓延模型与基于梯度的优化方法。该模型根据地形、燃料和风输入预测空间变化的火灾行为,干预模块决定具有连续位置和方向参数的二元投放动作。水和阻燃剂被分别表示为立即减少活跃燃烧和持续降低未来蔓延的不同抑制效果。偶然不确定性通过每日火情状态的蒙特卡洛采样量化,认知不确定性通过空间相关的预测误差扰动量化。基于2020年熊火的案例研究表明,该框架能生成连贯的空中抑制时间表,并支持对干预策略进行不确定性分析。
论文 来源: ARXIV 2026年6月12日 重要度: 3/5
该论文将强化学习中的盾牌合成从运行时安全机制重新阐述为一种用于评估网络防御性的设计时分析工具。它通过一个受约束的双玩家安全博弈来实例化网络防御,产出防御性判定(拓扑-规约对是否可防御)、获胜区域、盾牌以及从吸引子计算中导出的拓扑级指标。这些形式化度量与对抗多智能体强化学习收敛后的行为相结合,形成防御性指纹。假设分析表明,形式防御性和运行有效性捕捉了安全的不同方面:微小的体系结构变化会导致运行结果的巨大变化,而形式安全余量几乎不变。研究认为,盾牌合成的最大价值在于回答关于系统是否、何处以及如何能防御的体系结构问题,而非仅仅产出安全策略。
论文 来源: ARXIV 2026年6月12日 重要度: 4/5
该论文提出基准测试FORGE,测量当检索网页被污染时,搜索增强型大语言模型推荐虚假产品的频率。FORGE将225个真实产品、15个类别、5种消费场景中的描述改写为虚假内容,并测试了12个商业和开源模型。单个污染页面导致模型被欺骗推荐虚假产品的概率最高达27%,而污染前三个搜索结果则使该概率升至73.8%。漏洞随产品类别而异,对模型先验知识较弱的产品更易被利用,且推理模型有时会编造社会证明,加剧虚假推荐。论文评估了三种防御措施——怀疑提示、基于模型先验的共识过滤和跨文档证据过滤,但怀疑可能适得其反,过滤则可能抑制真实产品推荐。
论文 来源: ARXIV 2026年6月11日 重要度: 4/5
该论文提出一种数据中心的后训练流程,利用可解释性协议分析偏好数据集,揭示区分喜欢与不喜欢输出的潜在概念,并使之显式化以供用户反馈。该方法能诊断出过度风格化、迎合等不良信号,并通过概念层面的干预减轻非目标学习。它统一了多种基于可解释性的训练协议,将其视为通过特征或数据干预塑造奖励的方式。实验表明,该方法能增强安全保护、模型个性等期望属性,将不透明的标量奖励优化转变为可审计的训练信号雕刻过程。
论文 来源: ARXIV 2026年6月11日 重要度: 4/5
本文提出了ALIGNBEAM,一种无需训练的方法,可在推理时将安全对齐从锚模型迁移到目标专业模型,即使两者词表不同也能工作。该方法在每个解码步骤将锚逻辑值逐Token翻译到目标词表,然后由一个小型LLM评审选择最安全的K个候选续写。不修改任何模型权重,安全-效用权衡可在部署时调节。在跨词表和同词表的评估中,ALIGNBEAM在对抗性安全基准上将拒绝率大幅提升,同时保持任务准确率和可接受的推理开销。结果表明,安全对齐可以在推理时跨模型家族传递,无需改动模型权重。
论文 来源: ARXIV