Causal Consequence-Penalized Learning: Correcting the TD Target for Stochastic Delay and Action Attribution
该论文指出受限强化学习中的三个根本缺陷:未知的随机后果延迟导致TD目标错误,对因果效应与已有后果的混淆造成系统性过罚或欠罚,以及将乘子内嵌入单一Q函数导致贝尔曼目标在乘子更新时非平稳。CCPL提出延迟修正的贝尔曼算子,学习完整延迟分布并计算自适应有效折扣因子,首次给出了该情形下的收缩性证明。证明状态条件的λ(s)严格优于任何标量λ,弥补了现有理论的空白,并用干预后果网络(基于环境结构因果模型真实标签预训练)估计边际因果贡献来代替成本估计。CCPL分离奖励与约束Q函数,保持目标平稳且仅在推理时组合惩罚值。在6个环境(含对抗场景)和8个基线中,CCPL是唯一同时获得高奖励(+4.84)和完全约束满足(100%)的智能体,且核心定理在每次训练中均经机器验证。