变形为混合注意力模型
该论文提出FlashMorph方法,通过将层选择建模为预算约束优化问题,将标准Transformer转换为混合注意力模型。它利用可变形模型和线性化正则化决定哪些层保留完全注意力、哪些替换为线性注意力,并考虑全局层间依赖关系。该方法优于启发式选择策略,能发现保持长上下文召回和整体性能的高效配置,同时降低了层选择本身的计算成本,具有可扩展性。
该论文提出FlashMorph方法,通过将层选择建模为预算约束优化问题,将标准Transformer转换为混合注意力模型。它利用可变形模型和线性化正则化决定哪些层保留完全注意力、哪些替换为线性注意力,并考虑全局层间依赖关系。该方法优于启发式选择策略,能发现保持长上下文召回和整体性能的高效配置,同时降低了层选择本身的计算成本,具有可扩展性。
研究人员提出了Qwen-Image-2.0-RL,一种通过强化学习增强图像生成和编辑扩散模型的方法。该方法结合了RLHF和在策略蒸馏,微调视觉语言模型,并在可扩展的RL训练框架中构建任务特定的奖励模型。混合无分类器引导策略和按类别奖励权重校准进一步提升了性能,在多个评估指标上实现了视觉质量、指令遵循和编辑准确性的显著提升。