TELEGRAM HUGGINGFACEPAPERS··重点
MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文(数十万至数百万 token)的新方法。它利用块级稀疏性和优化的 GPU 执行路径,在训练和推理中实现显著加速,同时保持性能水平。该方法基于分组查询注意力 (GQA),引入轻量级索引分支用于分组稀疏 token 检索,以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计,可跨 GPU 扩展,已部署于生产级多模态模型,降低了每 token 的注意力计算量。其推理内核和模型已公开发布。
TELEGRAM HUGGINGFACEPAPERS··重点
KVarN 是一种无需校准的 KV 缓存量化器,可缓解大语言模型自回归解码中的误差累积。它通过对 K 和 V 矩阵应用 Hadamard 旋转和双缩放方差归一化,纠正 token 尺度误差,显著减少了与现有方法相比的累积误差。在 Qwen2.5-Coder-32B-Instruct 上评估,KVarN 在 MATH500、AIME24 和 HumanEval 等生成基准上以 2 比特精度取得了更好的结果。vLLM 实现已在 GitHub 上开源。