Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

2 条内容

TELEGRAM HUGGINGFACEPAPERS2026年6月13日重点

MiniMax 稀疏注意力

MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文（数十万至数百万 token）的新方法。它利用块级稀疏性和优化的 GPU 执行路径，在训练和推理中实现显著加速，同时保持性能水平。该方法基于分组查询注意力 (GQA)，引入轻量级索引分支用于分组稀疏 token 检索，以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计，可跨 GPU 扩展，已部署于生产级多模态模型，降低了每 token 的注意力计算量。其推理内核和模型已公开发布。

TELEGRAM HUGGINGFACEPAPERS2026年6月4日重点

KVarN：方差归一化KV缓存量化方法缓解推理任务中的误差累积

KVarN 是一种无需校准的 KV 缓存量化器，可缓解大语言模型自回归解码中的误差累积。它通过对 K 和 V 矩阵应用 Hadamard 旋转和双缩放方差归一化，纠正 token 尺度误差，显著减少了与现有方法相比的累积误差。在 Qwen2.5-Coder-32B-Instruct 上评估，KVarN 在 MATH500、AIME24 和 HumanEval 等生成基准上以 2 比特精度取得了更好的结果。vLLM 实现已在 GitHub 上开源。