Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

6 条内容

REDDIT LOCALLLAMA2026年6月11日

学生提出 Silia：一种融合注意力与前馈层的参数高效 Transformer 架构

一位印度学生发布了首篇论文，提出名为 Silia 的新型 Transformer 架构，专为 500 万参数以下的微型模型设计。Silia 将前馈网络（FFN）中的静态线性矩阵替换为注意力机制，将动态信息混合与强非线性统一为单个操作以节省参数。实验中，0.8M 参数的 Silia 模型在相同训练条件下达到了与 GPT-2（nanoGPT）基线相近的损失，但使用的参数显著更少。受限于老旧硬件（4M 模型在个人电脑上训练需 3-4 天），论文仅给出了亚 10M 参数规模的初步结果。作者将该研究视为想法的引入而非最终结论，代码尚未公开。

REDDIT LOCALLLAMA2026年6月10日重点

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现超长上下文的闪电索引

论文提出前瞻稀疏注意力（LSA），一种基于神经记忆索引器并与DeepSeek‑V4架构结合的新型推理范式。该方法主动预测未来上下文需求，仅在GPU内存中保留查询关键的KV块，而非保留全部KV缓存。索引器通过无骨干解耦训练策略独立训练，采用双编码器检索框架，无需加载完整骨干模型。在LongBench‑v2、LongMemEval和RULER等长上下文评测中，FM‑DS‑V4将物理KV缓存压缩至全上下文基线的13.5%，同时平均准确率绝对提升0.6个百分点。在50万tokens的极端规模下，物理KV缓存开销被抑制超过90%，且无损骨干模型的核心推理能力。代码与权重已在GitHub和HuggingFace公开。

REDDIT LOCALLLAMA2026年6月9日

SCAIL-2：支持跨身份替换与动物驱动的开源端到端角色动画模型发布

SCAIL-2是一个开源端到端可控角色动画模型，去除了对中间姿态表示的依赖。它利用多个教师模型（SCAIL-Preview、Wan-Animate、MoCha）合成的6万组运动对，通过统一运动传递接口进行训练。该模型能够通过驱动视频为参考角色生成动画，支持跨身份角色替换、多角色场景以及动物驱动，并具备对SAM3D-Body网格渲染等高级控制中间件的零样本支持。

REDDIT LOCALLLAMA2026年6月9日重点

ICML 2026 论文提出可预测幻觉的弃权门控机制，并发布面向开源模型的免训练工具 ntkMirror

论文《可预测的压缩失败》（ICML 2026）针对证据根基问答中的幻觉问题，将证据顺序敏感性建模为排列分散，推导出期望级解压缩定律（EDFL）。据此定义了一个固定的 ISR=1 回答/弃权门控，无需阈值调参，在预注册的留出审计中达到 0.0–0.7% 的幻觉率，同时弃权约 24%，尝试回答的准确率为 80.5%。今日发布的 ntkMirror 以免训练方式为本地开源模型实现了该门控，采用多证据排列下的顺序边缘验证。融合核能将排列前向计算加速 2.6–10 倍，fp32 下结果逐比特一致。在 Qwen2.5 和 Gemma 等小模型上的新幻觉检测基准显示，SciFact 上 AUROC 最高达 0.96，门控将基于事实的声明比例从 50% 提升至 75–90%，代价是舍弃 10–20% 的有效声明。

REDDIT LOCALLLAMA2026年6月8日

Qwen3.6-35B-A3B工具调用基准测试：ByteShape对比Unsloth GGUFs、KV缓存量化与长上下文性能

一位Reddit用户对Qwen3.6-35B-A3B模型的ByteShape和Unsloth量化版本进行了全面的工具调用基准测试。测试涵盖了三种KV缓存量化（f16、q8_0、q4_0）和两种上下文长度（短上下文约5000词元，长上下文添加约122000词元填充）。结果显示ByteShape和Unsloth的量化版本整体上没有明显赢家，但q8_0 KV缓存量化与f16几乎无异，提供了免费午餐，而q4_0略微降低得分。长上下文（上下文已填充50%）显著降低了所有配置下的工具调用性能。表现最好的量化是ByteShape GPU-5（类似IQ4_XS），在长上下文压力下表现出韧性。

REDDIT LOCALLLAMA2026年6月8日

BitNet 是条死路吗？三元大语言模型发生了什么？

这篇 Reddit 帖子质疑为什么像 BitNet 这样的三元大语言模型尽管最初很有前景，但规模未能超过 20 亿参数。作者想知道为什么前沿的开源权重 AI 实验室没有采用三元方法。评论可能讨论技术限制或缺乏实际收益。该帖子反映了社区对三元架构在大规模模型中可行性的好奇。