REDDIT LOCALLLAMA·
一位印度学生发布了首篇论文,提出名为 Silia 的新型 Transformer 架构,专为 500 万参数以下的微型模型设计。Silia 将前馈网络(FFN)中的静态线性矩阵替换为注意力机制,将动态信息混合与强非线性统一为单个操作以节省参数。实验中,0.8M 参数的 Silia 模型在相同训练条件下达到了与 GPT-2(nanoGPT)基线相近的损失,但使用的参数显著更少。受限于老旧硬件(4M 模型在个人电脑上训练需 3-4 天),论文仅给出了亚 10M 参数规模的初步结果。作者将该研究视为想法的引入而非最终结论,代码尚未公开。
REDDIT LOCALLLAMA··重点
论文提出前瞻稀疏注意力(LSA),一种基于神经记忆索引器并与DeepSeek‑V4架构结合的新型推理范式。该方法主动预测未来上下文需求,仅在GPU内存中保留查询关键的KV块,而非保留全部KV缓存。索引器通过无骨干解耦训练策略独立训练,采用双编码器检索框架,无需加载完整骨干模型。在LongBench‑v2、LongMemEval和RULER等长上下文评测中,FM‑DS‑V4将物理KV缓存压缩至全上下文基线的13.5%,同时平均准确率绝对提升0.6个百分点。在50万tokens的极端规模下,物理KV缓存开销被抑制超过90%,且无损骨干模型的核心推理能力。代码与权重已在GitHub和HuggingFace公开。
REDDIT LOCALLLAMA·
SCAIL-2是一个开源端到端可控角色动画模型,去除了对中间姿态表示的依赖。它利用多个教师模型(SCAIL-Preview、Wan-Animate、MoCha)合成的6万组运动对,通过统一运动传递接口进行训练。该模型能够通过驱动视频为参考角色生成动画,支持跨身份角色替换、多角色场景以及动物驱动,并具备对SAM3D-Body网格渲染等高级控制中间件的零样本支持。
REDDIT LOCALLLAMA··重点
论文《可预测的压缩失败》(ICML 2026)针对证据根基问答中的幻觉问题,将证据顺序敏感性建模为排列分散,推导出期望级解压缩定律(EDFL)。据此定义了一个固定的 ISR=1 回答/弃权门控,无需阈值调参,在预注册的留出审计中达到 0.0–0.7% 的幻觉率,同时弃权约 24%,尝试回答的准确率为 80.5%。今日发布的 ntkMirror 以免训练方式为本地开源模型实现了该门控,采用多证据排列下的顺序边缘验证。融合核能将排列前向计算加速 2.6–10 倍,fp32 下结果逐比特一致。在 Qwen2.5 和 Gemma 等小模型上的新幻觉检测基准显示,SciFact 上 AUROC 最高达 0.96,门控将基于事实的声明比例从 50% 提升至 75–90%,代价是舍弃 10–20% 的有效声明。
REDDIT LOCALLLAMA·
一位Reddit用户对Qwen3.6-35B-A3B模型的ByteShape和Unsloth量化版本进行了全面的工具调用基准测试。测试涵盖了三种KV缓存量化(f16、q8_0、q4_0)和两种上下文长度(短上下文约5000词元,长上下文添加约122000词元填充)。结果显示ByteShape和Unsloth的量化版本整体上没有明显赢家,但q8_0 KV缓存量化与f16几乎无异,提供了免费午餐,而q4_0略微降低得分。长上下文(上下文已填充50%)显著降低了所有配置下的工具调用性能。表现最好的量化是ByteShape GPU-5(类似IQ4_XS),在长上下文压力下表现出韧性。
REDDIT LOCALLLAMA·
这篇 Reddit 帖子质疑为什么像 BitNet 这样的三元大语言模型尽管最初很有前景,但规模未能超过 20 亿参数。作者想知道为什么前沿的开源权重 AI 实验室没有采用三元方法。评论可能讨论技术限制或缺乏实际收益。该帖子反映了社区对三元架构在大规模模型中可行性的好奇。