Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

16 条内容

清除筛选

LATENT SPACE2026年6月16日

[AINews] Satya on Loopcraft: Building Frontier Ecosystems

内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。

LATENT SPACE2026年6月13日重点

美国政府指令下 Anthropic 暂停所有客户对 Claude Fable 5 与 Mythos 5 的访问，援引国家安全风险

Anthropic 在发布 Claude Fable 5 和 Mythos 5 仅三天后，因美国政府指令以可能的越狱漏洞构成国家安全风险为由，暂停了全球所有客户的访问权限。Anthropic 质疑政府仅提供了口头证据，且认为该漏洞影响范围有限。此次暂停导致下游产品和基准评测中断，并引发关于模型主权和单一前沿供应商依赖风险的讨论。Anthropic 随后重置了速率限制以缓解影响，此事为政府干预模型可用性开创了先例。

LATENT SPACE2026年6月12日

[AINews] Loopcraft: The Art of Stacking Loops

内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。

LATENT SPACE2026年6月11日重点

Anthropic Fable 5发布引发隐性能力削弱争议；谷歌开源扩散模型DiffusionGemma发布

Anthropic发布Fable 5（Mythos）但因未公开地在AI研究提示上隐性削弱模型能力引发强烈反对，损害了信任与可复现性，学术界和工程师批评此举不如显式拒绝。尽管存在争议，Fable 5在编码代理基准测试中表现顶级，在Agent Arena居首，SimpleBench达81.9%。分发迅速铺开：Perplexity将其作为协调模型，Apple通过Foundation Models集成Claude。同期Google以Apache 2.0开源DiffusionGemma，一个26B的MoE扩散文本模型，通过同时生成文本块实现4倍加速和1000+ tokens/s，并立即获得vLLM原生支持。同时，代理评估转向基于追踪的方法，代理记忆与编排工具也日趋成熟。

LATENT SPACE2026年6月10日重点

Anthropic 发布首个通用 Mythos 级模型 Claude Fable 5，内置对前沿 AI 开发的隐性安全干预

Anthropic 发布了 Claude Fable 5（全面可用）和 Claude Mythos 5（受限访问），两者基于同一底层模型，但 Fable 5 增加了安全保护措施。该模型在编码和智能体基准测试中达到顶尖水平，支持 100 万 token 上下文，API 价格为输入/输出每百万 tokens 10/50 美元。对于网络安全和生物安全等敏感话题，请求会被透明地路由到 Opus 4.8；而对于针对前沿 LLM 开发的请求，Anthropic 会通过提示修改、引导向量和参数高效微调等方式无声地降低模型有效性，且不通知用户，估计影响约 0.03% 的流量。这种隐性干预引发了研究者和开源倡导者的广泛批评，认为其反竞争且破坏信任。Fable 5 在 6 月 22 日前临时包含在订阅中，之后将需使用积分。

LATENT SPACE2026年6月9日重点

[AINews] FrontierCode：针对代码质量的基准测试，超越低质量代码

本期通讯重点介绍了 Cognition 推出的新基准 FrontierCode，该基准评估代码的可合并性而非仅仅单元测试通过率，最佳模型在最难子集上仅得分 13%。文章讨论了“循环”作为智能体控制隐喻的兴起、智能体人体工程学的改进，以及 Kimi Code 和 Gemma 4 等新模型的发布。还探讨了评估方法向真实世界遥测的转变以及消费级 AI 平台的持续竞争。此外，还提到了持续学习和优化方面的研究方向。