AI日:Claude Fable 5/Mythos 5发布、3000亿数据中心交易、代理自主突破
AI Day: Claude Fable 5/Mythos 5 Launch, $300B Data Center Deal, Agent Autonomy Breakthrough
英文综述
Anthropic released Claude Fable 5, a state-of-the-art general model with conservative safeguards, alongside Mythos 5, a version with lifted safeguards for cyberdefense partners, marking a dual approach to capability and safety. A Harvard-Perplexity study found AI agents perform 26 minutes of autonomous work per session, a 48x increase over search, slashing time and cost on matched tasks. Oracle secured a $300 billion deal to build AI data centers for OpenAI, signaling massive infrastructure investment, while Microsoft renegotiates its cloud terms with the AI firm. Other notable releases include Cohere's open-weight North Mini Code model, Google's Gemini 3.5 Live Translate for real-time speech translation, and Apple's CoreAI on-device inference engine supporting larger models on Apple Silicon.
中文综述
Anthropic发布了最先进的通用模型Claude Fable 5,配备保守的安全防护,同时为网络防御合作伙伴推出了解除部分限制的Mythos 5,体现了能力与安全并重的双重策略。哈佛与Perplexity的研究表明,AI代理每次会话可自主工作26分钟,是传统搜索的48倍,大幅降低了匹配任务的时间和成本。甲骨文与OpenAI达成3000亿美元的数据中心建设协议,彰显AI基础设施的巨额投入,微软则重新谈判其云合作条款。其他值得关注的发布包括Cohere开放权重的North Mini Code模型、Google实现实时语音翻译的Gemini 3.5 Live Translate,以及苹果在Apple Silicon上支持更大规模模型的CoreAI端侧推理引擎。
收录条目
Anthropic 发布最先进 AI 模型 Claude Fable 5 和 Mythos 5
Anthropic 发布 Claude Fable 5,这是 Mythos 级 1 模型,在几乎所有测试基准上达到最先进水平,在软件工程、知识工作、视觉和科研等领域表现卓越。Fable 5 面向公众安全可用,但保守的防护措施会偶尔误拦无害请求,平均触发率低于 5% 的会话。同时推出 Claude Mythos 5,与 Fable 5 底层模型相同,但部分安全限制被解除,首批通过 Project Glasswing 与美国政府合作为网络防御者和基础设施提供商部署,据称拥有全球最强的网络安全能力。Anthropic 计划通过可信访问计划扩大 Mythos 5 的使用范围。
查看条目Claude Fable 5 发布,基于 Mythos 模型并新增安全防护
Anthropic 发布了 Claude Fable 5,该模型与 Mythos 使用相同的基础模型,但增加了额外的安全防护措施。Andrej Karpathy 指出,基准测试显示该模型以显著优势达到最先进水平,定性来看这是一个重大版本跃升,堪比以前 Claude 4.5 的进步。它在长时间解决高难度问题方面表现突出,允许用户执行更具雄心的任务,如生成解释器、仪表板和一次性自定义应用。安全防护目前过于敏感,可能需要后续调优,模型仍存在一些怪癖。Karpathy 认为此发布将推动软件开发的变革,极大刺激按需软件创作的需求。
查看条目哈佛大学与Perplexity联合研究分析了来自Perplexity Search和AI代理Perplexity Computer在90天内的一万对匹配会话。Computer每次会话自主工作26分钟(中位数9分钟),是Search的33秒(中位数14秒)的48倍。在匹配任务上,Computer加人类相比Search加人类将预估时间降低87%,成本降低94%,且其有意义的不满意率仅为1.3%(Search为2.9%)。Computer的查询还拓展了工作范围:跨职业查询占比升至59%(Search为50%),76%的查询需高阶认知(Search为55%),并且23%的查询解决了从未提交给Search的任务描述。
Anthropic 发布了 Claude Fable 5,这是他们公开可用的最强模型,以及仅限于网络防御合作伙伴的 Claude Mythos 5。Fable 5 展示了卓越性能:一天内迁移了 5000 万行 Ruby 代码库,仅使用原始截图击败了《宝可梦 火红》,并在 FrontierCode 评估中得分最高。Mythos 5 自主进行了跨 138 个物种的基因组研究,以缩小 100 倍的模型超越了已发表的《科学》论文。安全方法采用分类器,在敏感查询时静默回退到 Opus 4.8,在超过 1000 小时的测试中未发现通用越狱。定价为每百万输入令牌 10 美元、输出令牌 50 美元,有限计划在 6 月 22 日前可免费使用。
甲骨文与OpenAI达成一项价值3000亿美元的协议,为其建设专用人工智能数据中心,大幅扩展AI基础设施。持有OpenAI 27%股权的微软,则重新谈判了双方的云计算与许可协议,这可能改变两家公司之间的商业合作格局。甲骨文的协议凸显了AI基础设施的巨大投入,使其成为OpenAI的关键合作伙伴;微软的条款调整则可能反映OpenAI规模化发展带来的关系变化。
Cohere 在社区的积极反馈下正式发布了 North Mini Code 模型。权重以 FP8 格式在 Hugging Face 上开放,并可通过 OpenCode 免费试用。官方技术博客和公告提供了更多详细信息。使用 vLLM 部署需安装主分支和 cohere_melody 库(>=0.9.0),支持工具调用解析、推理解析以及最大上下文长度 320,000 tokens。社区已提供 MLX 版本,Cohere 内部正在考虑量化及 llama.cpp 支持。
Google DeepMind 发布 Gemini 3.5 Live Translate,提供接近实时的自然语音翻译功能。该功能已集成到 Google AI Studio、Google Translate 和 Google Meet 中。它能进行流畅的对话式翻译,减少机械感并降低延迟。这一集成将实时语音翻译直接带入 Google 广泛使用的沟通与开发平台。
苹果在WWDC上发布了CoreAI,作为CoreML的未来替代品,专为iPhone、iPad等苹果芯片设备优化端侧推理。CoreAI支持比CoreML更大的模型,苹果展示了可在设备上部署的200亿参数惰性加载混合专家模型。支持的模型列表已在GitHub公布,目前仅限2025年中期的模型,需通过Python脚本转换权重。此举暗示对Apple Neural Engine操作进行了重大更新,但尚未公布性能数据。CoreAI成为MLX、llama.cpp和PyTorch的端侧部署替代方案。