Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

4 条内容

LATENT SPACE2026年6月4日重点

【AI新闻】Reve 2和Ideogram 4：图像生成中的布局

本期报道涵盖主要AI进展，包括微软MAI-Thinking-1模型的技术透明度、Gemma 4 12B和Ideogram 4.0等开放模型发布，以及图像生成布局方面的进步。代理框架正转向执行层和多代理DAG系统。模型路由和成本控制成为企业AI部署中的关键辩论。消费硬件上的本地AI正成为主流趋势。

LATENT SPACE2026年6月3日重点

[AINews] 微软Build大会：MAI-Thinking-1与MAI系列模型

微软在Build 2026上发布了七款新的MAI模型，包括旗舰推理模型MAI-Thinking-1，具有35B活跃参数、256K上下文窗口以及AIME 2025 97%等强大基准测试成绩。公司发布了一份长达109页的高度透明技术报告，强调数据来源清晰、未使用合成数据或蒸馏技术，获得了研究界好评。Build还聚焦本地AI，将Windows打造为代理运行时，推出RTX Spark Dev Box和Project Solara/Scout代理硬件。GitHub Copilot应用作为代理原生开发的桌面中心亮相，Web IQ作为代理新型接地API推出。整体上，活动将微软定位为既是第一方前沿模型开发者，又是多层次AI平台公司。

LATENT SPACE2026年6月2日重点

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra 和 RTX Spark

本期AINews报道了NVIDIA的主要开源发布，包括Cosmos 3——一个统一语言、图像、视频、音频和动作的全模态世界模型系列；Nemotron 3 Ultra——一个550B参数的开源LLM，声称是美国最强开源模型；以及RTX Spark个人AI计算机。此外，MiniMax M3和Qwen3.7-Plus扩展了开源智能体模型领域。新闻还强调了从模型调用到智能体运行时的转变，如Perplexity的Search as Code和Google的Managed Agents。

LATENT SPACE2026年6月1日重点

为什么视频Agent模型是下一个前沿 — Ethan He, xAI Grok Imagine

Ethan He认为视频模型的智能主要来自LLM而非视频数据，视频Agent是生成式媒体的下一个重大演进。他描述了在xAI三个月内从零构建Grok Imagine的过程，强调迭代速度和调试数据管道比新算法更重要。讨论涵盖了存储和传输视频数据的高成本、步进蒸馏实现快速推理以及音视频对齐的挑战。他预测视频Agent将在年底达到生产级质量，超越独立视频模型。