LATENT SPACE··重点
在AI工程师世界博览会上,支持方认为自主编码循环已不可避免且早已被使用,怀疑方则警告工程规范和经济效益落后于炒作。Anthropic的Mike Krieger详细介绍了内部Claude Tag模型,称其具有委派、异步和主动性,改变了团队工作方式但导致审查瓶颈。Amplify调查显示95%的受访者已使用智能体,89%表示智能体能写入数据,但59%担心AI生成代码会带来长期负债。Y Combinator总裁Garry Tan敦促创始人将AI视为劳动力并打造AI原生公司。
LATENT SPACE··重点
Anthropic 重新上线 Claude Fable 5,增设安全后备措施,部分请求转至 Opus 4.8,促使开发者采用多模型编排,仅在高价值推理时使用 Fable。GLM-5.2 凭借官方 IDE ZCode、APEX-SWE Integration 55.3% Pass@1 以及在 vLLM 中通过 DSpark 实现更快的推理而获得关注。智能体基础设施转向 wiki 结构化记忆,如 LangChain OpenWiki 和 Weaviate Engram;Cognition 的 Devin Security Swarm 将 Agentic MapReduce 应用于漏洞检测。英伟达 TwoTower 架构实现 2.42 倍生成加速,质量保留 98.7%。
LATENT SPACE··重点
在AIEWF上,Introspection联合创始人Roland Gavrilescu将自动研究定义为由代理维持系统的外部循环。Anthropic的Thariq Shihipar说Claude Code是“长出来的,不是开发出来的”,通过持续的用户驱动发现成长。Addy Osmani认为内部执行循环交给代理(能力),但目标设定和判断的外部循环必须由人类保留(能动性)。Paul Bakaus推出了设计工具Impeccable,拒绝一键解决方案,要求人类参与最后的20%以注入品味和所有权。关于生成媒体和代理网站的讨论均强调,即使模型不断进步,仍需人类的敏感性、创意方向和品牌管理。
LATENT SPACE··重点
Cursor前向部署工程副总裁Pauline Brunet介绍,该公司的前向部署工程师(FDE)是经验丰富的软件工程师,直接深入企业客户现场,为其整个软件开发生命周期部署高度可配置的AI代理。公司计划在年底前将FDE团队扩大十倍,招聘至少五年生产经验且具备客户协作能力的工程师。Cursor的愿景是打造一个“AI软件工厂”,让长期运行的代理从规划、设计到编码、测试和部署全程辅助团队,超越单一个体使用。目前企业AI采用仍集中在早期采用者群体,下一阶段需要组织顶层推动跨团队代理工作流。客户部署中的洞察直接影响Cursor的产品路线图,随着代理能力提升,FDE角色也将迅速演变。对于想进入该领域的工程师,Brunet建议主导端到端生产项目、理清设计取舍并衡量业务影响。
LATENT SPACE··重点
Anthropic 发布 Claude Sonnet 5 作为默认中端模型,具备 100 万 token 上下文窗口,定价为输入/输出每百万 token 3/15 美元(8-9 月促销价 2/10 美元)。第三方基准测试显示其在编程和代理任务上较 Sonnet 4.6 有显著提升(如 CursorBench 57% vs 49%,FrontierCode Extended 得分 53.8%),但在通用智能上仍低于 Opus 4.8。然而,分词器变化和评估中更多轮次导致实际每任务成本有时高于 Opus 4.8。Fable 5 在政府沟通后获批重新发布但并未推出,引发失望和猜测。编程代理生态(Cursor、Devin、Cline 等)迅速采用 Sonnet 5,将其视为生产环境中的实用主力模型。
LATENT SPACE··重点
Meta发布了Brain2Qwerty v2,一种通过非侵入式脑信号实时解码句子的系统,总体词准确率约61%,最佳参与者达78%,并公开了训练代码和数据集。Cursor推出iOS应用,支持始终在线的云端代理及远程控制电脑端代理,提供差异审查与通知功能。Cline推出9.99美元/月的模型访问套餐,打包GLM 5.2、DeepSeek、Kimi、MiniMax和Qwen。DeepSeek的DSpark投机解码方法相比Eagle3实现30.9%更高接受长度,已在DeepSeek-V4-Flash和Pro中部署。AI评估平台Arena宣布年化经常性收入达1亿美元,发布仅8个月,现侧重代理模式评估。