LEIPHONE · 2026年7月2日 · 重点
Anthropic发布Claude Sonnet 5,定位为迄今最具智能体能力的Sonnet,宣称在智能体任务上接近Opus 4.8且价格仅为四折。发布不到一天,中文私有硬核推理题库显示其极限分被MiniMax-M3超越、与通义千问3.7-Plus持平,而测试成本是国产模型的6倍以上(71.96元 vs 约11元)。智能体编程基准仍保持强势(SWE-bench Pro 63.2%、CursorBench 57%),但Max推理模式与分词器更换导致token膨胀最高35%,实际调用成本暴增——有用户对比DeepSeek同工作量账单相差145倍。企业端Uber四个月烧光全年预算,微软拟停用Claude Code。过度安全对齐使模型过于保守,无法用于合法安全研究,亦遭开发者批评。
LEIPHONE · 2026年7月2日 · 重点
东壁科技数据与上海财经大学数字经济学院联合发布全球首份大语言模型科技安全专项测评报告,基于313条高风险科技问题对38个模型进行五维测评。在直接攻击中,Anthropic的Claude系列实现100%防御,而场景伪装叠加示例诱导的攻击成功率最高(53.8%)。报告发现多数模型意图识别不足,既误伤善意提问又放过恶意伪装提问。报告主张从单一拒答率转向包含意图识别、滥用风险可控性与知识可靠性的综合测评。多维度榜单显示,大模型和闭源模型防护更优但更易过度拒答,许多开源模型则易被诱导。
LEIPHONE · 2026年7月2日 · 重点
6月30日,Anthropic发布Claude Science科研智能体工作台,通过工具链整合现有模型处理科研全流程,不依赖新模型;同日OpenAI推出GeneBench-Pro评测基准,覆盖基因组学等10个领域共129道真实科研工作流题目,最强模型GPT-5.6 Sol端到端通过率仅28.7%,Claude Opus 4.8为16.0%,揭示模型注意问题却无法修正行动的“notice-act gap”。Anthropic工作台通过MCP协议调用外部垂直模型,连接60余个科学数据库,向Pro、Max、Team、Enterprise订阅用户开放,并推出3万美元资助计划以锁定博士后和研究生等青年科研用户。两大巨头发力,标志AI4S赛道从模型能力比拼转向工作流整合与生态卡位的混战。
LEIPHONE · 2026年7月2日 · 重点
开发者发现Anthropic的AI编程工具Claude Code内置了针对中国的隐藏监视机制。该代码会检查系统时区是否为上海或乌鲁木齐时区,并判断访问的URL是否匹配包含百度、阿里巴巴、字节跳动以及Claude API中转服务在内的147个域名列表。一旦匹配,代码会篡改提示词中的日期格式,并向Anthropic服务器发送隐藏标记,从而识别中国用户。该代码在曝光前已存在三个月。Anthropic的Claude Code产品负责人Thariq Shihipar回应称这是一项防止未授权账户转售和模型蒸馏的实验,将于7月2日删除。
LEIPHONE · 2026年7月1日 · 重点
赛力斯发布6月产销数据,问界品牌月交付30,199辆,上半年累计交付同比增长10.2%。新一代问界M9上市一个月大定突破42,000台,问界M6上市54天累计交付超30,000台。问界在Brand Finance《2026全球汽车品牌价值100强》中位列中国豪华汽车品牌价值第一,为全球豪华品牌Top10中唯一中国品牌。公司同时披露其人形机器人已投入实际运营,覆盖B端工业制造与C端服务接待场景,完成了从研发到商业验证的全链路闭环。
LEIPHONE · 2026年7月1日 · 重点
Reddit 逆向分析显示,Anthropic 在 Claude Code 2.1.91 版本(2026 年 4 月 2 日)起内置了监视逻辑,通过检测系统时区(上海—乌鲁木齐范围)和代理域名来识别中国用户,并采用隐写手段:将系统提示词日期格式由横线改为斜线,并用外观相似的 Unicode 撇号(U+2019、U+02BC、U+02B9)分层标记用户,静默回传身份信息。检测代码经过 XOR 加密和短字符函数名混淆,仅在开启代理时触发。Claude Code 负责人 Thariq 回应称,该机制是为防范账号转售和模型蒸馏于 3 月启动的实验,已合并移除代码,计划在下一版本中回滚。事件引发用户强烈愤怒,对拥有本地文件权限的 AI 编程工具信任骤降。