Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

1 条内容

TELEGRAM SOLIDOT2026年6月15日

First Proof 项目严格测试：AI 数学解题能力仍不如人类专家

First Proof 项目让 4 款 AI 系统解答 10 道由数学家专门设计的原创、未公开科研级数学题，所有题目均从未出现在模型训练数据中，并由相关领域的匿名专家评审团打分。结果显示，AI 作答频繁出现幻觉，且全部严重缺失文献引用，未标注任何来源。该测试首次同时满足三大核心标准：前沿数学问题、零训练数据泄漏、专业数学家评审，证实当前推理模型仍无法匹敌顶尖人类数学家。