First Proof 项目严格测试:AI 数学解题能力仍不如人类专家
First Proof 项目让 4 款 AI 系统解答 10 道由数学家专门设计的原创、未公开科研级数学题,所有题目均从未出现在模型训练数据中,并由相关领域的匿名专家评审团打分。结果显示,AI 作答频繁出现幻觉,且全部严重缺失文献引用,未标注任何来源。该测试首次同时满足三大核心标准:前沿数学问题、零训练数据泄漏、专业数学家评审,证实当前推理模型仍无法匹敌顶尖人类数学家。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
1 条内容
First Proof 项目让 4 款 AI 系统解答 10 道由数学家专门设计的原创、未公开科研级数学题,所有题目均从未出现在模型训练数据中,并由相关领域的匿名专家评审团打分。结果显示,AI 作答频繁出现幻觉,且全部严重缺失文献引用,未标注任何来源。该测试首次同时满足三大核心标准:前沿数学问题、零训练数据泄漏、专业数学家评审,证实当前推理模型仍无法匹敌顶尖人类数学家。