solidot新版网站常见问题,请点击这里查看。
人工智能
Edwards(42866)
发表于2026年06月15日 17时50分 星期一
来自白鸟异传
AI 模型的解题水平仍不及顶尖数学家。这项测试隶属 First Proof 项目,旨在评估 AI 解决复杂数学难题的能力。研究人员向 4 款 AI 系统提出 10 道科研级数学难题,再由相关数学领域的匿名专家评审团对作答结果进行打分。这次测试首次同时满足三大核心标准:题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家评阅。10 名来自不同数学细分领域的研究人员,各自拿出一道本人研究过程中已解答但尚未公开发表的原创题目。这次测试中,各大推理模型依然频繁出现幻觉问题,这也是大语言模型的通病。而且所有 AI 作答在文献引用方面都“严重缺失”,全程没有标注来源。