奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

热门文章

- 日本人口五年减少逾三百万 (0)
- Anthropic 估值首次超过 OpenAI (0)
- 科学家利用量子贝尔装置生成完美随机性 (0)
- Google 恨你和我 (0)
- Flathub 禁止 AI 生成的应用 (0)
- 英伟达税 (0)
- 气候变化扰乱北冰洋食物链 (0)
- Krafton 同意向《Subnautica 2》开发商支付 2.5 亿美元奖金 (0)
- 一家美国公司一个月内在 Claude AI 上花费了 5 亿美元 (0)
- 丹麦养老基金将 SpaceX 列入投资黑名单 (0)

热门评论

白名单访问制...zzz (1 points, 一般) by devfsdvyui 在 2026年01月18日21时04分星期日评论到伊朗恢复互联网访问
论人可以有多无耻 (1 points, 一般) by devfsdvyui 在 2026年01月18日21时00分星期日评论到腾讯向逾 30 个 GitHub 微信相关项目发出 DMCA 通知
来自arm版遥遥无期 (1 points, 一般) by solidot1768413084 在 2026年01月15日01时52分星期四评论到 Wine 11.0 释出
BaD kEyBoArd: TyPo (1 points, 一般) by lot 在 2025年12月07日14时54分星期日评论到斯巴鲁车主抱怨驾车过程中弹出全屏广告
(1 points, 一般) by solidot1763918667 在 2025年11月24日01时25分星期一评论到英国陆军将用《使命召唤》训练士兵
所以意识是什么？他怎么敢肯定他的意思就不是幻觉？ (1 points, 一般) by cutpigsrollaroundint 在 2025年11月05日18时14分星期三评论到微软 AI 负责人认为 AI 有意识是无稽之谈
不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分星期六评论到数学证明否定宇宙是模拟的
样本数太少没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分星期一评论到梵蒂冈的 Flathub 软件包人均安装量最高
杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分星期五评论到你一生中被小行星砸到的概率
垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分星期四评论到 Valve 在支付公司压力下移除部分成人游戏

快速链接

科技: AI 只能完成高等数学新测试问题的不到 2%

Wilson(42865)

发表于2024年11月14日 22时44分星期四
来自十二魔

基于大模型的 AI 系统如 GPT-4 和 Gemini 1.5 Pro 能以九成以上的正确率完成传统数学测试问题。但如果设计出一种全新的、大模型不可能训练过的数学难题呢？包括菲尔兹奖得主陶哲轩和 Timothy Gowers 在内的 60 多名数学家合作编写了数百道原创研究级数学难题，推出了新的高等数学基准测试 FrontierMath。这些问题非常具有挑战性，陶哲轩称需要相关领域研究生级别的专业人士合作才能完成。问题被设计为防猜测，如果没有正确的数学推理能力，它们是不可能解出的。顶级的 AI 系统只能完成不到 2% 的 FrontierMath 问题，显示它们的推理能力有局限性。

今天的文章 2024年11月15 2024年11月13

百善孝为先，论心不论迹，论迹贫家无孝子；万恶淫为首，论迹不论心，论心世上少完人

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn