文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门文章
-
- Android 应用面临越来越多的不兼容问题 (0)
- /e/OS 3.0 释出 (0)
- 欧盟新规定强制要求为智能手机和平板提供五年操作系统更新 (0)
- Kagi 用户数突破五万 (0)
- 微软和华硕合作推出 Xbox 掌机 ROG Xbox Ally (0)
- Linux 6.16-rc1 释出 (0)
- 微软第一方游戏进入 80 美元时代 (0)
- Google 塑造的 Web 也许将被重塑 (0)
- 谷歌CEO皮查伊:为什么说AI意义将超越火与电? (0)
- 安全阻碍了企业拥抱 AI (0)
热门评论
- 笑看外挂 (1 points, 一般) by cnma_001 在 2025年04月03日13时47分 星期四 评论到 韩国游戏工作室竞争开发星际争霸新作
- 一个数据参考 (1 points, 一般) by hhding 在 2025年03月31日09时06分 星期一 评论到 AI 数据中心太多了
- 非技术的说法 (1 points, 一般) by hhding 在 2025年03月31日08时56分 星期一 评论到 AI 数据中心太多了
- 主体错误 (1 points, 一般) by solidot1740402558 在 2025年02月24日21时10分 星期一 评论到 Starlink 面临越来越多的竞争
- 先能过了小米高考再说 (1 points, 一般) by ooxx 在 2025年01月06日15时43分 星期一 评论到 小米修改了引导程序解锁政策
- (1 points, 一般) by 18611782246 在 2024年12月18日18时06分 星期三 评论到 司机死于阿尔茨海默病的可能性较低
- BaD kEyBoArD: eXtRa SpAcE (1 points, 一般) by lot 在 2024年12月11日04时10分 星期三 评论到 高温环境可能加速衰老
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年12月11日04时09分 星期三 评论到 Goolge 宣布了新量子芯片 Willow
- 喵喵喵 (1 points, 一般) by solidot1733326472 在 2024年12月04日23时35分 星期三 评论到 澳大利亚面临太阳能供大于求
- 懂了 这就去安装刺客信条 (1 points, 一般) by Craynic 在 2024年11月27日19时36分 星期三 评论到 微软临时阻止安装刺客信条等育碧游戏的 PC 更新 Windows 11 24H2
六名苹果 AI 研究员(其中一名是实习生)在预印本平台 arxiv 上发表了一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,他们发现大模型不能形式推理。研究人员称,GSM8K 基准测试被广泛用于评估大模型在小学水平问题上的数学推理能力。过去几年,大模型在 GSM8K 上的表现有显著提高,但它们的数学推理能力是否真的提升了?研究人员利用符号模板创建了一个改进基准测试 GSM-Symbolic,能对大模型的推理能力进行更可控的评估。结果显示,大模型并不具有真正的逻辑推理能力,仅仅改变问题的某个数值或者增加一条子句,大模型的表现就会显著下降。