文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门文章
-
- 在高危漏洞披露前电信公司提前屏蔽 Telnet 流量 (0)
- 地球暖化加速的原因 (0)
- Vim 9.2 释出 (0)
- OpenClaw 创始人加盟 OpenAI (0)
- Ars Technica AI 记者为 AI 生成内容道歉 (0)
- 巴比伦五号上传到 YouTube 可免费观看 (0)
- 切尔诺贝利工人后代的 DNA 突变 (0)
- 内存价格飙升推动二手笔记本销量上涨 (0)
- 希捷和西部数据证实其 2026 年硬盘产能已售罄 (0)
- 虚假医疗信息的主要受众是老年人 (0)
热门评论
- 白名单访问制...zzz (1 points, 一般) by devfsdvyui 在 2026年01月18日21时04分 星期日 评论到 伊朗恢复互联网访问
- 论人可以有多无耻 (1 points, 一般) by devfsdvyui 在 2026年01月18日21时00分 星期日 评论到 腾讯向逾 30 个 GitHub 微信相关项目发出 DMCA 通知
- 来自arm版遥遥无期 (1 points, 一般) by solidot1768413084 在 2026年01月15日01时52分 星期四 评论到 Wine 11.0 释出
- BaD kEyBoArd: TyPo (1 points, 一般) by lot 在 2025年12月07日14时54分 星期日 评论到 斯巴鲁车主抱怨驾车过程中弹出全屏广告
- (1 points, 一般) by solidot1763918667 在 2025年11月24日01时25分 星期一 评论到 英国陆军将用《使命召唤》训练士兵
- 所以意识是什么?他怎么敢肯定他的意思就不是幻觉? (1 points, 一般) by cutpigsrollaroundint 在 2025年11月05日18时14分 星期三 评论到 微软 AI 负责人认为 AI 有意识是无稽之谈
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
六名苹果 AI 研究员(其中一名是实习生)在预印本平台 arxiv 上发表了一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,他们发现大模型不能形式推理。研究人员称,GSM8K 基准测试被广泛用于评估大模型在小学水平问题上的数学推理能力。过去几年,大模型在 GSM8K 上的表现有显著提高,但它们的数学推理能力是否真的提升了?研究人员利用符号模板创建了一个改进基准测试 GSM-Symbolic,能对大模型的推理能力进行更可控的评估。结果显示,大模型并不具有真正的逻辑推理能力,仅仅改变问题的某个数值或者增加一条子句,大模型的表现就会显著下降。