文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门文章
热门评论
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
过去两年人工智能程序的语言流畅度达到了惊人的水平。其中最优秀的程序都是基于 2017 年发明的、被称为 Transformer 的架构。它以方程式列表的形式,作为程序遵循的一种蓝图。除了这个简单的数学概述之外,我们不知道 Transformer 对处理的单词做了什么。普遍的理解是它们以某种方式同时关注多个单词,从而可以立即进行“大图景”分析,但究竟是如何工作的——或者甚至这是否是准确理解 Transformer 的方式——都还不清楚。我们知道成分,但不知道配方。Anthropic 公司的研究人员进行的两项研究开始从根本上弄清楚 Transformer 在处理和生成文本时在做什么。在 12 月发布的首篇论文中,他们着眼于架构的简化版本并充分解释了它们的功能。作者还展示了从学习基本语言模式到获得语言处理通用能力的简单 Transformer。
在 3 月8 日发表的第二篇论文中,研究人员表明,负责这种能力的相同组件在最复杂的 Transformer 中也发挥作用。虽然这些模型的运算在很大程度上仍难以理解,但是这些结果为理解提供了一个途径。理解Transformer 的难点在抽象性。传统程序遵循着一个可以理解的过程,如看到“绿色的”时输出“草”,而Transformer 则是将“绿色的”这个单词转换为数字,然后将其乘以某些值。这些值(也被称为参数)决定下一个单词是什么。它们在训练过程中得到微调,模型在这个过程中学会了如何产生最佳输出,但尚不清楚模型在学习的是什么。大多数机器学习程序将运算打包成模块化的成分,这些成分被称为神经元。Transformer 加入了一种额外的成分,被称为注意力头(attention head),成组的头分层排列(就像神经元一样)。但是头执行的操作和神经元完全不同。头通常被理解为允许程序记住输入的多个单词,但这种解释远非定论。
在 3 月8 日发表的第二篇论文中,研究人员表明,负责这种能力的相同组件在最复杂的 Transformer 中也发挥作用。虽然这些模型的运算在很大程度上仍难以理解,但是这些结果为理解提供了一个途径。理解Transformer 的难点在抽象性。传统程序遵循着一个可以理解的过程,如看到“绿色的”时输出“草”,而Transformer 则是将“绿色的”这个单词转换为数字,然后将其乘以某些值。这些值(也被称为参数)决定下一个单词是什么。它们在训练过程中得到微调,模型在这个过程中学会了如何产生最佳输出,但尚不清楚模型在学习的是什么。大多数机器学习程序将运算打包成模块化的成分,这些成分被称为神经元。Transformer 加入了一种额外的成分,被称为注意力头(attention head),成组的头分层排列(就像神经元一样)。但是头执行的操作和神经元完全不同。头通常被理解为允许程序记住输入的多个单词,但这种解释远非定论。