solidot新版网站常见问题,请点击这里查看。
人工智能
Edwards(42866)
发表于2025年10月24日 23时55分 星期五
来自伦敦场地
用高质量数据训练大模型无疑会比用低质量垃圾数据训练取得更好的结果,来自德州农工、德州奥斯丁和普渡大学的研究人员试图量化垃圾数据多大程度上会导致大模型经历类似人类的认知衰退(或称之为脑腐 brain rot)。他们的大模型认知衰退假说可概括为持续用垃圾 Web 文本预训练会导致 LLM 认知能力持续下降。然而区别垃圾数据和高质量数据并不是一个完全客观的过程。研究人员使用多种指标从 HuggingFace 的 1 亿条推文中刷选出垃圾数据集和对照数据集。鉴于人类的脑腐是网络成瘾的一种后果,研究人员认为来自推文的一类垃圾数据应该是那些能以最微不足道的方式最大化传播的推文,因此这类垃圾数据集由高互动(如点赞、转发、回复和引用)但篇幅简短的推文组成。另一类垃圾数据以阴谋论、夸大其词或耸人听闻的推文组成。两类推文垃圾数据集有部分内容是重叠的。研究人员随后用不同比例的垃圾数据和对照数据预训练了四个 LLM 模型,运行基准测试,衡量推理能力(ARC AI2)、长语境记忆(RULER)、遵守道德规范(HH-RLHF 和 AdvBench)以及展现个性风格(TRAIT)。结果显示,更多的垃圾数据对模型的推理和长语境能力产生了统计上显著的影响。但其它方面并不突出。

人工智能
Edwards(42866)
发表于2025年10月24日 17时26分 星期五
来自2010:太空漫游
为大学和企业提供 AI 检测工具的 Originality.ai 在 1-9 月之间扫描了亚马逊上 558 本草药类别的图书,发现其中 82% 很可能是 AI 撰写的。AI 垃圾完全攻陷了亚马逊上的草药医术学作品。草药医生 Sue Sprung 表示这些书会误导读者。其中一本疑似 AI 撰写的书是《Natural Healing Handbook》,位于护肤、香薰疗法和草药类书籍畅销书榜榜首,作者声称自己是澳大利亚的草药师 Luna Filby,My Harmony Herb 品牌的创始人...然而除了亚马逊上的介绍页面,互联网上没有关于她以及其品牌的任何信息,Originality.ai 以 100% 可信度认为该书是 AI 生成的。英国出版商协会 CEO Dan Conway 表示正督促亚马逊标注 AI 作品。