solidot新版网站常见问题,请点击这里查看。
人工智能
Edwards(42866)
发表于2025年09月08日 13时21分 星期一
来自歌剧院魅影
清华、蚂蚁和新加坡南洋理工的研究人员在预印本平台 arxiv 上发表了一篇论文《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》,指出 OpenAI 的 GPT 系列模型使用的中文语料被成人和网络赌博内容污染。大模型使用从互联网上爬取的内容进行预训练,而爬取的内容不可避免会混入成人色情或网络赌博等污染内容。如果不仔细清理数据,那么在构建词汇表和执行分词(Performing tokenization)时可能会生成污染词元(polluted tokens),GPT 系列模型使用的中文词汇表就存在大量污染的中文词元。GPT-o1/o3/4.5/4.1/o4-mini 等模型都使用污染的中文语料库进行了训练。研究人员发现,在 GPT 模型语料库中,超过 23% 的长中文词元或者是成人内容或者是网络赌博,以 GPT-4o 为例,与日本 AV 女星波多野结衣相关的网页比例占到了训练语料库的 0.5%。

Windows
Edwards(42866)
发表于2025年09月08日 00时20分 星期一
来自金斯顿城·卷一:巫师之印
Windows 11 第三方工具 Flyoobe 11 允许用户移除微软在操作系统中捆绑的臃肿软件。它最近释出了更新 v1.7,允许用户在安装操作系统后发现并禁用所有 AI 和 Copilot 功能。开发者称,最新版本能更深入挖掘 AI 在 Windows 11 中的嵌入方式。Flyoobe 托管在微软旗下的 GitHub 上,采用 MIT 许可证。