奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

快速链接

科技: GPT 使用的中文语料被成人赌博内容污染

Edwards(42866)

发表于2025年09月08日 13时21分星期一
来自歌剧院魅影

清华、蚂蚁和新加坡南洋理工的研究人员在预印本平台 arxiv 上发表了一篇论文《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》，指出 OpenAI 的 GPT 系列模型使用的中文语料被成人和网络赌博内容污染。大模型使用从互联网上爬取的内容进行预训练，而爬取的内容不可避免会混入成人色情或网络赌博等污染内容。如果不仔细清理数据，那么在构建词汇表和执行分词（Performing tokenization）时可能会生成污染词元（polluted tokens），GPT 系列模型使用的中文词汇表就存在大量污染的中文词元。GPT-o1/o3/4.5/4.1/o4-mini 等模型都使用污染的中文语料库进行了训练。研究人员发现，在 GPT 模型语料库中，超过 23% 的长中文词元或者是成人内容或者是网络赌博，以 GPT-4o 为例，与日本 AV 女星波多野结衣相关的网页比例占到了训练语料库的 0.5%。

科技: Windows 第三方工具允许用户禁用所有 AI 功能

Edwards(42866)

发表于2025年09月08日 00时20分星期一
来自金斯顿城·卷一：巫师之印

Windows 11 第三方工具 Flyoobe 11 允许用户移除微软在操作系统中捆绑的臃肿软件。它最近释出了更新 v1.7，允许用户在安装操作系统后发现并禁用所有 AI 和 Copilot 功能。开发者称，最新版本能更深入挖掘 AI 在 Windows 11 中的嵌入方式。Flyoobe 托管在微软旗下的 GitHub 上，采用 MIT 许可证。