奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

快速链接

科技: 研究发现 AI 回复过于友好而很容易分辨

Edwards(42866)

发表于2025年11月09日 20时54分星期日
来自夜焰

下次你在社交媒体上遇到非常有礼貌的回复，不妨仔细检查下。它可能是一次 AI 模型试图融入人类但失败的尝试。苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员在预印本平台 arXiv 上发表了一篇论文，指出在社交媒体的对话中 AI 模型和人类仍然很容易区分，原因是 AI 有一个非常明显特征：语气过于友好。研究人员在 Twitter/X、Bluesky 和 Reddit 上测试了九个开放权重的大模型：Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509，发现他们开发的分类器能以 70%-80% 的准确率识别出 AI 生成的回复。

科技: Common Crawl 被批为 AI 公司提供高质量付费墙文章

Edwards(42866)

发表于2025年11月09日 20时16分星期日
来自开普勒62号3：旅行

成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网，它至今抓取了数以十亿计的网页。但最近几年它引发了争议，其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门，允许它们使用高质量付费墙文章训练模型，并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙，会应新闻出版商要求删除其内容，但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称，新闻出版商如果不想它们的内容被抓取，就不应该将内容发布到网上。他说，Common Crawl 的爬虫不会登陆其抓取的网站，但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文，然后代码检查访客是不是付费用户，如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码，因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。