Common Crawl 被批为 AI 公司提供高质量付费墙文章

Common Crawl 被批为 AI 公司提供高质量付费墙文章
好的，我现在要帮用户总结一篇文章的内容，控制在100字以内。首先，我需要仔细阅读用户提供的文章内容，理解其主要观点和关键信息。文章主要讲的是Common Crawl这个非盈利组织，成立于2007年，致力于存档互联网。他们抓取了数十亿网页，但最近因为被AI公司用来训练模型而引发争议。特别是他们绕过了付费墙，抓取了高质量的文章，并且在抓取过程中撒谎。Common Crawl声称不会绕过付费墙，并会删除新闻出版商要求的内容，但实际上并非如此。执行董事Rich Skrenta回应说，如果出版商不希望内容被抓取，就不应该发布到网上。他还解释说他们的爬虫不会执行付费墙代码，因此能直接阅读全文。过去一年中，Common Crawl的CCBot成为被屏蔽最多的抓取程序。接下来，我需要将这些信息浓缩到100字以内。要抓住关键点：Common Crawl的成立时间、争议原因、涉及的AI公司、绕过付费墙的行为、执行董事的回应以及CCBot被屏蔽的情况。可能的结构是：先介绍组织及其目标，然后说明争议和涉及的公司，接着描述他们如何绕过付费墙和执行董事的回应，最后提到CCBot的影响。现在开始组织语言： “Common Crawl成立于2007年，致力于存档互联网。近年来因向AI公司提供大量数据引发争议。该组织被指绕过付费墙抓取文章，并在操作上存在不透明之处。其执行董事表示出版商应避免在线发布敏感内容。” 检查一下字数是否在100字以内，并确保涵盖所有关键点：成立时间、目标、争议、AI公司、绕过付费墙、回应。看起来这样可以满足要求。 </think> Common Crawl成立于2007年，致力于存档互联网。近年来因向AI公司提供大量数据引发争议。该组织被指绕过付费墙抓取文章，并在操作上存在不透明之处。其执行董事表示出版商应避免在线发布敏感内容。 2025-11-9 12:16:24 Author: www.solidot.org(查看原文) 阅读量:9 收藏

成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网，它至今抓取了数以十亿计的网页。但最近几年它引发了争议，其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门，允许它们使用高质量付费墙文章训练模型，并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙，会应新闻出版商要求删除其内容，但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称，新闻出版商如果不想它们的内容被抓取，就不应该将内容发布到网上。他说，Common Crawl 的爬虫不会登陆其抓取的网站，但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文，然后代码检查访客是不是付费用户，如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码，因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。

https://tech.slashdot.org/story/25/11/08/1930213/common-crawl-criticized-for-quietly-funneling-paywalled-articles-to-ai-developers

文章来源: https://www.solidot.org/story?sid=82758
如有侵权请联系:admin#unsafe.sh