你的网站内容是否被用于AI训练？-北京SEO-天阳正信

最近几个月，无论是SEO行业还是整个科技领域，人工智能无疑是最热门的话题。

坦白说，过去20多年里，我从未觉得SEO技术有过根本性的变革。尽管搜索引擎不断更新算法，SEO从业者们也在探索各种技巧，新名词层出不穷——这个战法，那个黑科技……但实际上，真正的变化并不大。SEO的核心始终是：创作优质内容，确保搜索引擎蜘蛛能够抓取，用户能够顺利访问，仅此而已。

然而，自从ChatGPT问世以来，我第一次感受到SEO可能会迎来真正的变革。我从未像现在这样觉得，SEO的未来可能会有新的玩法。

因此，目前唯一能激发我撰写帖子冲动的，也只有AI了。

在上一篇讨论AI是否会终结SEO的帖子中，我曾提到Google正在测试的生成式AI没有提供内容出处，这意味着它不会为其他网站带来流量。那么，站长们难道不会抗议吗？Google的蜘蛛还能继续抓取网站内容吗？我们辛辛苦苦创作内容，让蜘蛛免费抓取，结果AI在回答用户问题时既不提供链接，也不标注出处，这对网站没有任何好处。如果真有那么一天，我肯定会直接禁止Google蜘蛛来抓取我的内容。

那么，你的网站内容是否已经被用于AI训练了呢？这个问题并不容易回答，因为生成式AI的回答并非伪原创，也不是简单的文本拼接，而是在学习大量数据后，AI自主生成的原创内容。

相比之下，Bing表现得稍好一些，它会标注部分内容的出处，这些被标注的网站显然已被用于训练。那么，Google呢？它是否也使用了我们的内容？

前两天，《华盛顿邮报》发布了一篇文章：“Inside the secret list of websites that make AI like ChatGPT sound smart”（那些让ChatGPT等AI显得聪明的秘密网站名单）。文章中嵌入了一个小工具，可以用来查询某个网站是否被Google用于AI训练，以及使用的比例。

AI的训练数据是海量的，来源也多种多样，包括出版的书籍、各种数据库、Wiki等，普通网站肯定也是其中的一部分。C4是Google用于AI训练的一个网站数据集，其中包含一千五百万个网站。《华盛顿邮报》分析了每个网站中出现的token次数，token越多，大致上意味着该网站被用于训练的数据越多。这里的“token”我不确定该如何翻译，或许可以理解为“字符串”？它指的是一小段文字，比如一个词或一个短语。

需要注意的是，C4并非Google用于AI训练的所有网站数据集，因此，不在其中的网站也不一定没有被用于训练。例如，我查了一下zhihu.com，结果竟然一个token都没有，这显然不太科学，我很难相信知乎的内容没有被用于训练。

已经有人利用这个小工具统计出被Google用于训练的token数量及其占比，结果发现Google的专利排名第一，Wikipedia排名第二，Scribd排名第三：