你的网站内容是否被用于AI训练？（转载自Zac博客）-北京SEO-天阳正信

近期，无论是SEO行业还是整个科技领域，最炙手可热的话题非人工智能莫属。

坦白说，在过去的二十多年里，我始终未曾感受到SEO技术有过根本性的变革。尽管搜索引擎日新月异地更新算法，SEO从业者们不断摸索各种技巧，新术语也层出不穷，诸如“战略战术”、“黑科技”之类……但实际上，核心并无太大变化，无非是：创造优质内容，确保蜘蛛能够抓取，确保用户能顺利访问，仅此而已。

然而，自ChatGPT问世以来，我第一次真切地感受到变革的可能。从未有过的感觉让我意识到，SEO的操作方式或许将迎来全新的局面。

因此，如今唯一能激起我撰写帖子热情的，唯有AI。

在上篇探讨AI是否会终结SEO的帖子中，我曾提到，Google正在测试的生成式AI并未提供内容来源，这意味着它不会为其他网站带来流量，那么站长们岂能坐视不理？还会允许Google蜘蛛抓取网站内容吗？我苦心孤诣创作内容，供蜘蛛免费抓取，用于训练AI，可当AI回答用户问题时，既无链接也无出处，对我的网站毫无益处，那我图什么？倘若真有那么一天，我必断然禁止Google蜘蛛的抓取。

那么，你的网站内容是否已被用于AI训练？这难以准确知晓，因为生成式AI的回答并非伪原创或简单拼接，而是在海量数据学习后，由AI独立创作的原创内容。

在这方面，Bing做得稍好，会标注部分出处，被标注的网站显然已被用于训练。那么，Google呢？

不久前，华盛顿邮报发布了一篇文章：“Inside the secret list of websites that make AI like ChatGPT sound smart”——“那些让ChatGPT等AI显得聪明绝顶的网站名单”。文章附带了一个小工具，可查询特定网站是否被Google用于AI训练以及使用的比例。

AI训练的数据量是巨大的，来源也五花八门，包括出版的书籍、各类数据库、维基百科，当然也包括普通网站。C4是Google用于AI训练的一个网站数据集，涵盖了一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数，token越多，意味着被用于训练的数据量越大。token，我不确定该如何准确翻译，“字符串”？总之，它指的是如词语或短语等一小段文字。

C4并非Google用于AI训练的全部网站，因此未能收录其中的网站，未必意味着未被用于训练。例如，查询zhihu.com，竟然一个token都没有，这显然不合理，我无法相信知乎的内容未曾参与训练。

已有热心网友利用这个小工具，统计出被Google用于训练的token数量及占比，Google专利位列第一，维基百科次之，scribd位居第三：