最近几个月,无论是SEO行业还是整个科技领域,人工智能无疑是最热门的话题。
坦白说,过去20多年里,我从未觉得SEO技术有过根本性的变革。尽管搜索引擎不断更新算法,SEO从业者们也在探索各种技巧,新名词层出不穷——这个战法,那个黑科技……但实际上,真正的变化并不大。SEO的核心始终是:创作优质内容,确保搜索引擎蜘蛛能够抓取,用户能够顺利访问,仅此而已。
然而,自从ChatGPT问世以来,我第一次感受到SEO可能会迎来真正的变革。我从未像现在这样觉得,SEO的未来可能会有新的玩法。
因此,目前唯一能激发我撰写帖子冲动的,也只有AI了。
在上一篇讨论AI是否会终结SEO的帖子中,我曾提到Google正在测试的生成式AI没有提供内容出处,这意味着它不会为其他网站带来流量。那么,站长们难道不会抗议吗?Google的蜘蛛还能继续抓取网站内容吗?我们辛辛苦苦创作内容,让蜘蛛免费抓取,结果AI在回答用户问题时既不提供链接,也不标注出处,这对网站没有任何好处。如果真有那么一天,我肯定会直接禁止Google蜘蛛来抓取我的内容。
那么,你的网站内容是否已经被用于AI训练了呢?这个问题并不容易回答,因为生成式AI的回答并非伪原创,也不是简单的文本拼接,而是在学习大量数据后,AI自主生成的原创内容。
相比之下,Bing表现得稍好一些,它会标注部分内容的出处,这些被标注的网站显然已被用于训练。那么,Google呢?它是否也使用了我们的内容?
前两天,《华盛顿邮报》发布了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart”(那些让ChatGPT等AI显得聪明的秘密网站名单)。文章中嵌入了一个小工具,可以用来查询某个网站是否被Google用于AI训练,以及使用的比例。
AI的训练数据是海量的,来源也多种多样,包括出版的书籍、各种数据库、Wiki等,普通网站肯定也是其中的一部分。C4是Google用于AI训练的一个网站数据集,其中包含一千五百万个网站。《华盛顿邮报》分析了每个网站中出现的token次数,token越多,大致上意味着该网站被用于训练的数据越多。这里的“token”我不确定该如何翻译,或许可以理解为“字符串”?它指的是一小段文字,比如一个词或一个短语。
需要注意的是,C4并非Google用于AI训练的所有网站数据集,因此,不在其中的网站也不一定没有被用于训练。例如,我查了一下zhihu.com,结果竟然一个token都没有,这显然不太科学,我很难相信知乎的内容没有被用于训练。
已经有人利用这个小工具统计出被Google用于训练的token数量及其占比,结果发现Google的专利排名第一,Wikipedia排名第二,Scribd排名第三:

出于好奇和虚荣心,我自然也查了一下自己的博客:

结果发现,我的博客已经被使用了280个token。说实话,我不知道是该高兴还是难过。不过,内心还是有一丝欣慰的,毕竟,就连《联合早报》也仅有19个token:

然而,短暂的虚荣感得到满足后,我不禁开始思考:我真的愿意我的内容被Google用于AI训练吗?尤其是在得不到任何好处的情况下?
各位不妨也查一下自己的网站,看看是否被用于AI训练。如果查到了,你们会心甘情愿吗?