你的网站内容是否被用于AI训练?(转载自Zac博客)

近期,无论是SEO行业还是整个科技领域,最炙手可热的话题非人工智能莫属。

坦白说,在过去的二十多年里,我始终未曾感受到SEO技术有过根本性的变革。尽管搜索引擎日新月异地更新算法,SEO从业者们不断摸索各种技巧,新术语也层出不穷,诸如“战略战术”、“黑科技”之类……但实际上,核心并无太大变化,无非是:创造优质内容,确保蜘蛛能够抓取,确保用户能顺利访问,仅此而已。

然而,自ChatGPT问世以来,我第一次真切地感受到变革的可能。从未有过的感觉让我意识到,SEO的操作方式或许将迎来全新的局面。

因此,如今唯一能激起我撰写帖子热情的,唯有AI。

在上篇探讨AI是否会终结SEO的帖子中,我曾提到,Google正在测试的生成式AI并未提供内容来源,这意味着它不会为其他网站带来流量,那么站长们岂能坐视不理?还会允许Google蜘蛛抓取网站内容吗?我苦心孤诣创作内容,供蜘蛛免费抓取,用于训练AI,可当AI回答用户问题时,既无链接也无出处,对我的网站毫无益处,那我图什么?倘若真有那么一天,我必断然禁止Google蜘蛛的抓取。

那么,你的网站内容是否已被用于AI训练?这难以准确知晓,因为生成式AI的回答并非伪原创或简单拼接,而是在海量数据学习后,由AI独立创作的原创内容。

在这方面,Bing做得稍好,会标注部分出处,被标注的网站显然已被用于训练。那么,Google呢?

不久前,华盛顿邮报发布了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart”——“那些让ChatGPT等AI显得聪明绝顶的网站名单”。文章附带了一个小工具,可查询特定网站是否被Google用于AI训练以及使用的比例。

AI训练的数据量是巨大的,来源也五花八门,包括出版的书籍、各类数据库、维基百科,当然也包括普通网站。C4是Google用于AI训练的一个网站数据集,涵盖了一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数,token越多,意味着被用于训练的数据量越大。token,我不确定该如何准确翻译,“字符串”?总之,它指的是如词语或短语等一小段文字。

C4并非Google用于AI训练的全部网站,因此未能收录其中的网站,未必意味着未被用于训练。例如,查询zhihu.com,竟然一个token都没有,这显然不合理,我无法相信知乎的内容未曾参与训练。

已有热心网友利用这个小工具,统计出被Google用于训练的token数量及占比,Google专利位列第一,维基百科次之,scribd位居第三:

谷歌token

出于好奇与虚荣心驱使,我自然要查查自己的博客:

昝辉博客

结果显示,被使用了280个token。说实话,此刻的心情颇为复杂,既有一丝欣慰,毕竟与联合早报仅有的19个token相比,我的博客似乎“贡献”更大:

昝辉博客token

然而,短暂的虚荣满足过后,不禁陷入沉思:在无法获得任何实质回报的情况下,我真的甘愿让我的内容被Google用于AI训练吗?

各位不妨也查查自己的网站是否已被利用。若已被使用,你们又是何种态度?心甘情愿吗?