谷歌是一个智能且强大的搜索引擎,通常站长无需主动向谷歌提交网站,因为谷歌抓取工具(Googlebot)会24小时持续工作,自动抓取互联网中的网页数据。当然,你也可以登录“Google Search Console”主动向谷歌搜索提交你的网站。
谷歌抓取网页是一项免费服务
谷歌在其SEO指南中特别指出:谷歌搜索会免费抓取网络中的网页,不会收取任何费用,任何收费信息均属子虚乌有。
谷歌不保证收录所有网页
尽管谷歌搜索非常强大,但它并不保证能够抓取所有网页。要被谷歌正常抓取,你的网站需要遵守谷歌的SEO规则(通常只要不涉及违规内容或不阻止谷歌蜘蛛抓取,都会被正常索引)。
谷歌搜索的工作流程
谷歌搜索的工作分为三个步骤,分别是:
一、抓取网页(谷歌抓取工具(Googlebot)自动发现并抓取网页内容)。
谷歌蜘蛛会持续不断地发现网络中的新数据(网页),并将其纳入谷歌数据库中,这个过程称为“网址发现”。
谷歌主要通过两种方式发现新网页:
- 通过已知网页中的新链接。
- Googlebot索引到的新网页。
谷歌拥有大量的Googlebot,每个Googlebot负责抓取一部分网页,因此谷歌能够抓取网络中的数十亿网页。
每个网站的更新频率和内容质量不同,谷歌抓取的频率也会有所不同。谷歌会尽量控制抓取频次,以防对网站服务器造成较大影响。
以下类型的网页可能不会被抓取:
- 需要会员登录才会展示的网页。
- 网站阻止搜索引擎抓取的网页(例如robots规则限制搜索引擎抓取)。
- 使用JavaScript的网页可能不会被抓取(虽然谷歌已经可以抓取JS页面,但与抓取文本和图片相比,抓取能力稍弱)。
为了提高网页被抓取的概率,可以为网站设置网站地图(sitemap)。
二、索引网页(谷歌分析抓取到的文本、视频、图片等内容并存储到数据库中)。
谷歌抓取网页后,会尝试分析该网页的内容(文字、图片、视频、title元素、alt属性),这个过程称为“索引编制”。
谷歌会根据SEO规则决定是否将网页数据纳入数据库,以下类型的网页可能不会被正常索引:
- 网页内容是否违规(例如带有煽动情绪或颜色的内容)。
- 低质量内容(例如靠关键词堆砌的内容)。
- 重复性内容(其他网站已经多次发表的内容)。
- 暗网内容(例如需要登录才能展示信息的网站,如12306)。
符合谷歌规则的网页将被纳入数据库,并根据内容类型、区域、设备等进行分类,以便为不同地区和设备的用户提供更匹配的信息。
三、呈现网页数据(谷歌根据用户搜索内容展示对应的网页内容)。
当用户使用谷歌进行信息查询时,谷歌会根据已索引的内容进行合理匹配,展示匹配度最高的内容。
匹配度由多种因素决定,包括地理位置、设备、语言等。例如,身在北京的用户在搜索“宠物店”时,谷歌会在搜索结果中展示地理位置位于北京的相关网站,但搜索引擎不会在搜索结果中明确标注站点属性(即不会告诉你这个网站是北京的)。
