Chatgpt出来后,为何要更加重视爬虫预算的优化?
自从chatgpt出来后,大家的生成内容的成本和门槛大幅度降低,这势必会导致网站非常容易产生大量的页面。
你渐渐会发现,现在Google已经没那么容易站单全收你的页面了。其实看Google search console就知道,现在很多页面其实都会被干掉收录,或者新页面收录特别慢。
因为Chatgpt的出现,互联网创造内容的速度几乎以20倍以上速度在增加,这意味着爬虫的任务量加大了20倍。爬虫面向20倍的任务,那收录的要求肯定会越来越高,而稍微不合适的页面可能就会被排除在外。
回到正题,那如何优化爬取预算?
一. 解决301、404的问题
这个换成以前可能不算什么问题,但现在就非常重要了。因为爬取预算本来就有限,如果还把预算浪费在这些地方,那网站的爬取效率、排名表现都会非常差。解决方案很简单,利用screamingforg或者semrush和ahrefs的site audit找到这些链接,再从源头的内链去修改就行;
二. 删除GSC Crawl Not index的页面或优化该页面内容
由于页面质量问题,谷歌爬取了你的页面但不被纳入收录,而且在很长一段时间都可能会不被收录。但如果放任这些页面不去处理的话,爬虫还是会爬取这些页面,然后造成预算的快速消耗。
有两种解决办法:
1. 保留页面:把页面重新优化,把内容做得更加丰富,然后重新提交Sitemap。或者把URL直接改掉会更加容易被收录。如果收录还是很慢,可以适当加入我们的拓谷思APL外链去吸引爬虫爬取该URL。
2. 删除页面:把不收录的页面直接清理掉,但是要记得检查301和404的问题。避免拆东墙补西墙。
三. 把重复页面做整合
由于chatgpt很容易就能生成内容,网站在没有规划架构的情况下大量产生内容,这种大概率会存在重复页面。重复页面一来影响爬取预算,二来也会让爬虫觉得你页面太多相互竞争,总体内容质量低,从而不给你太多的排名。
我们最近做的新站非常多。在大批量测试中就能得知哪些页面会是google所喜欢的。我们有一些站点刚上线不到一个月就有70多个词参与排名,0外链的情况下,已经有一些长尾词在首页。
所以,爬取预算的优化、内容质量优化都非常重要。剩余那些排名在20-30名的关键词,我就准备逐一上一点APL外链把排名推起来。