搜索引擎经常对网站进行爬网,以确定哪些应在其庞大的数据库中建立索引。搜索引擎搜寻器(也称为机器人,漫游器或蜘蛛)会收集他们认为高质量的网页。
随着时间的流逝,搜索引擎将继续请求以前下载的网页以检查内容更新。然后,根据网页的计算相关性,将一定数量的带宽分配给定期查看。每次下载网页时,都会使用带宽,并且一旦达到网站分配的带宽限制,就不会再爬网网页,直到进行下一次审阅。这称为网站的抓取预算,它的工作原理与其他任何预算一样。但是对于搜索引擎而言,当您的网站的抓取预算用尽时,该机器人就会继续前进。
由于分配的带宽有限,因此至关重要的是,将搜寻器定向到您最想包含在搜索引擎的Web内容索引中的内容,并消除任何不必要或重复的内容,以避免搜索引擎搜寻器掉线太早进行爬网,这个过程称为``爬网遗弃''。
百度使用各种指标(包括PageRank)来确定网站最重要的网页,然后更频繁地对其进行爬网。
为了有效利用网站的抓取预算,调查在百度搜索控制台(以前称为百度网站管理员工具)中报告的错误非常重要,以确保这些网页能够正确呈现。如果无法修复网页,则必须进行尽职调查,以确保该网页不会对网站的其余部分产生负面影响。这可以通过以下几种方法完成:
301重定向:将这些网页重定向到其新的URL。使用302如果重定向是真正的临时的(例如,产品这是脱销)。
缺少网页:如果您有很多缺少的网页,请允许他们返回4xx(例如404,410)状态代码,但是将这些网页从XML网站地图中删除。
错误的网页链接:删除指向这些错误网页的所有内部链接。
重定向网络流量:如果您的任何4xx网页收到了大量流量或链接,则需要确保301重定向这些网页。
常见的抓取问题以及如何处理它们:
爬网率下降:
百度蜘蛛需要花时间下载(或抓取)网页。百度蜘蛛花在抓取页面上的时间越长,“抓取预算”就越用完。当用于爬网的时间超过平均时间时,就会看到爬网率下降,这表明爬网效率低下。
步骤1:识别页面加载时间较慢的页面。
步骤2:如果页面不重要,请考虑将其删除以节省抓取预算或优化页面的加载时间。
速度过慢的网页会耗尽抓取预算。
索引膨胀:
您网站上的某些网页获得了自然流量,而其他网页则很少或根本没有。如果它们都是需要抓取才能获得访问量的索引网页,则这些索引例如是在过去一个月内刚刚接受青少年访问或在过去六个月中访问过一次的网页,等等。不生成网络访问量的索引页面具有直接影响抓取预算。
第1步:确定没有任何点击量的“沉重”网页
步骤2:从百度的索引中删除索引页,以提高对重要网页的抓取效率。
无效的404网页:
登陆默认的404错误网页,不知道为什么网站没有返回预期的结果或如何从错误页面继续。
步骤1:改进404网页模板以获得更好的用户体验。考虑:
–添加指向您最受欢迎的文章或帖子的链接,以及指向网站首页的链接。
–在自定义404页面上的某个位置有一个站点搜索框(老练的访问者倾向于搜索;低级的访问者倾向于浏览)。
小费。良好的自定义404网页应有助于使访问者留在您的网站上,并帮助他们找到所需的信息。