百度的网络蜘蛛百度正在不断抓取网站并将其添加到百度的索引中。爬网您的网站时,它会注册有关您的网站工作方式的大量信息。
看到百度看到的内容有用吗?毕竟,作为SEO的目标之一就是遵循百度设定的准则,如果您可以从幕后了解它如何理解您的网站,则可以相应地调整策略。
许多SEO不会进行日志文件分析,这限制了他们从无法通过常规站点爬网获得的有价值的见解中进行限制。
在本文中,我将向您展示如何分析服务器日志文件以收集这些重要的见解并提高搜索性能。首先,让我们介绍基础知识...
什么是日志文件分析?
服务器日志文件是从Web服务器输出的文件,其中包含“命中”或服务器已收到的所有请求的记录。从本质上讲,日志文件分析是您工具栏中的一种潜在工具,可让您深入了解百度正在爬网网站上的哪些页面/内容。
日志文件中包含的信息包括:
1) 时间和日期
2) 请求IP地址
3) 回应码
4) 推荐人
5) 用户代理
6) 爬取的档案
以下是服务器日志文件的外观示例(使用虚拟信息):
127.0.0.1用户标识符坦率[10 / Oct / 2000:13:55:36 -0700]“ GET / apache _pb.gif HTTP / 1.0” 200 2326
由于服务器日志文件是来自百度(和其他搜索引擎抓取工具)的真实信息,因此对日志文件的分析将回答以下问题:
7) 我的抓取预算是否有效支出?
8) 搜寻期间遇到了哪些可访问性错误?
9) 爬行不足的地方在哪里?
10) 我最活跃的页面是哪些?
11) 百度不知道哪些页面?
这些只是您可以通过日志文件分析发现的见解的几个示例。
尽管可以通过多种方式向百度发出信号,告知他们应该如何抓取网站(例如XML网站地图,robot.txts等),但是找到这些问题的答案可能会极大地有益于调整策略,使百度bot警惕您最重要的页面。
注意:当百度bot抓取您的网站时,它只会查看HTML,而不是javascript。
日志文件分析的挑战
日志分析可能存在一些固有的障碍。首先,很难获得机器人日志文件,如果您是一家企业公司,则很可能在您的站点上有成千上万的页面。收集和消化的信息很多。
由于日志文件分析通常与SEO报告分开进行,因此您必须手动连接各个点。尽管可以这样做,但是没有理由您应该这样做。数据太多了。如果要在Excel中手动执行此操作,则只会看到一天的日志文件数据,而不是整个趋势。更不用说浪费时间尝试筛选,分割和组织数据了。
您需要一个平台来将这些数据汇总在一起,因为实际上,必须对其进行汇总才能使其有意义。
让我用一个例子来说明。如果一个网站每天有5,000个访问者,每个访问者访问10页,则服务器将创建一个50,000条记录的日志文件条目。手动浏览该数据将是一个非常繁琐的过程。
通过将bot日志文件与其他SEO报告一起使用相同的工具,您可以开始更轻松地连接各个点并找出此信息在告诉您什么。那么,这个过程是什么样的呢?
日志文件分析的其他见解
日志数据可以在各种用例中使用。通过分析漫游器日志文件,您可以查看搜索引擎如何查看您的网站,这意味着您可以找出潜在的错误,并在下次漫游器出现时通过网站更新来修复它们。
仿冒机器人活动
欺骗活动是指来自宣称自己为主要搜索引擎但其IP与搜索引擎IP不匹配的漫游器的任何爬网请求。我们的工具可以轻松地标记冒充百度bot且正在抓取您的网站并消耗宝贵资源的抓取工具。如果找到垃圾邮件机器人,则可以对其进行清理,以优化爬网预算并更快地加载网站。
响应码
还要检查您网站的HTTP状态。了解哪些URL正常运行,哪些响应页面错误。2xx响应代码表示已正确接收并接受了请求,但是某些响应代码表示错误。
但是应解决3xx,4xx和5xx响应代码。例如,虽然一个301重定向(指示页面已永久移动)不是问题,但多个重定向会造成麻烦。
由于某些响应代码是肯定的,因此您可以过滤结果以指定要查看的响应代码。在这里,我筛选了结果以显示3xx和4xx响应代码。
新内容发现
使用日志文件分析器,您可以通过分段对网站上的新页面进行分组,并确切地查看何时对这些特定页面进行了爬网。在几天之内,您可以百分百确定这一新的战略内容已被百度发现。
用户代理过滤器
使用用户代理过滤器选择要分析的过滤器,或按名称搜索它们。根据以下条件过滤特定的用户代理:是,不是,包含,不包含,开头,结尾或正则表达式模式。这样一来,您就可以缩小范围并发现网站上哪些搜索机器人的活动水平最高。向下过滤到要分析的特定内容还可以使您查看搜索引擎是否与您要对其进行排名的搜索引擎一致。
搜寻最多的网页
如我们所见,日志文件分析使您可以查看机器人正在爬网的页面,以及爬网最多的页面。这使您可以验证爬网的页面与站点的最重要页面是否一致。您不希望将搜寻预算浪费在影响较小的页面上–确保百度所搜寻的页面是具有最多产品,为您和您的组织带来最多销售额的最高级页面。
百度IP
最后,找到百度ip用来抓取您的网站的IP地址。分别验证百度是否可以正确访问相关页面和资源。
结论
日志文件在从正确的团队收集数据方面可以做一些工作,但是一旦将它们传送到seoClarity中并将其与其他SEO指标进行比较,您就更了解百度以及它如何理解您的网站了。