成都SEO - 网站运营 - 如何从日志文件分析中找到SEO见解

如何从日志文件分析中找到SEO见解

本文作者:十七 发布时间:2020-03-28 10:35:04 访问人数:58 本文所属:网站运营
本文标签:
「本文导读」百度的网络蜘蛛百度正在不断抓取网站并将其添加到百度的索引中。爬网您的网站时,它会注册有关您的网站工作方式的大量信息。

  百度的网络蜘蛛百度正在不断抓取网站并将其添加到百度的索引中。爬网您的网站时,它会注册有关您的网站工作方式的大量信息。

  看到百度看到的内容有用吗?毕竟,作为SEO的目标之一就是遵循百度设定的准则,如果您可以从幕后了解它如何理解您的网站,则可以相应地调整策略。

  许多SEO不会进行日志文件分析,这限制了他们从无法通过常规站点爬网获得的有价值的见解中进行限制。

  在本文中,我将向您展示如何分析服务器日志文件以收集这些重要的见解并提高搜索性能。首先,让我们介绍基础知识...

日志分析

  什么是日志文件分析?

  服务器日志文件是从Web服务器输出的文件,其中包含“命中”或服务器已收到的所有请求的记录。从本质上讲,日志文件分析是您工具栏中的一种潜在工具,可让您深入了解百度正在爬网网站上的哪些页面/内容。

  日志文件中包含的信息包括:

  1) 时间和日期

  2) 请求IP地址

  3) 回应码

  4) 推荐人

  5) 用户代理

  6) 爬取的档案

  以下是服务器日志文件的外观示例(使用虚拟信息):

  127.0.0.1用户标识符坦率[10 / Oct / 2000:13:55:36 -0700]“ GET / apache _pb.gif HTTP / 1.0” 200 2326

  由于服务器日志文件是来自百度(和其他搜索引擎抓取工具)的真实信息,因此对日志文件的分析将回答以下问题:

  7) 我的抓取预算是否有效支出?

  8) 搜寻期间遇到了哪些可访问性错误?

  9) 爬行不足的地方在哪里?

  10) 我最活跃的页面是哪些?

  11) 百度不知道哪些页面?

  这些只是您可以通过日志文件分析发现的见解的几个示例。

  尽管可以通过多种方式向百度发出信号,告知他们应该如何抓取网站(例如XML网站地图,robot.txts等),但是找到这些问题的答案可能会极大地有益于调整策略,使百度bot警惕您最重要的页面。

  注意:当百度bot抓取您的网站时,它只会查看HTML,而不是javascript。

服务器日志分析

  日志文件分析的挑战

  日志分析可能存在一些固有的障碍。首先,很难获得机器人日志文件,如果您是一家企业公司,则很可能在您的站点上有成千上万的页面。收集和消化的信息很多。

  由于日志文件分析通常与SEO报告分开进行,因此您必须手动连接各个点。尽管可以这样做,但是没有理由您应该这样做。数据太多了。如果要在Excel中手动执行此操作,则只会看到一天的日志文件数据,而不是整个趋势。更不用说浪费时间尝试筛选,分割和组织数据了。

  您需要一个平台来将这些数据汇总在一起,因为实际上,必须对其进行汇总才能使其有意义。

  让我用一个例子来说明。如果一个网站每天有5,000个访问者,每个访问者访问10页,则服务器将创建一个50,000条记录的日志文件条目。手动浏览该数据将是一个非常繁琐的过程。

  通过将bot日志文件与其他SEO报告一起使用相同的工具,您可以开始更轻松地连接各个点并找出此信息在告诉您什么。那么,这个过程是什么样的呢?

网站日志分析

  日志文件分析的其他见解

  日志数据可以在各种用例中使用。通过分析漫游器日志文件,您可以查看搜索引擎如何查看您的网站,这意味着您可以找出潜在的错误,并在下次漫游器出现时通过网站更新来修复它们。

  仿冒机器人活动

  欺骗活动是指来自宣称自己为主要搜索引擎但其IP与搜索引擎IP不匹配的漫游器的任何爬网请求。我们的工具可以轻松地标记冒充百度bot且正在抓取您的网站并消耗宝贵资源的抓取工具。如果找到垃圾邮件机器人,则可以对其进行清理,以优化爬网预算并更快地加载网站。

  响应码

  还要检查您网站的HTTP状态。了解哪些URL正常运行,哪些响应页面错误。2xx响应代码表示已正确接收并接受了请求,但是某些响应代码表示错误。

  但是应解决3xx,4xx和5xx响应代码。例如,虽然一个301重定向(指示页面已永久移动)不是问题,但多个重定向会造成麻烦。

  由于某些响应代码是肯定的,因此您可以过滤结果以指定要查看的响应代码。在这里,我筛选了结果以显示3xx和4xx响应代码。

  新内容发现

  使用日志文件分析器,您可以通过分段对网站上的新页面进行分组,并确切地查看何时对这些特定页面进行了爬网。在几天之内,您可以百分百确定这一新的战略内容已被百度发现。

  用户代理过滤器

  使用用户代理过滤器选择要分析的过滤器,或按名称搜索它们。根据以下条件过滤特定的用户代理:是,不是,包含,不包含,开头,结尾或正则表达式模式。这样一来,您就可以缩小范围并发现网站上哪些搜索机器人的活动水平最高。向下过滤到要分析的特定内容还可以使您查看搜索引擎是否与您要对其进行排名的搜索引擎一致。

  搜寻最多的网页

  如我们所见,日志文件分析使您可以查看机器人正在爬网的页面,以及爬网最多的页面。这使您可以验证爬网的页面与站点的最重要页面是否一致。您不希望将搜寻预算浪费在影响较小的页面上–确保百度所搜寻的页面是具有最多产品,为您和您的组织带来最多销售额的最高级页面。

  百度IP

  最后,找到百度ip用来抓取您的网站的IP地址。分别验证百度是否可以正确访问相关页面和资源。

  结论

  日志文件在从正确的团队收集数据方面可以做一些工作,但是一旦将它们传送到seoClarity中并将其与其他SEO指标进行比较,您就更了解百度以及它如何理解您的网站了。

  • 项目顾问.png

    扫描添加

    项目经理微信

    享受专业顾问服务

  • 微信公众号.jpg

    关注公众号

    获取更多专业资讯

  • 分享:

    免责声明:本文是由我司原创独立撰写首发本网站中,供使用百度等各大搜索引擎的用户可以第一时间查阅并解决自己所遇到的优化难题。而其中部分转载的文章,我们会在找到作者的情况取得他的同意之后再进行发布!而没有找到文章作者的情况,你可以投稿到我们的邮箱:2838355532@qq.com并附上文章所有权的证明,我们便会在第一时间删除(不超过二十四小时)!

    本文关键词:日志文件,SEO日志

    阿里云
    SEO按天计费
    域名注册
    君企网络启动新征程
    • 公司名称
    • 联系人
    • 电话
    • 邮箱
    • 验证码
      点击更换验证码

    君企网络 Copyright © 2000-2020. 未经许可,不可拷贝或镜像 蜀ICP备12032590号-2 网站地图

  • QQ
  • 电话
  • 首页
  • 留言
  • 返回顶部