成都网站优化 - SEO百科 - Robots.txt:入门指南

Robots.txt:入门指南

本文作者:十七 发布时间:2020-05-26 08:54:28 访问人数:173 本文所属:SEO百科
「本文导读」一个简单的文件,其中包含用于指定网站上搜索引擎机器人不能对其进行爬网(或在某些情况下必须对它们进行爬网)的页面的组件。该文件应放置在站点的根目录中。该文件的标准于1994年开发,被称为“机器人排除标准”或“ 机器人遵循条约”。

  一个简单的文件,其中包含用于指定网站上搜索引擎机器人不能对其进行爬网(或在某些情况下必须对它们进行爬网)的页面的组件。该文件应放置在站点的根目录中。该文件的标准于1994年开发,被称为“机器人排除标准”或“ 机器人遵循条约”。

robots.txt

  有关robots.txt的一些常见误解:

  它可以阻止内容被索引并显示在搜索结果中。

  如果您在robots.txt文件下列出了某个页面或文件,但是在外部资源中找到了该页面的URL,则搜索引擎机器人可能仍会抓取该外部URL并将其编入索引,并在搜索结果中显示该页面。此外,并非所有的搜索引擎蜘蛛都遵循robots.txt文件中给出的说明,因此某些搜索引擎蜘蛛仍可能会抓取并索引robots.txt文件下提到的页面。如果您需要一个额外的索引块,则在这些特定网页上使用时,在content属性中具有“ noindex”值的robots Meta标记将照此使用

robots.txt入门指南

  Robots.txt的作用:

  1.它保护私人内容。

  如果您想阻止僵尸程序在站点上拥有私人或机密内容,请不仅依赖robots.txt。建议对此类文件使用密码保护,或者根本不在线发布它们。

  2.它保证没有重复的内容索引。

  由于robots.txt不能保证网页不会被索引,因此使用它阻止您网站上的重复内容是不安全的。如果您确实使用robots.txt阻止重复的内容,请确保您还采用其他简便的方法,例如rel = canonical标签。

  3.它保证了所有机器人的封锁。

  与Google搜索引擎蜘蛛不同,并非所有搜索引擎蜘蛛都是合法的,因此可能不会遵循robots.txt文件说明来阻止对特定文件进行索引。阻止这些不需要的或恶意的bot的唯一方法是,通过阻止它们通过服务器配置或使用网络防火墙对Web服务器的访问,假设该bot是通过单个IP地址运行的。

robots.txt入门指南

  用于Robots.txt:

  如上一节所述,在某些情况下,robots.txt的使用似乎无效。但是,存在该文件是有原因的,这就是其对页面SEO的重要性。

  以下是一些使用robots.txt的实用方法:

  阻止爬网程序访问私有文件夹。

  为了防止机器人抓取网站上不太值得注意的内容。这使他们有更多的时间来抓取要在搜索结果中显示的重要内容。

  仅允许特定的搜索引擎蜘蛛访问以爬网您的网站。这样可以节省带宽。搜索搜索引擎蜘蛛默认会请求robots.txt文件。如果找不到,他们将报告404错误,您将在日志文件中找到该错误。为避免这种情况,您至少必须使用默认的robots.txt,即空白的robots.txt文件。

  为搜索引擎蜘蛛提供站点地图的位置。为此,请在robots.txt中输入包含站点地图位置的指令:

  您可以将其添加到robots.txt文件中的任何位置,因为该指令独立于用户代理行。您所要做的就是在URL的sitemap-location.xml部分中指定Sitemap的位置。如果您有多个站点地图,则还可以指定站点地图索引文件的位置。

  • 项目顾问.png

    扫描添加

    项目经理微信

    享受专业顾问服务

  • 微信公众号.jpg

    关注公众号

    获取更多专业资讯

  • 分享:

    免责声明:本文是由我司原创独立撰写首发本网站中,供使用百度等各大搜索引擎的用户可以第一时间查阅并解决自己所遇到的优化难题。而其中部分转载的文章,我们会在找到作者的情况取得他的同意之后再进行发布!而没有找到文章作者的情况,你可以投稿到我们的邮箱:2838355532@qq.com并附上文章所有权的证明,我们便会在第一时间删除(不超过二十四小时)!

    本文关键词:Robots.txt,Robots.txt指南

    阿里云
    SEO按天计费
    域名注册
    君企网络启动新征程
    • 公司名称
    • 联系人
    • 电话
    • 邮箱
  • QQ
  • 电话
  • 首页
  • 留言
  • 返回顶部