一个简单的文件,其中包含用于指定网站上搜索引擎机器人不能对其进行爬网(或在某些情况下必须对它们进行爬网)的页面的组件。该文件应放置在站点的根目录中。该文件的标准于1994年开发,被称为“机器人排除标准”或“ 机器人遵循条约”。
有关robots.txt的一些常见误解:
它可以阻止内容被索引并显示在搜索结果中。
如果您在robots.txt文件下列出了某个页面或文件,但是在外部资源中找到了该页面的URL,则搜索引擎机器人可能仍会抓取该外部URL并将其编入索引,并在搜索结果中显示该页面。此外,并非所有的搜索引擎蜘蛛都遵循robots.txt文件中给出的说明,因此某些搜索引擎蜘蛛仍可能会抓取并索引robots.txt文件下提到的页面。如果您需要一个额外的索引块,则在这些特定网页上使用时,在content属性中具有“ noindex”值的robots Meta标记将照此使用
Robots.txt的作用:
1.它保护私人内容。
如果您想阻止僵尸程序在站点上拥有私人或机密内容,请不仅依赖robots.txt。建议对此类文件使用密码保护,或者根本不在线发布它们。
2.它保证没有重复的内容索引。
由于robots.txt不能保证网页不会被索引,因此使用它阻止您网站上的重复内容是不安全的。如果您确实使用robots.txt阻止重复的内容,请确保您还采用其他简便的方法,例如rel = canonical标签。
3.它保证了所有机器人的封锁。
与Google搜索引擎蜘蛛不同,并非所有搜索引擎蜘蛛都是合法的,因此可能不会遵循robots.txt文件说明来阻止对特定文件进行索引。阻止这些不需要的或恶意的bot的唯一方法是,通过阻止它们通过服务器配置或使用网络防火墙对Web服务器的访问,假设该bot是通过单个IP地址运行的。
用于Robots.txt:
如上一节所述,在某些情况下,robots.txt的使用似乎无效。但是,存在该文件是有原因的,这就是其对页面SEO的重要性。
以下是一些使用robots.txt的实用方法:
阻止爬网程序访问私有文件夹。
为了防止机器人抓取网站上不太值得注意的内容。这使他们有更多的时间来抓取要在搜索结果中显示的重要内容。
仅允许特定的搜索引擎蜘蛛访问以爬网您的网站。这样可以节省带宽。搜索搜索引擎蜘蛛默认会请求robots.txt文件。如果找不到,他们将报告404错误,您将在日志文件中找到该错误。为避免这种情况,您至少必须使用默认的robots.txt,即空白的robots.txt文件。
为搜索引擎蜘蛛提供站点地图的位置。为此,请在robots.txt中输入包含站点地图位置的指令:
您可以将其添加到robots.txt文件中的任何位置,因为该指令独立于用户代理行。您所要做的就是在URL的sitemap-location.xml部分中指定Sitemap的位置。如果您有多个站点地图,则还可以指定站点地图索引文件的位置。