网站站长实际上可以通过多种方式与搜索引擎机器人进行通信。都是关于不同的代码以及它们的结构,这将使您完全控制您的网站,robots.txt是其中之一,这是非常重要的。如果您想告诉搜索引擎机器人不要在您的网站上爬网或为该页面编制索引,则需要了解它的工作原理下面就一起来看看吧
什么是robots.txt文件
robots.txt文件是网站站长用来告诉搜索引擎机器人有关该网站的信息的文件。例如,如果机器人正在访问网站来爬网某个页面,它将始终首先检查robots.txt文件,以确定他们是否应该继续访问该网站,是否存在某些他们不应该访问的页面,等等。关于robots.txt文件,请记住以下几点:
Robots.txt旨在向搜索引擎机器人提供有关可以进行爬网或建立索引的说明。
恶意软件机器人和其他垃圾邮件机器人可能会忽略您的robots.txt。
为什么选择robots.txt很重要
在过去(特别是1993-1994年),机器人可能会爬网一个页面,并且在特定服务器上不受欢迎。这可能是因为机器人不断重复获取相同的文件,重复的信息,陷入了深深的虚拟树中以及其他许多原因。然后,这就需要为网站管理员提供一个系统,以告知bot他们不应该访问服务器的哪些部分。您可能已经猜到了,创建robots.txt文件的方法就诞生了。
在实际开始创建robots.txt文件之前,请牢记一些提示:
文件扩展名不需要任何其他服务器配置。
文件名应为所有操作系统的正确长度。
文件名应该易于记忆,并且不与现有文件冲突。
如何创建robots.txt文件
您需要将robots.txt放在Web服务器的顶级目录中。从本质上讲,当漫游器抓取您的网站时,首先会查找robots.txt文件,然后使用该文件代替正在抓取的网站。例如,如果您的网页http://www.cnjunhan.cn/具有robots.txt文件,则漫游器实际上将删除URL的末尾并将其替换为robots.txt。它将看起来像http://www.cnjunhan.cn/robots.txt
格式化robots.txt的核心方法如下。您可以在“ User-agent(搜索引擎蜘蛛):*”和“ disallow:/”之后加上不同的信号,以向机器人发出信号。
以下代码允许机器人完全访问该网站:
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、Disallow(不允许、禁止访问)访问):
以下代码阻止漫游器访问网站:
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、Disallow(不允许、禁止访问)访问): /
下面的示例在查看代码时分别说明了这些含义以及可帮助您形象化的示例:
1. User-agent(搜索引擎蜘蛛):*
提交的“ User-agent(搜索引擎蜘蛛):”使我们知道可以访问特定文件的机械手的名称。如果User-agent(搜索引擎蜘蛛)后面没有任何内容,则表示该特定部分适用于所有机器人。换句话说,值“ *”是默认值,任何搜索引擎蜘蛛都可以访问。
如果仅希望将其应用于例如Baiduspider机器人,则代码应如下所示:
User-agent(搜索引擎蜘蛛):Baiduspider
Disallow(不允许、Disallow(不允许、禁止访问)访问):
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、Disallow(不允许、禁止访问)访问): /
如您所见,我们在“User-agent(搜索引擎蜘蛛):”之后添加了“ Baiduspider”一词
2. Disallow(不允许、禁止访问):/
“ disallow:/”字段使我们知道,机器人不应访问指定的URL。当您在此之后添加内容时,您就是在让漫游器知道它们不应访问那些特定的页面(或文件)。如果您没有任何东西,那几乎就像它不存在一样,机器人将抓取您的所有页面。
同样,如果您想让漫游器排除或不爬网服务器的特定页面,则需要在“ Disallow:/”部分之后放置要排除的URL前缀。当您执行此操作时,僵尸程序将不会检索以该特定URL开头的任何URL。采取以下两个示例:
Disallow(不允许、禁止访问):/ shop
与
Disallow(不允许、禁止访问):/ shop /
如果要使用第一个代码,将不会抓取以/ help开头的所有页面。这意味着/help.html和/shop/.index.html都不会被抓取。但是,如果您使用的是第二个版本,则仅/shop/index.html将不会被爬网。/shop.html将被爬网。
如果要Disallow(不允许、禁止访问)多个URL,则必须将Disallow放在三行中,如下所示:
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、Disallow(不允许、禁止访问)访问):/ URLprefix1 /
Disallow(不允许、Disallow(不允许、禁止访问)访问):/ URLprefix2 /
Disallow(不允许、Disallow(不允许、禁止访问)访问):/ URLprefix3 /
如果要允许漫游器访问除一个文件之外的所有文件,则只需要一行“ Disallow”
3. 将“User-agent(搜索引擎蜘蛛):*”和“Disallow(不允许、禁止访问):/”放在一起
既然您已经知道每个术语的含义,那么您就可以开始将它们放在一起,并真正创建您的robots.txt文件来与这些机器人进行通讯了。以下是“ /robots.txt”文件的示例,该文件告诉漫游器它们不应访问以“ / helloworld / sample /”,“ / shop /”或“ /help.html”开头的任何URL:
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、禁止访问):/ helloworld / sample /
Disallow(不允许、禁止访问):/ shop /
Disallow(不允许、禁止访问):/help.html
请注意,“ User-agent(搜索引擎蜘蛛):*”旁边没有任何内容,这再次意味着所有漫游器都应遵循“Disallow(不允许、禁止访问)”部分下显示的规则。如果我们希望文件指定没有机器人可以访问以/ helloworld / sample /开头的任何URL,除了名为“ cybermapper”的机器人外,它看起来像这样:
User-agent(搜索引擎蜘蛛): *
Disallow(不允许、禁止访问):/ helloworld / sample /
User-agent(搜索引擎蜘蛛):cybermapper
Disallow(不允许、Disallow(不允许、禁止访问)访问):
上面请注意,“ User-agent(搜索引擎蜘蛛):*”和“ disallow:/”部分是分开的。您不会在“ User-agent(搜索引擎蜘蛛):*”和“ disallow:/”旁边没有东西的地方创建代码。
总结:本文关于“什么是robots.txt?怎么创建robots.txt文件?(一文读懂)”的全部讲解了,希望你可以喜欢。而各位要是看完不懂的话,你可以加我们技术经理来给你们一对一指导讲解!