Internet搜索引擎使用搜索引擎蜘蛛(有时称为搜寻器)来收集有关网站和单个Web页面的信息。搜索引擎需要来自所有站点和页面的信息。否则,他们将不知道响应搜索查询要显示哪些页面或显示什么优先级。
搜索引擎蜘蛛通过Internet爬行并创建网站队列以进行进一步调查。当特定的网站被蜘蛛覆盖时,蜘蛛会读取所有文本,超链接,标记(标记是专门格式化的关键字,以专门为蜘蛛查找和使用的方式插入到网页中)和代码。蜘蛛利用这些信息为搜索引擎提供配置文件。
然后,蜘蛛程序通过遵循Web页面上的超链接来收集其他信息,这使它可以更好地收集有关这些页面的数据。这就是在网页上(甚至更好的是,其他网页链接到您的网页)上的链接对于使搜索引擎找到您的网站非常有用的原因。
蜘蛛有四种收集信息的基本模式。一种爬虫仅用于创建要由其他爬虫搜索的网页队列。该“蜘蛛”以“选择”模式工作,正在确定要浏览的页面的优先级,并检查是否已下载页面的早期版本。第二种模式是专门设计的蜘蛛程序,用于遍历蜘蛛程序已抓取的页面。
此模式称为“重新访问”。一些搜索引擎担心页面被其他蜘蛛抓取过彻底,因此它们使用称为“礼貌”的蜘蛛模式,该模式限制了对过度工作的页面的抓取。最后,“并行化”使蜘蛛可以将其数据收集工作与正在同一页面上爬行的其他搜索引擎蜘蛛进行协调。