SEO优化技术中说的Spider是啥？

技术文章 2020-05-10 23:59:43 59

摘要

Spider也就是大家常说的爬虫、蜘蛛或机器人，是处于整个搜索引擎最上游的一个模块，只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是，只要是Spider抓到的URL，都可能会参与排名，但参与排名的网页并不一定就被Spider抓取到了内容，比如有些网……

Spider也就是大家常说的爬虫、蜘蛛或机器人，是处于整个搜索引擎最上游的一个模块，只有Spider抓回的页面或URL才会被索引和

参与排名。需要注意的是，只要是Spider抓到的URL，都可能会参与排名，但参与排名的网页并不一定就被Spider抓取到了内容，比如

有些网站屏蔽搜索引擎Spider后，虽然Spider不能抓取网页内容，但是也会有一些域名级别的URL在搜索引擎中参与了排名（例如天猫

上的很多独立域名的店铺）。根据搜索引擎的类型不同，Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解

决的问题，也是和SEO密切相关的问题。

首先，Spider想要抓取网页，要发现网页抓取入口，没有抓取入口也就没有办法继续工作，所以首先要给Spider一些网页入口，

然后Spider顺着这些入口进行爬行抓取，这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider 所需要的资源、Spider所抓

取网页占全网网页的比例，以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢？

其次，网页内容也是有时效性的，所以Spider对不同网页的抓取频率也要有一定的策略性，否则可能会使得索引库中的内容都很陈

旧，或者该更新的没更新，不该更新的却浪费资源更新了，甚至还会出现网页已经被删除了，但是该页面还存在于搜索结果中的情况。

那么Spider一般会使用什么样的再次抓取和更新策略呢？

再次，互联网中的网页总有一部分是没有外部链接导入的，也就是常说的“暗网”，并且这部分网页也是需要呈现给广大网民浏

览的，此时Spider就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢？

最后，大型搜索引擎的Spider不可能只有一个，为了节省资源，要保证多个Spider同时作业且抓取页面不重复；又由于各地区数

据中心分配问题，搜索引擎一般不会把Spider服务器放置在一个地区，会多地区同时作业，这两方面就涉及分布式抓取的策略问题。

评论(0)