通用爬虫和聚焦爬虫 - python学习教程_python基础教程_ python培训

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种。通用爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫，是“面向特定主题需求”的一种网络爬虫程序。接下来，就对这两种爬虫分别进行介绍。

1. 通用爬虫

通用爬虫又称全网爬虫（Scalable Web Crawler），它将爬取对象从一些种子 URL扩充到整个Web上的网站，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。

这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。

2. 聚焦爬虫

聚焦爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。

和通用爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。