学科分类
目录
网络爬虫

通用爬虫中网页的分类

前面通过一张图描述了通用爬虫的整体流程。如果从更加宏观的角度考虑,根据动态抓取过程中的爬虫和互联网所有网页之间的关系,可以大致像如图1所示那样,将互联网页面划分为5个部分,如下所示。

1.已下载网页集合:爬虫已经从互联网下载到本地进行索引的网页集合。

2.已过期网页集合:由于网页数最巨大,爬虫完整抓取一轮需要较长时间,在抓取过程中,很多已经下载的网页可能过期。之所以如此,是因为互联网网页处于不断的动态变化过程中,所以易产生本地网页内容和真实互联网网页不一致的情况。

3.待下载网页集合:即待抓取URL队列中的网页,这些网页即将被爬虫下载。

4.可知网页集合:这些网页还没有被爬虫下载,也没有出现在待抓取URL队列中,不过通过已经抓取的网页或者在待抓取URL队列中的网页,总能够通过链接关系发现它们,稍晚时候会被爬虫抓取并索引。

5.不可知网页集合:有些网页对于爬虫来说是无法抓取到的,这部分网页构成了不可知网页集合。事实上,这部分网页所占的比例很高。

img

图1 网页分类

点击此处
隐藏目录