学科分类
目录
网络爬虫

聚焦爬虫工作原理

与通用爬虫相比,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1所示。

img

图1 聚焦爬虫工作原理

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1) 对抓取目标的描述或定义。我们需要根据爬取需求定义聚焦爬虫的爬取目标,并进行相关的描述。

(2) 对网页或数据的分析与过滤。

(3) 对URL的搜索策略。

点击此处
隐藏目录