如何实现多线程爬虫?

爬虫的基本步骤分为:爬取,解析,存储。假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型。那么在设计多线程爬虫时主要有两种方案:第一种方案是由一个线程实现数据的爬取、解析、存储,然后交给多个线程运行;第二种方案是由多个线程分别实现数据的爬取、解析、存储,比如N个线程进行获取,1个线程进行解析(多个线程之间切换会降低效率),N个线程进行存储。

点击此处
隐藏目录