学科分类
目录
网络爬虫

执行分布式爬虫

程序编写完成以后,我们就可以执行分布式爬虫了。

首先,需要在Master端启动redis-server。例如,在Windows 7电脑下,进入Redis的安装目录,然后在命令提示符中执行如下命令:

redis-server redis.windows.conf

将前面创建的mySpider项目拷贝到所有的Slave端。打开终端,切换目录至spiders目录下,运行爬虫。例如,在Mac端运行如下命令运行爬虫:

scrapy runspider itcast.py

注意,可以随机选择任一个Slave端启动,不用区分先后顺序。

此时,所有的Slave端电脑均处于等待指令的状态。在Master端的另一个终端中启动redis-cli,之后使用lpush命令推出一个redis_key,具体如下:

lpush itcast:start_urls http://www.itcast.cn/channel/teacher.shtml

爬虫启动,所有的Slave端设备开始爬取数据,并保存到Redis数据库中。打开Redis Desktop Manager工具,可以看到保存至Redis中的数据。

点击此处
隐藏目录