执行分布式爬虫
程序编写完成以后,我们就可以执行分布式爬虫了。
首先,需要在Master端启动redis-server。例如,在Windows 7电脑下,进入Redis的安装目录,然后在命令提示符中执行如下命令:
redis-server redis.windows.conf
将前面创建的mySpider项目拷贝到所有的Slave端。打开终端,切换目录至spiders目录下,运行爬虫。例如,在Mac端运行如下命令运行爬虫:
scrapy runspider itcast.py
注意,可以随机选择任一个Slave端启动,不用区分先后顺序。
此时,所有的Slave端电脑均处于等待指令的状态。在Master端的另一个终端中启动redis-cli,之后使用lpush命令推出一个redis_key,具体如下:
lpush itcast:start_urls http://www.itcast.cn/channel/teacher.shtml
爬虫启动,所有的Slave端设备开始爬取数据,并保存到Redis数据库中。打开Redis Desktop Manager工具,可以看到保存至Redis中的数据。