新建一个Scrapy项目
使用Scrapy框架制作爬虫的第一步,就是为爬虫创建一个新的Scrapy项目。我们需要在终端使用命令创建Scrapy项目,命令格式如下:
scrapy startproject 项目名称
命令中包含了Scrapy项目的名称,你可以为自己的项目取一个合适的名称(例如mySpider)。打开终端,进入自定义的项目目录(例如,在Windows系统下的“D:\PythonProject”目录),运行如下命令:
scrapy startproject mySpider
命令执行结果如图1所示。
图1 创建Scrapy项目
从图1中可以看出,系统显示了mySpider项目的完整目录。为了方便项目的管理,我们使用PyCharm打开该项目,可以看到Scrapy自动生成了若干文件和目录,这些文件和目录的结构如图2所示。
图2 自动生成的文件和目录
接下来,我们简单介绍一下各个主要文件的作用:
scrapy.cfg:配置文件,用于存储项目的配置信息。
mySpider/:项目的Python模块,将会从这里引用代码。
mySpider/items.py:实体文件,用于定义项目的目标实体。
mySpider/middlewares.py:中间件文件,用于定义Spider中间件。
mySpider/pipelines.py:管道文件,用于定义项目使用的管道。
mySpider/settings.py:设置文件,用于存储项目的设置信息。
mySpider/spiders/:存储爬虫代码的目录。