学科分类
目录
网络爬虫

新建一个Scrapy项目

使用Scrapy框架制作爬虫的第一步,就是为爬虫创建一个新的Scrapy项目。我们需要在终端使用命令创建Scrapy项目,命令格式如下:

scrapy startproject 项目名称

命令中包含了Scrapy项目的名称,你可以为自己的项目取一个合适的名称(例如mySpider)。打开终端,进入自定义的项目目录(例如,在Windows系统下的“D:\PythonProject”目录),运行如下命令:

scrapy startproject mySpider

命令执行结果如图1所示。

img

图1 创建Scrapy项目

从图1中可以看出,系统显示了mySpider项目的完整目录。为了方便项目的管理,我们使用PyCharm打开该项目,可以看到Scrapy自动生成了若干文件和目录,这些文件和目录的结构如图2所示。

img

图2 自动生成的文件和目录

接下来,我们简单介绍一下各个主要文件的作用:

  • scrapy.cfg:配置文件,用于存储项目的配置信息。

  • mySpider/:项目的Python模块,将会从这里引用代码。

  • mySpider/items.py:实体文件,用于定义项目的目标实体。

  • mySpider/middlewares.py:中间件文件,用于定义Spider中间件。

  • mySpider/pipelines.py:管道文件,用于定义项目使用的管道。

  • mySpider/settings.py:设置文件,用于存储项目的设置信息。

  • mySpider/spiders/:存储爬虫代码的目录。

点击此处
隐藏目录