明确抓取目标
在抓取网页之前,我们需要明确爬虫的目标网页。例如,抓取某个培训公司的讲师数据,其网址是:http://www.itcast.cn/channel/teacher.shtml
,该网页中展示的信息如图1所示。
图1 爬取的目标网站
爬虫项目需要抓取的内容是上述页面中每个讲师的具体信息,包括姓名、级别、个人信息。
在PyCharm中打开mySpider目录下的items.py文件,分别给MyspiderItem类添加了3个属性:name、title、和info,用于表示讲师的姓名、级别、和个人信息,具体代码如下。
import scrapy
class MyspiderItem(scrapy.Item):
name = scrapy.Field()
title = scrapy.Field()
info = scrapy.Field()