学科分类
目录
网络爬虫

明确抓取目标

在抓取网页之前,我们需要明确爬虫的目标网页。例如,抓取某个培训公司的讲师数据,其网址是:http://www.itcast.cn/channel/teacher.shtml,该网页中展示的信息如图1所示。

img

图1 爬取的目标网站

爬虫项目需要抓取的内容是上述页面中每个讲师的具体信息,包括姓名、级别、个人信息。

在PyCharm中打开mySpider目录下的items.py文件,分别给MyspiderItem类添加了3个属性:name、title、和info,用于表示讲师的姓名、级别、和个人信息,具体代码如下。

import scrapy
class MyspiderItem(scrapy.Item):
  name = scrapy.Field()
  title = scrapy.Field()
  info = scrapy.Field()
点击此处
隐藏目录