学科分类
目录
网络爬虫

简单的自定义opener

很多网站会检测某一段时间某个IP的访问次数,如果同一IP访问过于频繁,那么该网站会禁止来自该IP的访问。针对这种情况,我们可以使用代理服务器,每隔一段时间换一个代理。如果某个IP被禁止,那么就可以换成其他IP继续爬取数据,从而可以有效解决被网站禁止访问的情况。

opener是urllib.request.OpenerDirector类的对象,我们之前一直都在使用的urlopen,就是模块帮我们构建好的一个opener,但是它不支持代理、Cookie等其他的 HTTP/HTTPS高级功能。所以如果要想设置代理,不能使用自带的urlopen,而是要自定义opener。自定义opener需要执行下列三个步骤:

(1) 使用相关的Handler处理器创建特定功能的处理器对象。

(2) 通过urllib.request.build_opener()方法使用这些处理器对象创建自定义的opener对象。。

(3) 使用自定义的opener对象,调用open方法发送请求。这里需要注意的是,如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_opener() 将自定义的opener对象定义为全局opener,表示之后凡是调用urlopen,都将使用自定义的opener。

接下来我们实现一个最简单的自定义opener,具体代码如下:

import urllib.request
# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
http_handler = urllib.request.HTTPHandler()
# 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)
# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")
# 调用自定义opener对象的open()方法,发送request请求
# (注意区别:不再通过urllib.request.urlopen()发送请求)
response = opener.open(request)
# 获取服务器响应内容
print(response.read())

上述方式发送请求得到的结果,和使用urllib.request.urlopen发送HTTP/HTTPS请求得到的结果是一样的。

如果在HTTPHandler方法中增加参数debuglevel=1,会将Debug Log打开,这样程序在执行的时候,会把收包和发包的报头自动打印出来,以方便调试。示例代码如下:

# 构建一个HTTPHandler 处理器对象,同时开启Debug Log,debuglevel 值设置为1
http_handler = urllib.request.HTTPHandler(debuglevel=1)
点击此处
隐藏目录