简单的自定义opener - python学习教程_python基础教程_ python培训

很多网站会检测某一段时间某个IP的访问次数，如果同一IP访问过于频繁，那么该网站会禁止来自该IP的访问。针对这种情况，我们可以使用代理服务器，每隔一段时间换一个代理。如果某个IP被禁止，那么就可以换成其他IP继续爬取数据，从而可以有效解决被网站禁止访问的情况。

opener是urllib.request.OpenerDirector类的对象，我们之前一直都在使用的urlopen，就是模块帮我们构建好的一个opener，但是它不支持代理、Cookie等其他的 HTTP/HTTPS高级功能。所以如果要想设置代理，不能使用自带的urlopen，而是要自定义opener。自定义opener需要执行下列三个步骤：

(1) 使用相关的Handler处理器创建特定功能的处理器对象。

(2) 通过urllib.request.build_opener()方法使用这些处理器对象创建自定义的opener对象。。

(3) 使用自定义的opener对象，调用open方法发送请求。这里需要注意的是，如果程序里所有的请求都使用自定义的opener，可以使用urllib2.install_opener() 将自定义的opener对象定义为全局opener，表示之后凡是调用urlopen，都将使用自定义的opener。

接下来我们实现一个最简单的自定义opener，具体代码如下：

import urllib.request
# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
http_handler = urllib.request.HTTPHandler()
# 调用urllib2.build_opener()方法，创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)
# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")
# 调用自定义opener对象的open()方法，发送request请求
# （注意区别：不再通过urllib.request.urlopen()发送请求）
response = opener.open(request)
# 获取服务器响应内容
print(response.read())

上述方式发送请求得到的结果，和使用urllib.request.urlopen发送HTTP/HTTPS请求得到的结果是一样的。

如果在HTTPHandler方法中增加参数debuglevel=1，会将Debug Log打开，这样程序在执行的时候，会把收包和发包的报头自动打印出来，以方便调试。示例代码如下：

# 构建一个HTTPHandler 处理器对象，同时开启Debug Log，debuglevel 值设置为1
http_handler = urllib.request.HTTPHandler(debuglevel=1)