学科分类
目录
网络爬虫

设置代理服务器

我们可以使用urllib.request中的ProxyHandler方法来设置代理服务器,接下来就通过示例来说明如何使用自定义opener来设置代理服务器,代码如下。

import urllib.request
# 构建了两个代理Handler,一个有代理IP,一个没有代理IP
httpproxy_handler = urllib.request.ProxyHandler({"http" : "124.88.67.81:80"})
nullproxy_handler = urllib.request.ProxyHandler({})
proxy_switch = True # 定义一个代理开关
# 通过urllib.request.build_opener()方法使用代理Handler对象创建自定义opener对象
# 根据代理开关是否打开,使用不同的代理模式
if proxy_switch: 
      opener = urllib.request.build_opener(httpproxy_handler)
else:
   opener = urllib.request.build_opener(nullproxy_handler)
request = urllib.request.Request("http://www.baidu.com/")
response = opener.open(request)
print(response.read())

免费开放代理的获取基本没有成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。免费代理网站主要有以下几个:

  • 西刺免费代理IP

  • 快代理免费代理

  • Proxy360代理

  • 全网代理IP

如果代理IP足够多,就可以像随机获取User-Agent一样,随机选择一个代理去访问网站。示例代码如下:

import urllib.request
import random
proxy_list = [
     {"http" : "124.88.67.81:80"},
     {"http" : "124.88.67.81:80"},
     {"http" : "124.88.67.81:80"},
     {"http" : "124.88.67.81:80"},
     {"http" : "124.88.67.81:80"}
]
# 随机选择一个代理
proxy = random.choice(proxy_list)
# 使用选择的代理构建代理处理器对象
httpproxy_handler = urllib.request.ProxyHandler(proxy)
opener = urllib.request.build_opener(httpproxy_handler)
request = urllib.request.Request("http://www.baidu.com/")
response = opener.open(request)
print(response.read())

但是,这些免费开放代理一般会有很多人都在使用,而且代理有寿命短,速度慢,匿名度不高,HTTP/HTTPS支持不稳定等缺点。所以,专业爬虫工程师或爬虫公司会使用高品质的私密代理,这些代理通常需要找专门的代理供应商购买,再通过用户名/密码授权使用。

点击此处
隐藏目录