学科分类
目录
网络爬虫

简单识别图形验证码

目前,不少网站为了防止用户利用爬虫自动注册、登录等,都采用了验证码技术。但是,人们也已经研究出了破解之策,这些网站的注册/登录页面经常会遭到网络机器人的垃圾注册。

事实上,大多数网站生成的图片验证码都具有以下几个特性:

  • 服务器动态生成的图片。虽然验证码图片对应的节点属性src跟普通的图片不太一样,但是可以和其它图片一样进行下载和处理。

  • 验证码的答案存储在服务器端的数据库中。

  • 很多验证码都有时间限制,若太长时间没有解决,则会失效。

通常情况下,验证码的处理思路为:

(1) 将网站的验证码图片下载到硬盘中,使用PIL库处理干净(如图片降噪、图片切割等)。

(2) 利用Tesseract技术识别图片中的文字。

(3) 返回符合网站要求的识别结果。

接下来,就使用一个小案例来对使用pytesseract技术识别图像验证码的功能加以应用。我们准备了10张验证码图片,这些图片及图片名称如图1所示,在项目中将从这些图片中随机选取1张进行验证码识别。

img

图1 验证码图片

我们在PyCharm中创建一个项目,取名为ocr。在ocr项目下新建文件夹,取名为“images”,将准备好的10张图片拷贝到“images”文件夹下。

然后在ocr项目下创建一个Python文件,取名为textInPic.py,在该文件中添加代码,从10张图片中随机选取1张进行识别,并将识别出的文本输出到控制台。textInPic.py文件内的代码如下所示。

from random import randint
import pytesseract
from PIL import Image
#随机获取一个本地验证码图片的名称
picName = str(randint(0,9)) + '.png'
#加载图片
image = Image.open('images/' + picName)
#从图片中识别验证码
text = pytesseract.image_to_string(image)
#输出图片名称和识别到的验证码文字
print(picName + ":" + text)

运行代码,它的一次输出结果可能如下所示。

6.png:9527
点击此处
隐藏目录