学科分类
目录
网络爬虫

验证码分类

验证码是一种区分用户是计算机和人的公共全自动程序,能够有效阻止自动脚本反复提交垃圾数据,比如刷票、论坛灌水、恶意破解密码等,成为了很多网站通行的方式。由于计算机无法解答验证码的问题,所以能回答出问题的用户就被认为是人类。

常见的验证码可归类为如下三种:

1. 图片验证码

图片验证码,是指将一串随机产生的数字或符号生成一幅图片,图片里加上一些干扰象素(如画数条直线或数个圆点),如图1所示,由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。

img img img

图1 图片验证码

图1中列举的验证码有所升级,辨识度降低,出现了扭曲文字、杂点背景干扰对图像中文字的识别。其中,对付扭曲文字干扰的方法主要是对文字纹路矢量化,然后计算他们的基线还原文字扭曲;对抗杂点背景的主要方法是通过颜色过滤杂点,这些方法都包含在OCR技术中。

2. 手机短信验证码

手机短信验证码是通过发送验证码到手机上进行用户验证。大型网站尤其是购物网站,都提供了手机短信验证码的功能,可以保证购物的安全性和验证用户的正确性,如图2(左图)所示。

img img

图2 手机短信和语音验证码

3. 语音验证码

语音验证码常作为图片验证码的补充,提供给有视觉障碍的人士使用,如图2(右图)所示。此类的验证码攻击方法与图片验证码类似,语音识别技术就是对付它的法宝。当然,不少语音验证码使用了背景噪音等干扰,如何应对这种干扰又是另外一个课题了。

4. 智力测试答题验证码

智力测试验证码采用另一种设计思路,通过服务器随机抽取一个简单的常识性智力题给最终用户,然后让最终用户进行作答。例如,在八张混有动物和其它的图片中选出某种动物,或要求用户计算9除以9等于多少,如图3所示。

img img

img

图3 智力测试答题验证码

智力测试验证码的样式繁多,五花八门,出题的方式可以是文字或图片,想攻破这种验证码具有相当大的难度,需要计算机具备高级智慧,还要兼用图像识别技术。

点击此处
隐藏目录