学科分类
目录
网络爬虫

pytesseract库简介

Tesseract是一个命令行工具,安装后只能通过tesseract命令在Python的外部运行,而不能通过import语句引入使用。为了解决上述问题,Python提供了支持Tesseract-OCR引擎的Python版本的库pytesseract。

pytesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出和“读取”其中嵌入的文字。pytesseract是对Tesseract-OCR的一层封装,同时也可以单独作为对Tesseract引擎的调用脚本,支持使用PIL库(Python Imaging Library)读取各种图片文件类型,包括jpeg、png、gif、bmp、tiff等其它格式。作为脚本使用时,pytesseract将打印识别出的文字,而不是将其写入文件。

在pytesseract库中,提供了如下函数将图像转换成字符串,具体如下:

image_to_string(image, lang=None, boxes=False, config=None)

上述函数用于在指定的图像上运行tesseract,首先将图像写入到磁盘,然后在图像上运行tesseract命令进行识别读取,最后删除临时的文件。其中,image表示图像,lang表示语言,默认使用英文。如果boxes设为True,那么“batch.nochop makebox”被添加到tesseract调用中;如果设置了config,则配置会添加到命令中,例如config =“ - psm 6”。

安装pytesseract需要遵守如下要求:

(1) Python的版本必须是python 2.5+或python 3.x。

(2) 安装Python的图像处理库PIL(或Pillow)。

(3) 安装谷歌的OCR识别引擎Tesseract-OCR。

点击此处
隐藏目录