识别图像的中文字符
除了英文字符外,pytesseract还支持识别中文字符。默认情况下,pytesseract只能识别英文字符,为了让其支持中文,需要显式地指明使用中文字库。因此,在调用image_to_string函数时需要指明语言,即将lang参数的值设为chi_sim。
比如,下面有一张关于排序算法的图片,该图片以表格的形式显示了编程中关于排序的大量算法,具体如图1所示。
图1 排序算法
接下来,使用pytesseract技术将上述图片中的中文识别并提取出来,具体代码如下所示。
from pytesseract import *
from PIL import Image
# 打开并识别指定的图片
data = Image.open("paixu.png")
# 将图像以中文的形式进行转换
text = image_to_string(data,lang="chi_sim")
print(text)
识别出的文字最好效果如下所示。
模板:排序算法
查 ' 论 ' 编 排序算法 隐藏]
理论 计算复杂性理论 _ 大O符号 ' 全序关系 ' 列表 ' 稳定性 ' 比较排序 ' 自适应排序 ' 排序网络 ' 整数排序
交换排序 冒泡排序 ' 鸡尾酒排序 ' 奇偶排序 ' 梳排序 ' 侏儒排序 ' 快速排序 - 昊皮匠排序 ' Bogo排序
选择排序 选择排序 ' 堆排序 ' 平滑排序 ' 笛卡尔树排序 _ 锦标赛排序 ' .排序
插入排序 插入排序 ' 希尔排序 - sp怕y排序 ' 二叉查找树排序 ' 图书馆排序 ' 耐心排序
归并排序 归并排序 ' 梯级归并排序 _ 振荡归并排序 _ 多相归并排序 ' 串列排序
分布排序 美国旗帜排序 ' 珠排序 ' 桶排序 ' 爆炸排序 ' 计数排序 ' 鸽巢排序 - 相邻图排序 ' 基数排序 - 闪电排序 ' 插值排序
并发排序 双调排序器 _ B(】tCher归并网络 ' 两两排序网络
混合排序 区块排序 ' nm排序 ' 内省排序 ' spreGd排序 ' J排序
其他 拓扑排序 ' 煎饼排序 _ 意粉排序