使用python对图片中的文字进行提取

一直都有一个需求，需要对部分的图片中的不同语言进行提取（虽然百度翻译也可以直接做），但是权当技术积累。主要是记录一下踩过的坑。

需要安装python3、引入两个库，分别是cv2（opencv-python）、pytesseract

import cv2
import pytesseract

可以通过pip install安装，我这里直接使用pycharm的settings安装的。

安装完了以后，需要安装tesseract.exe，这里避免安全问题，推荐直接通过github官方下载，链接如下：

下载好了以后，需要安装，安装记得选择你自己设置好的路径。

同时，记得设置环境变量：

SET TESSDATA_PREFIX=D:\Program Files\Tesseract-OCR\tessdata

下载回来的时候没有kor语言包，需要自行去下载：

编写代码跑一下看看：

已经完成了自己想要的效果。