前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python 图片识别 OCR

Python 图片识别 OCR

作者头像
Autooooooo
发布2020-11-07 20:17:10
16.5K0
发布2020-11-07 20:17:10
举报
文章被收录于专栏:CoxhuangCoxhuang

文章目录

  • Python 图片识别 OCR
    • #1 需求
    • #2 环境
    • #3 安装
      • #3.1 macOS
      • #3.2 Linux(CentOS)
    • #4 使用
      • #4.1 python安装pytesseract库
      • #4.2 Python代码
    • #5 在线案例

Python 图片识别 OCR

#1 需求

  • 识别图片中的信息,如二维码

#2 环境

代码语言:javascript
复制
macOS / Linux
Python3.7.6

#3 安装

#3.1 macOS

  1. 安装 tesseract
代码语言:javascript
复制
//只安装tesseract,不安装训练工具
brew install tesseract
 
//安装tesseract的同时安装训练工具
brew install --with-training-tools tesseract
 
//安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
brew install  --all-languages tesseract
 
//安装tesseract,并安装训练工具和语言
brew install --all-languages --with-training-tools tesseract 

2. 下载语言包

地址 : https://github.com/tesseract-ocr/tessdata

我这里安装的是中文语言包

中文语言包 : https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

然后将下载的中文语言包拷贝到如下路径 :

/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata

3. 查看本地语言包

代码语言:javascript
复制
tesseract --list-langs

#3.2 Linux(CentOS)

  1. 安装依赖
代码语言:javascript
复制
yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel

2. 安装 leptonica

下载 : wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz

解压安装

代码语言:javascript
复制
tar -xzvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4.tar.gz
./configure --profix=/usr/local/leptonica
make
sudo make install

3. 安装 tesseract-ocr

代码语言:javascript
复制
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

我这里安装的是中文语言包

中文语言包 : https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

然后将下载的中文语言包拷贝到如下路径 :

/usr/local/share/tessdata

#4 使用

#4.1 python安装pytesseract库

代码语言:javascript
复制
pip install pytesseract
pip install Pillow

#4.2 Python代码

代码语言:javascript
复制
from PIL import Image
import pytesseract
 
# 指定图片路径和识别的语言
data = pytesseract.image_to_string(Image.open('/Users/Documents/1.png'), lang='chi_sim')
print(data)

#5 在线案例

地址 :

http://admin.minhung.me:20420/#/

本文参与?腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-04-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • Python 图片识别 OCR
    • #1 需求
      • #2 环境
        • #3 安装
          • #3.1 macOS
          • #3.2 Linux(CentOS)
        • #4 使用
          • #4.1 python安装pytesseract库
          • #4.2 Python代码
        • #5 在线案例
        相关产品与服务
        AI 应用产品
        文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
        http://www.vxiaotou.com