• 80阅读
  • 2回复

Linux(CentOS)下安装tesseract-ocr以及配置依赖leptonica

在线 zfc2020
级别: 新手上路
楼主   发表于: 2021-07-01 , 来自: From:Unknown

下载安装依赖项leptonica
wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz
wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
安装依赖:yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
这一步是检查环境中是否安装了这些依赖,如果有则会提示已存在
安装leptonica
#解压   tar -xzvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4.tar.gz
#configure是一个可执行shell,这一步是指定安装位置并调用gcc环境生成Makefile文件为编译做准备
./configure --prefix=/usr/local/leptonica
#编译  make
sudo make install

#编辑 /etc/profile
vim /etc/profile
#添加以下字段
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
export LIBRARY_PATH
LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica
export LIBLEPT_HEADERSDIR
#保存退出 更新一下profile文件
source /etc/profile

二、安装 tesseract
#编译安装
tar -xzvf 4.1.0.tar.gz
cd tesseract-4.1.0
./configure --profix=/usr/local/ocr
make
sudo make install
#配置环境变量
vim /etc/profile
#追加以下字段
PATH=$PATH:/usr/local/ocr/bin
export PATH
#保存退出 更新一下profile文件
source /etc/profile

# tesseract就安装好了,测试一下
tesseract -v
输出:
1. tesseract 4.1.0
2. leptonica-1.74.4
3. libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7
4.
5. Found AVX2
6. Found AVX
7. Found SSE
OK,到这里,就安装成功了
这个版本默认是没有语言包的
在/usr/local/ocr/share/tessdata 下复制Windows的语言包进来

验证
tesseract /neworiental/data/codes.jpg /neworiental/data/22 -l chi_sim
--tesseract 读取文件地址  输出地址+输出文件名 txt格式  -l 中文语言包chi_sim
在线 zfc2020
级别: 新手上路
沙发   发表于: 14分钟前 , 来自: From:中国









Linux(CentOS)下安装tesseract-ocr以及配置依赖leptonica






版权



下载


1
wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz
2

wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
安装依赖:yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel这一步是检查环境中是否安装了这些依赖,如果有则会提示已存在

安装leptonica


1
tar -xzvf leptonica-1.74.4.tar.gz
2

cd leptonica-1.74.4.tar.gz
3
./configure --prefix=/usr/local/leptonica
4

make
5
sudo make install很多其他教程到这一步就直接开始安装 tesseract,实际上如果你照着教程走的话,再 configure 的时候就会报错:找不到 leptonica。
所以我们要先配置一下 leptonica 的环境变量。(./configure这一步一般用来生成 Makefile,为下一步的编译做准备,后加上参数prefix=/usr 是指定安装的执行文件,配置文件,
资源文件等制定目录,make这一步就是编译,大多数的源代码包都经过这一步进行编译,make install这条命令来进行安装)注:不是所有程序都有./configure文件
没有的需要执行跑一下autogen.sh来生成Makefile文件,或者英语好的可以自行去  less INSTALL文件,里面有所有的安装步骤。make install后提示make[2]: Leaving directory 不用管继续走下一步,也可以进/usr/local/目录下查看是否安装上,
如果安装后未程序未正常启动删掉安装目录重新创建然后赋权改目录读写权限打开 /etc/profile
vim /etc/profile添加以下字段
1
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
2

export PKG_CONFIG_PATH
3
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
4

export CPLUS_INCLUDE_PATH
5
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
6

export C_INCLUDE_PATH
7
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
8

export LD_LIBRARY_PATH
9
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
10

export LIBRARY_PATH
11
LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica
12

export LIBLEPT_HEADERSDIR
应用配置
source /etc/profile
OK,现在我们就可以开始安装 tesseract。

安装 tesseract


1
tar -xzvf 4.1.0.tar.gz
2

cd tesseract-4.1.0
3
./configure --prefix=/usr/local/ocr
4

make
5
sudo make install接下来配置 tesseract 环境变量
(如果提示找不到configure文件 则执行./autogen.sh文件后即可生成configure文件)打开 /etc/profile
vim /etc/profile追加以下字段
1
PATH=$PATH:/usr/local/ocr/bin
2

export PATH
应用配置
source /etc/profile
测试一下:
tesseract -v
输出:1. tesseract 4.1.0
2. leptonica-1.74.43. libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7
4.5. Found AVX2
6. Found AVX7. Found SSE
OK,到这里,就安装成功了这个版本默认是没有语言包的

在/usr/local/ocr/share/tessdata 下复制Windows的语言包进来


使用



准备测试图片


(带中文的图片格式先测试一下) 因为他是需要安装识别文件格式依赖包环境,到这一步只安装了jpg
执行:tesseract -v 查看leptonica的依赖包环境tesseract 4.1.0
leptonica-1.74.4libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7
安装依赖包(不是必需执行过程记录)yum install -y giflib autoconf automake libtool libpng-devel libtiff-devel zlib-devel libjpeg*

上传到测试服务器


scp code.jpg root@xxx.xxx.xx.xx:/data/ (或tfp自行手动上传)

验证


tesseract /neworiental/data/codes.jpg /neworiental/data/22 -l chi_sim--tesseract 读取文件地址  输出地址+输出文件名 txt格式  -l 中文语言包chi_sim

查看结果


cat 22.txt可能会出现如下错误结果:
[root@ZNBM-T-DZDAXT-DZDA-002 data]# tesseract /neworiental/data/code.jpg outError opening data file /usr/local/ocr/share/tessdata/eng.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'eng'Tesseract couldn't load any languages!Could not initialize tesseract.原因可能如下几点:--找不到任何语言包,也就是没有加入或下载任何语言包     --环境变量中新增一个变量TESSDATA_PREFIX,配置该变量地址指向/ocr/tessdata
(注意:这里有些系统版本指向地址只用指向到tessdata的上一级shre 有些版本需要直接指向tessdata)




在线 zfc2020
级别: 新手上路
板凳   发表于: 2022-01-09 , 来自: From:中国

踩了一个坑,Linux下ocr识别还有个识别单层pdf的问题,在解析单层pdf到tiff的时候需要调用一些jar包,但是这个装的没有,需要把windows下的包里的java和javatitle两个文件夹复制一份到ocr的bin目录下即可
发帖 回复
« 返回列表
描述
快速回复
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容