博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
tesseract-4.0.0源码编译安装
阅读量:6124 次
发布时间:2019-06-21

本文共 4808 字,大约阅读时间需要 16 分钟。

安装开发工具

apt-get -y install gcc g++ make cmake autoconf automake libtool pkg-config

安装插件

所有的插件都是可选的,建议全部都安装,这样tesseract就可以支持更多的图片格式

libjpeg

安装依赖nasm

apt-get install nasm

下载地址http://www.linuxfromscratch.org/blfs/view/systemd/general/libjpeg.html

编译libjpeg

tar -xvf libjpeg-turbo-2.0.2.tar.gzcd libjpeg-turbo-2.0.2mkdir buildcd buildcmake -DCMAKE_INSTALL_PREFIX=/usr \      -DCMAKE_BUILD_TYPE=RELEASE \      -DENABLE_STATIC=FALSE \      -DCMAKE_INSTALL_DOCDIR=/usr/share/doc/libjpeg-turbo-2.0.2 \      -DCMAKE_INSTALL_DEFAULT_LIBDIR=lib \      ..makemake installldconfig

libpng

安装依赖zlib

下载地址 http://www.zlib.net/fossils/

tar -zxf zlib-1.2.11.tar.gzcd zlib-1.2.11./configuremake -j 8make installldconfig

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libpng.html

编译

tar -xvf libpng-1.6.37.tar.xzcd libpng-1.6.37./configure --prefix=/usr --disable-staticmake -j8make installldconfig

giflib

安装依赖 xmlto(由于依赖比较多,不安装也是可以编译通过的,需要修改一下doc/Makefile文件)

apt-get install xmlto

giflib 下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/giflib.html

安装了xmlto编译giflib

tar -xvf giflib-5.1.8.tar.gzcd giflib-5.1.8makemake installldconfig

没有安装xmlto编译giflib

tar -xvf giflib-5.1.8.tar.gzcd giflib-5.1.8echo "all:" > doc/Makefileecho -e "\t@test -z \"\"" >> doc/Makefilemakemake installldconfig

libtiff

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libtiff.html

编译

tar -xvf tiff-4.0.10.tar.gzcd tiff-4.0.10mkdir cmake-buildcd cmake-buildcmake -DCMAKE_INSTALL_DOCDIR=/usr/share/doc/libtiff-4.0.10 \      -DCMAKE_INSTALL_PREFIX=/usr \      ..make -j8make installldconfig

openjpeg

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/openjpeg2.html

编译openjpeg

tar -xvf openjpeg-2.3.1.tar.gzcd openjpeg-2.3.1mkdir buildcd buildcmake -DCMAKE_BUILD_TYPE=Release \      -DCMAKE_INSTALL_PREFIX=/usr \      -DBUILD_STATIC_LIBS=OFF \      ..makemake installldconfig

libwebp

先安装好上面的插件,再安装libwebp

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libwebp.html

编译

tar -xvf libwebp-1.0.2.tar.gzcd libwebp-1.0.2./configure --prefix=/usr/local \            --enable-libwebpmux \            --enable-libwebpdemux \            --enable-libwebpdecoder \            --enable-libwebpextras \            --enable-swap-16bit-csp \            --disable-staticmake -j8make installldconfig

安装依赖leptonica

官网http://www.leptonica.com/

要求Leptonica 1.74或者更高版本

下载地址 http://www.leptonica.com/download.html

或者GitHub https://github.com/DanBloomberg/leptonica/releases

这里我们下载最新版本的1.78

tar -xvf leptonica-1.78.0.tar.gzcd leptonica-1.78.0./configuremake -j8make install ldconfig

安装tesseract

下载地址 https://github.com/tesseract-ocr/tesseract/releases

tar -xvf tesseract-4.0.0.tar.gzcd tesseract-4.0.0/./autogen.sh./configuremake -j8 make installldconfig

验证

$ tesseract --versiontesseract 4.0.0 leptonica-1.78.0  libgif 5.1.8 : libjpeg 6b (libjpeg-turbo 2.0.2) : libpng 1.6.37 : libtiff 4.0.10 : zlib 1.2.11 : libwebp 1.0.2 : libopenjp2 2.3.1 Found AVX Found SSE

安装语言包

下载地址 https://github.com/tesseract-ocr/tessdata/releases

下载

默认的配置目录为/usr/local/share/tessdata/

我们将刚下载的语言包解压到该目录,解压的时候去掉第一层目录

tar --strip-components=1 -xvf 4.0.0.tar.gz -C /usr/local/share/tessdata/

运行命令列举可用语言包

$ tesseract --list-langsList of available languages (167):aframharaasmazeaze_cyrlbelbenbodbosbrebulcatcebceschi_simchi_sim_vertchi_trachi_tra_vertchr...

测试一下

$ time tesseract 360-17571119331732.png 360-17571119331732.png -l chi_simTesseract Open Source OCR Engine v4.0.0 with Leptonicareal    0m2.169suser    0m4.772ssys 0m0.168s

转出来的文件名为360-17571119331732.png.txt (会自动加上.txt后缀)

$ cat 360-17571119331732.png.txt 欲 待 汀 酯 活 怡 京 , 清 歇 贝 断 肠 , 这 清 乱 的 尘 世 , 宁 韶 兆 斥 了 多 少 纱 望 和 惧 伤 、 你 想 去健 一 个 勇 故 的 町 子 , 为 爱 , 为 信 伊 , 蚕 跃 咤 烈 的 奋 斗 一 场 、 你 周 身 光 厂 着 无 人 史 t 的 灵 气和 光 芒 。 作 有 着 与 伟 人 t 胎 的 才 气 和 名 声 , 你 星 那 桓 离 像 孟 洁 的 町 子 。 你 的 一 弓 狂 心 札说 , 已 经 川 应 黄 和 雨曾 绅 以 为 , 相 爱 的 人 一 定 如 眼 宇 , 只 有 林 守 , 情 感 才 能 长 久 , 可 是 , 此 岿 和 俭 岸 只 不过 是 空 间 的 荣 版 , 邵 无 法 择 长 心 灭 的 旺 高明 光 苦 荐 , 岁 月 无 声 , 日 孔 不 祯 不 横 的 如 涓 涓 演 水 腐 腐 的 派 去 , 巾 从 身 边 派 去 的 古 有明 光 , 沉 淀 下 李 的 是 与 你 蹄 相 似 的 干 福 命 快 乐 , 温 薛 和 宇 哈 , 于 我 , 在 这 个 消 罢 郭 怀 受到 济 意 摸 的 阮 , 只 感 做 一 件 事 , 拗 一 片 绯 红 的 机 名 , 轻 轻 刻 上 我 的 心 语 对 信 伊 , 是我 今 生 永 万 改 变 的 主 题 ! 而 后 , 李 福 的 寄 往 有 体 的 邵 个 埕 市 , 从 此 , 在 战 心 里 , 于 我 的 生命 里 , 轻 援 你 沥 的 安 喉 , 静 靛 地 在 岂 月 的 侦 岸 , 为 你 守 候 - 与 永 恒 ! 一 段 倩 , 反 复 的 皑 星 , 最 后 加 淮 了 屹 月 的 细 东 。 一 跋 迫 起 里 , 一 跌 迫 亿 里 , 最 后 得 到的 是 什 么 , 最 后 叉 失 去 的 是 什 么 , 或 沐 , 只 有 我 们 在 贾 思 的 时 候 才 会 明 白 , 这 路 的 迫 必里 , 我 以 得 刹 的 快 乐 往 彼 t 府 苛 要 少 , 当 相 怀 成 疫 的 时 候 , 除 了 对 月 徐 惧 古 之 外 , 什 么 也不 算 技 刹一 命 的 简 约 格 调 , 只 怀 用 一 颂 洪 烈 的 看 云 卷 于 舒 , 看 学 节 曰 迪 . 许 多 不司 时 节 的 事 物 , 必 焦 会 被 光 阮 遇 蒂 , 就 像 暑 经 蔡 的 犯 叶 , 待 生 余 柳 竭 , 终 梅 脱 高 名 狗 的相 系 根 牲 , 而 我 , 一 真 在 汞 里 , 招 落 一 身 的 负 累 , 永 恒 以 振 的 姚 志 站 立 于 学 风 中 , 易 首 向看 那 无 智 空 .

参考

转载于:https://www.cnblogs.com/yanhai307/p/10791490.html

你可能感兴趣的文章
并发和并行的区别
查看>>
php小知识
查看>>
Windows下安装、运行Lua
查看>>
Nginx 反向代理、负载均衡、页面缓存、URL重写及读写分离详解(二)
查看>>
初识中间件之消息队列
查看>>
MyBatis学习总结(三)——优化MyBatis配置文件中的配置
查看>>
Spring常用注解
查看>>
我的友情链接
查看>>
PCS子层有什么用?
查看>>
查看端口,关闭端口
查看>>
代码托管平台简介
查看>>
linux:yum和apt-get的区别
查看>>
Sentinel 1.5.0 正式发布,引入 Reactive 支持
查看>>
如何对网站进行归档
查看>>
数据库之MySQL
查看>>
2019/1/15 批量删除数据库相关数据
查看>>
数据类型的一些方法
查看>>
Mindjet MindManager 2019使用教程:
查看>>
游戏设计的基本构成要素有哪些?
查看>>
详解 CSS 绝对定位
查看>>