原生PHP

PHP使用Tesseract OCR for PHP识别图片中的文字

12-06 14:38

tesseract-ocr是一个流行的开源OCR引擎库,能够将图像中的文本转换为可编辑的文本格式,它使用C++编写。

Tesseract OCR for PHP 是一个用于在 PHP 环境中集成tesseract-ocr功能的封装库。最初由 HP 开发,后来被 Google 收购并继续开发。他的主要编程语言是 PHP,旨在为 PHP 开发者提供一个简单易用的接口来调用tesseract-ocr功能。可以通过tesseract-ocr识别PDF、JPEG、GIF、PNG等格式的图像。

tesseract-ocr的最大特点是它是针对多语言设计的,可以识别世界上大部分语言的文本。


注意:Tesseract OCR for PHP 依赖于 Tesseract OCR 版本 3.02 或更高版本。如果系统中安装的 Tesseract OCR 版本过低,可能会导致项目无法正常运行。


Ubuntu安装tesseract-ocr

apt install tesseract-ocr

macOS安装

brew install tesseract


安装PHP扩展

composer require thiagoalessio/tesseract_ocr


安装语言包

apt-get install tesseract-ocr-<langcode>


查看可安装的语言包列表

apt list tesseract-ocr*


简单使用案例

<?php
require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;

$text = (new TesseractOCR('path/to/image.png'))

->lang('chi_sim') //可选,指定语言包为中文

->run();

echo $text;


设置语言

$ocr->lang('deu'); //设置为德语

$ocr->lang('eng', 'jpn', 'spa'); //设置为英语、日语和西班牙语


参考文章:

https://blog.csdn.net/gitblog_01170/article/details/143544321

https://mp.weixin.qq.com/s/TYp6T5reFPfkOYMTnMGdhA


微信小程序
大潇博客 版权所有 Copyright ©2016~2025
京ICP备17004217号-6  合作QQ:284710375
天玺科技