tesseract

怎么开始使用?

  • Q:这个开源库要怎么开始使用?https://github.com/tesseract-ocr/tesseract

  • A:要开始使用Tesseract OCR开源库,您需要经过以下几个步骤:

    1. 下载与安装Tesseract
    • 访问Tesseract的GitHub页面: https://github.com/tesseract-ocr/tesseract
    • 根据您的操作系统选择合适的安装方法。对于Windows用户,您可以直接下载预编译的可执行文件,通常推荐从UB Mannheim的发布页面下载稳定版本:Tesseract Releases
      1. 设置环境变量
    • 添加Tesseract可执行文件的路径到系统的PATH环境变量中,以便在命令行任何位置调用tesseract命令。
    • 同样,需要设置TESSDATA_PREFIX环境变量指向包含tessdata文件夹的路径,该文件夹内存储了语言数据包
      1. 安装语言数据包
    • Tesseract需要相应的语言数据包才能进行识别。您可以从这里下载所需的语言包(.traineddata文件)。
    • 将下载的.traineddata文件放置到/tessdata目录下。例如,对于英文识别,您需要eng.traineddata。
      1. 测试安装
    • 打开命令提示符或终端,输入 tesseract –version 来确认Tesseract已成功安装及其版本信息。
    • 运行 tesseract –list-langs 来查看已安装的语言包列表。
      1. 使用Tesseract进行识别
    • 基本命令格式为:tesseract [-l ] 是您要识别的图片文件路径。 是输出文本文件的名称。 -l 是指定识别的语言,默认为英文。
      1. 在C#项目中集成Tesseract 要在C#项目中使用Tesseract,您可以使用第三方封装库,如Tesseract.SPI或Tesseract。首先,在Visual Studio中打开您的项目,然后通过NuGet包管理器安装这些库之一。 Install-Package Tesseract -Version 4.1.1 接着,按照前面提到的C#示例代码来调用Tesseract进行OCR识别。

通过以上步骤,您就可以开始在您的项目中使用Tesseract OCR进行文字识别了。记得根据实际需求调整配置以优化识别效果。

test

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
D:\Tesseract-OCR>tesseract.exe --version
tesseract v5.4.0.20240606
 leptonica-1.84.1
  libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 3.0.1) : libpng 1.6.43 : libtiff 4.6.0 : zlib 1.3 : libwebp 1.4.0 : libopenjp2 2.5.2
 Found AVX512BW
 Found AVX512F
 Found AVX512VNNI
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.7.4 zlib/1.3.1 liblzma/5.6.1 bz2lib/1.0.8 liblz4/1.9.4 libzstd/1.5.6

D:\Tesseract-OCR>tesseract --version
tesseract v5.4.0.20240606
 leptonica-1.84.1
  libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 3.0.1) : libpng 1.6.43 : libtiff 4.6.0 : zlib 1.3 : libwebp 1.4.0 : libopenjp2 2.5.2
 Found AVX512BW
 Found AVX512F
 Found AVX512VNNI
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.7.4 zlib/1.3.1 liblzma/5.6.1 bz2lib/1.0.8 liblz4/1.9.4 libzstd/1.5.6

D:\Tesseract-OCR>tesseract --list-langs
List of available languages in "D:\Tesseract-OCR/tessdata/" (7):
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
eng
enm
osd

D:\Tesseract-OCR>tesseract D:\Tesseract-OCR\input\test.png test.txt -l eng

D:\Tesseract-OCR>tesseract D:\Tesseract-OCR\input\testforchs.png D:\Tesseract-OCR\output\testforchs -l chi_sim