现有ocr识别小工具,分为两类,一类是依靠网络公司提供的api接口来进行识别,如百度文字识别等,优点是识别准确率高,缺点是没网没授权不能用。另一类就是本地化这种了,现在网上公开的ocr识别工具tesseract-ocr提供中文识别包。再加上使用qq邮箱的截图工具,组建成离线版的OCR识别工具。操作简单,由于使用的是最基本的训练库,准确率比较低,目前能够准确识别pdf中标准文字,带图标的文字可能会识别错误。优化的建议自己训练中文识别库替换tesseract-ocr文件夹内容即可。
2023-11-28 14:31:07 138.54MB python ocr tesseract-ocr 自由截图
1
Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006 年起由Google赞助开发。 2006年,Tesseract被认为是最精准的开源光学字符识别引擎之一。
2023-09-10 22:34:18 29.42MB tesseract
1
Tesseract是一款由HP实验室开发由Google维护的开源OCR引擎,由Google对其进行改进、优化,特点是开源,免费,支持多语言,多平台。
2023-07-01 21:15:36 37.61MB OCR tesseract 人工智能 C#
1
Tesseract-OCR 及对应版本的 chi_sim.traindata 字库。   一定要对应否则会报错。错误信息为:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53"
2023-04-27 09:44:55 26.89MB chi_sim
1
将文件解压后,拷贝到安装路径下的Tesseract-OCR文件夹中的tessdata文件夹下面即可。 主要功能用于识别中文字体 默认下载的Tesseract-OCR安装包中是没有简体中文的文件的。 可以用CMD命令行窗口下可用 tesseract --list-langs 来查看Tesseract-OCR支持语言 如果出现chi_sim,则为成功!
2023-04-20 20:37:58 19.08MB Tesseract-OCR chi_sim 简体中文语言包
1
将资源解压后放入到~\Tesseract-OCR\tessdata目录下面。要有这个才能识别要有这个才能识别中文
2023-04-10 13:55:30 26.18MB Tesseract OCR 中文字库 chi_sim.trai
1
C++ tesseract 基于vs2015编译通过
2023-04-06 21:55:28 20.05MB ocr 图像识别 文字识别
1
tesseract-ocr 光学字符识别安装程序 3.02.02版本 tesseract-ocr 光学字符识别安装程序 3.02.02版本
2023-03-30 13:30:10 12.87MB tesseract ocr setup 3.02.02
1
NLP图像到文本 从图像中提取文本的代码 pip install -r requirements.txt 如果遇到找不到文件错误,如下所示: FileNotFoundError: [Errno 2] No such file or directory: 'tesseract' 运行以下命令 brew install tesseract 然后如下运行image-to-text.py: python image-to-text.py 我们观察到,对于干净的输入,准确性很高。 参见输入2。嘈杂的输入可能不会产生相同的效果! 一些示例输入和输出: 输入: 输出: DON’T WATCH THE CLOCK; KEEP GOING. SAM LEVENSON / / 7 J .- - flCESSc
2023-03-04 22:03:55 953KB ocr python3 text-recognition tesseract-ocr
1
QT Box Editor 是调整tesseract-ocr box 文件的工具。 该项目的目的是提供简单有效的编辑方式,无论文件大小。
2023-02-05 10:36:13 477KB 开源软件
1