Tesseract 是一个最初由惠普公司开发的 OCR 引擎,并于 2005 年开源,Google 在第二年接管了项目的大部分开发工作。
Tesseract 5.0 发布,更新内容如下:
原生支持 Apple Silicon
默认情况下,训练和识别速度更快;
更多的二值化选项
改进了对 ARM NEON 的支持
现代化的代码
从公共 API 中删除了专有数据类型,如 GenericVector 和 STRING
不再需要 pdf.ttf,现在集成到了代码中
使用 automake 更快地进行平面构建
combine_tessdata 的新选项可以显示 traineddata 文件的细节
改进了训练信息
改进了单元测试和模糊测试
大量的错误修正