国内有什么好用的 PDF 文档 OCR 产品吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1576 天前的主题，其中的信息可能已经有所发展或是发生改变。

项目语言是 Java，运行在 CentOS6.9 服务器上，主攻业务就是可搜索 PDF （ SearchablePDF ）的处理和归档

最近来了个需求，需要将纯图片 PDF （ ImagePDF ）在项目里 OCR，然后继续处理。

筛选了市面很多产品，最终锁定 ABBYY 的开发者 SDK，可以集成进项目，效果也不错，算市面同类产品独一档。本来和那边客服改谈的都谈好了，Demo 写完了，就等 license 买下来开搞，最后因为是国外软件，不好申请科研经费，方案惨遭腰斩。

问题来了，现在国内有什么好用的 PDF 文档 OCR 产品？
几个硬性要求：
1.可以是 Windows 上的桌面软件（最迫不得已的方案。退而求其次，让用户手动去转），最好是 Linux 上的 SDK
2.桌面软件支持批量处理，SDK 用多线程操作或者批量操作不会有太大的性能问题
3.可以保存为可搜索 PDF
4.除了识别 PDF 页面中的文字，也能识别 PDF 页面中的图片和表格
5.对 PDF 字体大小和位置敏感，OCR 结果排版应该和原文一致

福昕应该是国内 PDF 这一块做的最好的了，可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐，先在这里谢谢了

14 条回复 • 2021-09-09 16:01:35 +08:00