V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Kvip
V2EX  ›  程序员

Tesseract-OCR 字体包训练问题求教

  •  
  •   Kvip · 2020-12-10 16:40:38 +08:00 · 1696 次点击
    这是一个创建于 1449 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这阵子在做 Tesseract-OCR 的字体训练,其中遇到了几个问题,使我很烦恼,特意来求教各大佬

    1 、 在将图像生成对应的 .box 文件后,使用 jTessBoxEditorFx 软件进行校正时,发现字体虽然大部分都能识别出来,但是每个字的位置却出现了很严重的偏差,如下图,需要逐个字体进行校正位置坐标才行(如下图一),不知道这是什么原因引起的。(每个字都需要进行位置校正,工程量太大了)

    图一:生成 box 文件.png

    2 、 字体训练后,单独使用我训练过的字体包来识别图像,只能识别出那些我有训练过的文字,如果图像出现了我没训练过的文字,这些文字就会胡乱显示为我训练过的文字,如下图(这问题我还能理解)

    图二:识别没训练过的字.png

    3 、如果在识别时,设置语言包 lang 的参数为 我训练过的字体包 + 通用中文简体包 chi_sim,识别出来的文字则和单独使用通用中文简体包 chi_sim效果一致,也就是说我训练的字完全不起作用。如下图 图 3:各字体包识别效果.png

    我预期的结果:我训练的字体包和官方的字体包可以在一起使用(毕竟自己不可能每个字都训练到,这还是得靠官方支持)。各位大佬何以教我

    3 条回复    2020-12-10 19:20:30 +08:00
    95276
        1
    95276  
       2020-12-10 17:23:22 +08:00
    感觉应该要把你训练的和官方的合并一下 或者在官方的基础上训练.
    zhuangzhuang1988
        2
    zhuangzhuang1988  
       2020-12-10 17:42:58 +08:00
    放弃吧 这货 巨费时间
    而且 新的 Tesseract 也不是基于具体的字训练的
    记得是基于行训练的
    sadfQED2
        3
    sadfQED2  
       2020-12-10 19:20:30 +08:00 via Android
    我曾经花过半个月时间整理训练集,然后提交训练,最后发现结果很一般。

    然后,我花了三天时间自己用 tensorflow 写了一个文字识别,然后一跑训练集,比它这玩意效果还好点

    另外,你想要的应该是合并训练集
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1744 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 16:39 · PVG 00:39 · LAX 08:39 · JFK 11:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.