Srs.,
Estou precisando de uma engine de OCR, de uns tempos pra cá comecei a testar algumas e não achei nenhuma que tenha uma SDK aceitável em Java e que tenha essa interface. Algumas que testei:
Clara OCR - Projeto muito inicial e está parado no tempo, reconheceu mal.
Tesseract OCR - Reconheceu mal imagem com boa qualidade, sem contar que não dá pra botar o portugues pra funcionar nem com reza brava no 3.0, e o 2.0 leu muito mal.
JOCR - Reconheceu mal
FreeOCR - Sumiu do mapa
Asprise OCR - Reconheceu mal
Abbyy Fine Reader - Muito boa, excelente leitura e falhou muito pouco, porém é cara que só e não vi suporte da SDK em Java.
Lote de documentos para teste:
- Contrato em PDF bitonal, com imagens TIFF (capturadas c/ 100dpi)
- Uma conta de luz capturada com 300dpi
- Um printscreen de browser
- Outro print, bitonal, de um arquivo de texto.
Enfim, não vi algum bom suporte a isso e depois de muito pesquisar tô caindo na realidade: não tem ou é impressão minha? Alguém sabe algum outro? E sobre a Abbyy, alguém conhece algo sobre ela em Java? (o site diz que tem suporte, mas fala que não tem exemplos, achei isso bem contraditório)
[]'s
PS: esqueci de comentar, fui baixar também a Pegasus, mas não encontrei em canto algum a SDK Java deles.
