Alguém conhece alguma forma / produto que leia PDF e permita a extração de dados?
Gostaria de ler esse tipo de arquivo “como se fosse um arquivo texto” recuperando algumas informações importantes e gerando um arquivo de saida TXT, por exemplo (lembrando que pode ser um produto de mercado).
Com esta API, é muito fácil você começar a trabalhar com PDF nela. entre suas características informadas abaixo estão:
Features
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
Sobre um produto comercial, o que você fazer de útil ao ler um arquivo PDF pode sim, virar um produto de mercado. Agora, no meu ver, a sua necessidade em ler um arquivo PDF e gerar um TXT, nada mais é do que a mais pura sintaxe inicial e óbvia de utilizações de componentes em Java.