Converter PDF digitalizado com OCR em Imagem - PDFBox

26 de junho de 2017 2 respostas

alain_oliveira 26 de junho de 2017

Olá a todos!
Temos uma aplicação web que armazena e organiza todos os documentos da empresa.
Como temos vários PDFs grandes (acima de 100MB) tenho utilizado o PDFBox para converter o acervo de documentos em imagem(.gif), para facilitar o acesso gerando um preview dos arquivos o que elimina os downloads desnecessários.
Porém, me deparei que alguns PDFs estavam gerando imagens das páginas totalmente em branco. Ao analisar esses arquivos, vi que estes PDFs que que estavam gerando as páginas em branco foram digitalizados com OCR e o PDFBox não consegue converter o mesmo para imagem com o código que estou utilizando.
Segue exemplo do código:

PDDocument document = PDDocument.load("arquivoPDF.pdf");
PDFRenderer pdfRenderer = new PDFRenderer(document);

for (int page = 0; page < document.getNumberOfPages(); ++page) {
      BufferedImage bim = pdfRenderer.renderImageWithDPI(page, 100, ImageType.RGB);
      ImageIOUtil.writeImage(bim, page + ".gif", 100);
}
document.close();

Alguém já passou por situação parecida ou tem ideia de como poderia converter as páginas deste tipo de PDF em imagem?
Desde já, muito obrigado a todos!

2 Respostas

alain_oliveira 26 de jun. de 2017

Consegui resolver! Apenas para ficar registrada a resposta para quem esbarrar em problema parecido, é preciso adicionar mais 3 dependências para resolver esse tipo de erro(e acredito que para outros problemas não listados na documentação oficial, em relação a compatibilidade e tipos de arquivos, também possam ajudar):

<dependency>
            <groupId>com.levigo.jbig2</groupId>
            <artifactId>levigo-jbig2-imageio</artifactId>
            <version>1.6.5</version>
        </dependency>
        <dependency>
            <groupId>com.github.jai-imageio</groupId>
            <artifactId>jai-imageio-core</artifactId>
            <version>1.3.1</version>
        </dependency>    
        <dependency>
            <groupId>com.github.jai-imageio</groupId>
            <artifactId>jai-imageio-jpeg2000</artifactId>
            <version>1.3.0</version>
        </dependency>

Na documentação de dependências do PDFBox (https://pdfbox.apache.org/2.0/dependencies.html) no item Optional Components eles não citam especificamente que importar estas dependências tem qualquer relação com o problema que descrevi ou algo do tipo, mas achei curioso o detalhe:

PDFBox does not ship with all features enabled. Third party components are necessary to get full support for certain functionality.

Declarei as dependências citadas e resolveu o problema! Até mais!

Ivanildo_Silva 6 de fev. de 2019

Nossa, depois de tanto tempo ainda ajudou muito. Tks

Criado 26 de junho de 2017

Ultima resposta 6 de fev. de 2019

Respostas 2

Participantes 2

2 Respostas

Topicos relacionados