Olá a todos!
Temos uma aplicação web que armazena e organiza todos os documentos da empresa.
Como temos vários PDFs grandes (acima de 100MB) tenho utilizado o PDFBox para converter o acervo de documentos em imagem(.gif), para facilitar o acesso gerando um preview dos arquivos o que elimina os downloads desnecessários.
Porém, me deparei que alguns PDFs estavam gerando imagens das páginas totalmente em branco. Ao analisar esses arquivos, vi que estes PDFs que que estavam gerando as páginas em branco foram digitalizados com OCR e o PDFBox não consegue converter o mesmo para imagem com o código que estou utilizando.
Segue exemplo do código:
PDDocument document = PDDocument.load("arquivoPDF.pdf");
PDFRenderer pdfRenderer = new PDFRenderer(document);
for (int page = 0; page < document.getNumberOfPages(); ++page) {
BufferedImage bim = pdfRenderer.renderImageWithDPI(page, 100, ImageType.RGB);
ImageIOUtil.writeImage(bim, page + ".gif", 100);
}
document.close();
Alguém já passou por situação parecida ou tem ideia de como poderia converter as páginas deste tipo de PDF em imagem?
Desde já, muito obrigado a todos!