Capturar trecho de texto(URGENTE)

6 respostas
webservicejavaspring
F

E ae pessoal! Estou com um projeto em meu trabalho para uma api webcrawler feita em spring boot que basicamente entra numa url e baixa de uma lista de links arquivos em pdf e os converte para txt logo em seguida, sendo que nesse processo preciso capturar dessa conversão um trecho especifico de texto não definido que é associado ao usuário cadastrado na api. Mas preciso de ajuda para entender como faço isso, porque preciso buscar o texto com os dados que o usuário cadastrou, como número de processo ou nome. Também preciso de ajuda pra saber quais bibliotecas utilizar em meu projeto e se alguém pode me dar um exemplo ou indicar material para estudo.

6 Respostas

M

Não sei se vai te ajudar muito mas creio que com HtmlUnit você consiga fazer isso

M

Você pode utilizar o Selenium também.

Com o Selenium você consegue ver o que esta acontecendo com o “robo” e possui mais recursos que o HtmlUnit

F

No caso esta praticamente tudo pronto, pq faço o crawl/scraping utilizando o Neo4j/Jsoup e a conversão do pdf utilizando o Pdfbox, mas estou só tendo dificuldade só em rastrear o texto associado a lista de usuarios. O selenium consegue puxar o texto em String diretamente do PDF ou ainda preciso fazer do jeito que estou fazendo?

D

Cara, não tem mágica.
Para ler pdf, siga o link.
Para ler o texto desejado, dentro da String, siga.
De qualquer maneira, creio que usar regex possa ajudar.

P

Ninguém em sua sã consciência faz um crawler usando Spring Boot.

Como você diz que esta quase pronto e tudo no mesmo processo, provavelmente pegou a bomba de algum novato que resolveu fazer uma aplicação monolítica quando na verdade se trata de 3 processos/aplicações diferentes, 1) baixar os dados, 2) converter pra texto e 3) realizar busca.

R

Ainda não entendi muito bem a sua dificuldade. Você disse que já consegue baixar os PDFs e extrair o texto deles. E daí então você precisa buscar informações nesse texto correto ? Que tipo de informações você tem que buscar ? Pode dar um exemplo ?

Criado 30 de janeiro de 2018
Ultima resposta 31 de jan. de 2018
Respostas 6
Participantes 6