Pegar links de paginas

5 respostas
R

Alguem tem ideia de como capturar todos os links de uma pagina na internet?

5 Respostas

A

É só pegar o código fonte, e usar uma expressão regular pra pegar o que está dentro de href=" ".

R

certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?

A

rlanhellas:
certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?

Você vai precisar das classes URL e URLConnection, da biblioteca java.net e da classe BufferedReader, da biblioteca io.

Crie um objeto do tipo URL, passando como parâmetro o endereço da página:

/* cria o objeto pag do tipo URL */ URL pag = new URL(endereco_da_pagina);

depois você cria um outro objeto do tipo URLConnection, para abrir a conexão com o objeto que do tipo URL, que fora construído:

/* cria o objeto do tipo URLConnection, e passa o objeto URL */ URLConnection con = pag.openConnection();

depois você precisará de um objeto para leitura:

BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));

e depois é só ter uma variável intermediária para ir lendo o código em um loop:

String Intermediaria; while ((Intermediaria = in.readLine()) != null){ /* Aqui você faz o que quer com o cód. fonte da página. */ }

R

Para capturar a página HTML talvez esse tutorial te ajude capturando-html-de-pagina-web-com-java

R

Obrigado, irei pesquisar mais “profundamente” sobre o assunto

Criado 7 de agosto de 2011
Ultima resposta 8 de ago. de 2011
Respostas 5
Participantes 3