Leitor de HTML

1 resposta
L

Dae pessoal,

Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?

Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.

Alguém tem alguma idéia?

1 Resposta

M

luizhro:
Dae pessoal,

Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?

Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.

Alguém tem alguma idéia?

O que você precisa é extrair um texto de dentro de outro texto?
Bem, para uma solução simples, coloque o conteudo do arquivo dentro de uma String e use o StringUtils da Apache Commons Lang

String textoExtraido = StringUtils.substringBetween(textoDaHtml, "<div>", "</div>");

[]'s

JL

Criado 1 de junho de 2009
Ultima resposta 1 de jun. de 2009
Respostas 1
Participantes 2