"Bot" Java para extrair informações de página HTML

4 respostas
R

Estou em busca de informações para realizar uma prospecção de clientes, e achei um site com uma boa quantia de informações para futuros clientes:

Porém, entrei em contato com a empresa responsável, e eles não disponibilizam essas informações em arquivos para que eu possa fazer leituras automáticas… eles só disponibilizam o serviço para consulta manual… Tem como eu fazer um bot para ler essas páginas e armazenar as informações em um banco de dados? ( eu não estaria infringindo nenhuma lei? )

================================

Sou leigo no assunto, mas sei que as páginas precisam ter um padrão para eu extrair informacoes.

Pelo que eu pude observar eu teria que dar um endereço inicial de uma categoria, no código fonte da página de cada categoria tem uma tabela com 40 links de empresas.

Como eu faço para “achar” esses links no meio do código HTML?

4 Respostas

M

Amigo, acho que somente paginas com XML é possível esse feito…=/
alguem me corrija, se eu estiver errado… :wink:

R

Começe com expressoes regulares… http://java.sun.com/docs/books/tutorial/essential/regex/

Sim… é possivel fazer com HTML…

Não estará infringindo nenhuma lei…

O HTML precisa ter um padrão…

R

Relaxa, existem várias empresas que fazem esse tipo de coisa. Conheçi um cara que trabalha numa empresa que inclusive faz quebra de CAPTCHA do site de receita federal para conseguir algumas informações de empresas…

A menos que você esteja explorando alguma falha de segurança do servidor pra acessar informações que não são disponibilizadas para o público, acho que não tem problema (Claro que eu não sou um advogado e minha opnião não é uma opnião de um expert hehehe).

O que o pessoal faz é usar ferramentas do tipo HTTPClient pra baixar o conteúdo HTML e usar alguma marcação CSS ou padrão de IDs de elementos HTML pra encontrar o conteúdo desejado. Deve ter uma biblioteca em Java que faz o “parse” do HTML e facilidade navegar entre os elementos HTML e procurar marcações CSS. No mês retrasado teve uma palestra sobre esse tipo de aplicação no Grupo de Usuários de Ruby de São Paulo (GURU-SP) - http://guru-sp.com/index.php/Sétimo_Encontro

P

Preciso desenvolver um bot, para uma necessidade específica. Queria aprender a “mecânica” da coisa, porém estou com dificuldade de encontrar livros que abordem esse tema com exemplos em Java… Alguém aqui já desenvolveu bots em Java?

Criado 16 de junho de 2010
Ultima resposta 18 de mai. de 2013
Respostas 4
Participantes 5