Pessoal, preciso acessar sites na internet através do Java, para analisar conteúdo, criar estatísticas, entre outras funcionalidades que serão desenvolvidas. Tentei de algumas maneiras.
- Usando o objeto URL + InputStream
- Usando a biblioteca Prowser (simula browser)
- Usando a biblioteca HtmlUnit (simula browser)
No entanto, em todas elas, quando chega em páginas que fazem a verificação se o javascript está ativado, com a tag , não consigo acessar o conteúdo da página e o retorno que tenho para uma determinada URL, é de que o Javascript do “browser” deve estar ativado para visualizar o conteúdo da página. No caso das bibliotecas Prowser e HtmlUnit, ambas retornam um erro dizendo que era esperado text/javascript ou ecma/javascript, e que o conteúdo que vem através da URL é text/x-javascript. Não sei como contornar esse tipo de coisas, por favor me ajudem!
Como devo proceder para evitar esse tipo de erro? Como posso visualizar a página inteira, mesmo tendo verificação por Javascript?
Preciso disso urgente para um cliente!