Pesquisar palavra em arquivo DOC/TXT

13 respostas
O

Boa Tarde,
Estou precisando fazer um sisteminha de busca que procure palavras digitadas pelo usuário dentro de um arquivo .DOC. Por exemplo, o usuario digita a palavra “java”, o sistema deve trazer uma lista de todos os arquivos que tenham essa palavra.
Alguem sabe se tem alguma api que de uma agilizada neste processo ou alguma ideia de como fazer isso.
É preciso usar expressões regulares.
Obriagado

13 Respostas

F

Google: apache lucene =)

O

Caro Fernando Meyer,
Muito interessante esta API, mas ainda não consegui usa-la do jeito que preciso, dei uma lida na documentação e tal mas não consegui criar nenhum programa que efetuasse alguma busca.
Voce por um acaso teria algum exemplo de como usar essa API.
Obrigado.

C

A documentacao do Lucene eh bem completa, vc nao achou os exemplos la?

R

cara geralmente os aquivos .doc sao armazenados como texto plano (com tags parecido com HTML e XML) vc pode fazer a pesquisa colocando em uma String o conteudo do arquivo e verificando se aquela string contem a palavra que vc quer.

F

da onde voce tirou isso ?

G

Gostaria de perguntar se poderia estar utilizando o lucene para buscar palavras em determinados arquivos(word por exemplo).
Baixei o lucene 2.2 porém não estou conseguindo utilizar , alguém teria alguma outra solução?

P

Tópico interessante vou baixar o Lucene para fazer os testes, depois eu digo como foi.

P

Bom dia amigos,

Queria saber como resolver isto

ERROR opening the Index - contact sysadmin!

Error message: no segments* file found in org.apache.lucene.store.FSDirectory@C:\opt\lucene\index: files:"

Obrigado e aguardo contato.

P

Eu já modifiquei as permissões e nada é estranho

E

gaybriel:
Gostaria de perguntar se poderia estar utilizando o lucene para buscar palavras em determinados arquivos(word por exemplo).
Baixei o lucene 2.2 porém não estou conseguindo utilizar , alguém teria alguma outra solução?

O Lucene só serve para arquivos texto puro. O .doc é um arquivo que comporta até a inserção de tabelas e imagens.
Tutorial Apache Lucene:
http://www.devmedia.com.br/articles/viewcomp.asp?comp=4681
http://www.devmedia.com.br/articles/viewcomp.asp?comp=4876

P

Rapaz depois de passar a manhã e esta passando o resto da tarde com Lucene eu estou pesquisando em .doc numa boa.
Obrigado pela atenção.

P

Alguém sabe como se faz para buscar em .pdf???
Obrigado.

R

Pankka:
Alguém sabe como se faz para buscar em .pdf???
Obrigado.

Pankka,

Você resolveu o seu problema com Pdf?
Eu fiz assim: indexo os arquivos extraindo o texto do pdf e faço a busca em texto puro.

só não consegui resolver um detalhe.
Eu quero pesquisar por: cobra
ele me traz tudo que contiver cobra* (cobrança, cobrar, recobrar)
Não consegui identificar se o erro está na pesquisa ou na forma de indexar.
Você saberia dizer?

Criado 19 de novembro de 2006
Ultima resposta 24 de set. de 2009
Respostas 13
Participantes 8