tux on orange background

Como fazer buscas via grep dentro de arquivos texto .doc

Arquivos .doc, do Microsoft Office são arquivos binários, com muito pouco conteúdo em texto e, portanto, imunes à leitura pelo comando grep.
Mas você pode contornar facilmente o problema com o uso de uma ferramenta adicional, o catdoc.

Geralmente, o utilitário não costuma vir instalado, por padrão.
Mas ele está disponível nos repositórios oficiais da maioria das distribuições GNU/Linux. É só ir lá e pegar…

No Debian ou no Ubuntu, faça a instalação via apt:


sudo apt install catdoc

O catdoc tem limitações.
A partir do programa, é possível realizar um cat “normal” em cima de qualquer arquivo .doc comum.
Já o conteúdo de arquivos criptografados ou do tipo .docx infelizmente não pode ser visto ou pesquisado pelo aplicativo.
catdoc grep

O utilitário, combinado com o comando grep, dará o resultado desejado.
Segue um exemplo:


catdoc Documentos/Guia\ do\ ubuntu.doc | grep -i ubuntu

Leia mais sobre o comando grep.

Publicado por

Elias Praciano

Autor de tecnologia (livre, de preferência), apaixonado por programação e astronomia. Fã de séries, como "Rick and Morty" e "BoJack Horseman". Me siga no Twitter e vamos trocar ideias!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.