Compacte arquivos usando os recursos do bzip2

O bzip2 comprime arquivos através do algoritmo de Burrows-Wheeler.
O nível de compressão por este método é consideravelmente mais eficiente do que o de softwares baseados no LZ77/LZ78 (LZW).
Por outro lado, não chega a ser tão bom quanto a família de compressores estatísticos PPM.

O pacote de utilitários bzip2 é composto pelos seguintes itens:

  1. bzip2, bunzip2 — respectivamente, ferramentas de compactação e descompactação de arquivos.
  2. bzcat — descomprime arquivos para o stdout, ou seja, exibe o conteúdo.
  3. bzip2recover — ferramenta de recuperação e correção de arquivos bzip2 danificados.

É comum usar o programa em conjunto com o comando tar.
O tar não é, exatamente, uma ferramenta de compressão e depende de aplicativos de terceiros para fazer este trabalho.
Por outro lado, o bzip2 não é um arquivador. Ele comprime os arquivos individualmente.
Por ĩsto, é tão comum combinar os dois utilitários.
Para fazer o arquivamento (backup) de diretórios, usando o tar, com compressão pelo bzip2, use-o assim:


tar cjf backup.tar.bz ~/temp/

Se quiser, use o progress, como ferramenta para acompanhar o andamento do processo de backup tar/bzip2, com resultados individuais exibidos para cada processo.

progress tar bzip2

O bzip2 faz parte do conjunto de ferramentas padrão das grandes distribuições GNU/Linux. Você provavelmente não precisará se preocupar em instalar, portanto. Tudo que precisa para começar a usar agora, já se encontra no seu sistema.

Como usar o bzip2 na CLI

Na linha de comando (CLI), o bzip2 tem uma sintaxe similar ao do gzip, o que pode tornar mais fácil o trabalho de substituição em scripts de backup.
O utilitário espera que lhe seja dado uma lista de arquivos, acompanhados das opções de uso.
Cada arquivo é substituído por uma versão comprimida de si mesmo — acrescida da extensão .bz2.
Cada arquivo comprimido mantém (enquanto possível) as propriedades originais de posse, facilitando sua restauração posterior.
Se você prefere que os arquivos existentes sejam sobrescritos, é necessário usar o parâmetro ‘-f’. Sem isso, o programa pula arquivos que já tenham passado pelo processo de compactação.


bzip2 -f Occidentalis_v02.img

Exemplos de uso do bzip2

Adapte os exemplos, a seguir, às suas necessidades.
Para dar opções rápidas, o utilitário permite definir --fast (mais rápido) ou --best (melhor compressão),
Portanto para obter a melhor compressão possível, use o bzip2 assim:


bzip2 --best nome-do-arquivo

Para obter uma compressão mais rápida:


bzip2 --fast nome-do-arquivo

A qualidade da compressão também pode ser definida numericamente (de 1 a 9).
A opção ‘-9’ equivale a --best e ‘-1’ a --fast.
Para obter um nível de compressão equilibrado, use -5:


bzip2 -5 nome-do-arquivo

Para obter um feedback mais verboso, use ‘-v’ ou --verbose:


bzip2 -v *.* 

O comando, acima, irá comprimir todos os arquivos do diretório corrente, gerando um novo arquivo com extensão .bz2 em substituição para cada um.
Este é o comportamento padrão do programa.
A opção ‘-v’ serve para mostrar o que está sendo feito.

Sim! Você pode combinar várias opções.
Abaixo, ativei a ‘verbosidade’ e especifiquei que não quero que o arquivo original seja removido. Veja o meu resultado:


bzip2 -vk woman-drinking-cup-of-coffee.jpg 

woman-drinking-cup-of-coffee.jpg:  0.991:1,  8.072 bits/byte, -0.90% saved, 36856 in, 37189 out.

ls -lah woman-drinking-cup-of-coffee.*

-rw-r--r-- 1 justincase justincase 36K set  1 15:03 woman-drinking-cup-of-coffee.jpg
-rw-r--r-- 1 justincase justincase 37K set  1 15:03 woman-drinking-cup-of-coffee.jpg.bz2

Desta vez restaram 2 arquivos — com extensões ‘.jpg’ e ‘.jpg.bz2’.
Note que o arquivo resultante ficou 1K maior do que o original.
Isto se deve ao fato de que arquivos JPEG já são comprimidos.
Neste caso, além de não ter sido possível obter uma taxa de compressão maior, somou-se ao arquivo resultante as informações do bzip2.
Por isto ele ficou maior.
Você irá obter resultados bem melhores sobre arquivos de texto ou de áudio FLAC, por exemplo.

Como descompactar e testar meus arquivos bz2

Para descomprimir (inflar) seus arquivos, use o bunzip2 ou ‘bzip2 -d’:


bzip2 -dv woman-drinking-cup-of-coffee.jpg.bz2

bzip2: Output file woman-drinking-cup-of-coffee.jpg already exists.

Como o arquivo original ‘woman-drinking-cup-of-coffee.jpg’ já existia, obtive a mensagem acima ‘Output file woman-drinking-cup-of-coffee.jpg already exists‘ — “O arquivo de saída … já existe”.
Se quiser forçar a extração, neste caso, use ‘-f’:


bzip2 -dvf woman-drinking-cup-of-coffee.jpg.bz2

Use ‘-tv’ para testar um ou vários arquivos bz2:


bzip2 -tv woman-drinking-cup-of-coffee.jpg.bz2 

woman-drinking-cup-of-coffee.jpg.bz2: ok

Mais adiante, vamos abordar novamente o uso de ‘-t’.

Como usar o bzip2, quando os recursos do sistema estão escassos

Em ambiente servidor pode ser difícil encontrar “uma folga” no tempo do processador ou no espaço disponível na memória RAM do sistema.
Ficar sem backup, justamente nestes casos, não é uma opção.
Aplicar o --small ou ‘-s’ faz com que o aplicativo realize o seu trabalho com menor consumo de memória.
Segue um exemplo de uso:


bzip2 -sv Screenshot_20170*

  Screenshot_20170619-092621.png:  1.005:1,  7.963 bits/byte,  0.47% saved, 2090633 in, 2080882 out.
  Screenshot_20170619-092626.png:  1.000:1,  7.997 bits/byte,  0.04% saved, 2199528 in, 2198582 out.
  Screenshot_20170619-092823.png:  1.137:1,  7.036 bits/byte, 12.05% saved, 156600 in, 137732 out.

...

  Screenshot_20170706-164342.png:  1.134:1,  7.053 bits/byte, 11.84% saved, 128326 in, 113135 out.
  Screenshot_20170706-164407.png:  1.097:1,  7.292 bits/byte,  8.85% saved, 120458 in, 109795 out.
  Screenshot_20170706-164419.png:  1.141:1,  7.014 bits/byte, 12.33% saved, 97195 in, 85210 out.

A opção reduz o uso da memória durante a compressão, descompressão e teste.
Neste caso, é ativado um outro algoritmo, que requer 2,5 bytes por cada byte de bloco.
Com isto, qualquer arquivo pode ser inflado dentro de um espaço de 2300 kb, na memória RAM.
O custo: redução pela metade da velocidade de trabalho do aplicativo.
Durante o processo de descompressão, o ‘-s’ seleciona blocos de 200 kb, limitando o uso de memória ao mesmo valor — com a consequente redução da taxa de compressão.

A documentação manda usar ‘-s’ em sistemas com 8 Mb de memória RAM livres ou menos.
Mas você pode usar o recurso em outras situações que julgar adequado.

Como recuperar arquivos bzip2 danificados

Acidentes podem ocorrer durante uma transferência e você pode acabar com arquivos compactados importantes corrompidos.
O bzip2 comprime em blocos, usualmente, com 900 Kb — cada qual é manipulado independentemente pelo utilitário.
Se uma mídia danificada ou um erro de transmissão causar dano a um ou mais blocos, ainda é possível recuperar o conteúdo a partir dos dados armazenados nos blocos saudáveis.

O bzip2recover é um programa simples com o propósito de varrer blocos dentro de arquivos .bz2 e gravar cada bloco em outro arquivo .bz2.
Os arquivos resultantes podem ser verificados com a opção ‘-t’ e, se for o caso, descomprimidos.
Veja um exemplo:


bzip2recover woman-drinking-cup-of-coffee.jpg.bz2 

bzip2recover 1.0.6: extracts blocks from damaged .bz2 files.
bzip2recover: searching for block boundaries ...
   block 1 runs from 80 to 297425
bzip2recover: splitting into blocks
   writing block 1 to `rec00001woman-drinking-cup-of-coffee.jpg.bz2' ...
bzip2recover: finished

Em seguida, rode o teste:


bzip2 -tv rec00001woman-drinking-cup-of-coffee.jpg.bz2 

  rec00001woman-drinking-cup-of-coffee.jpg.bz2: ok

Este é o procedimento básico de recuperação pelo bzip2 de um arquivo danificado.

Compactação com criptografia

Segurança implica em criptografia, em muitos casos.
O bzip2 pode ser usado em conjunto com a ferramenta de criptografia GnuPG.
Para obter este resultado, você pode invocar a compressão com o bzip2 do próprio gpg:


gpg --output ssp2.html.gpg.bz2 --bzip2-compress-level 1 -cv ssp2.html

gpg: pinentry launched (11802 gnome3 1.0.0 ? ? ?)
gpg: pinentry launched (11809 gnome3 1.0.0 ? ? ?)
gpg: using cipher AES
gpg: writing to 'ssp2.html.gpg.bz2'

Veja o que foi feito:

  • gpg --output ssp2.html.gpg.bz2 — a execução pede para gerar um arquivo de saída, criptografado, com o nome ‘ssp2.html.gpg.bz2’.
  • --bzip2-compress-level 1 — especifica o método e o nível de compressão a ser usado.
  • -cv — indica explicitamente a criptografia (-c) e verbosidade (-v).

O valor de --bzip2-compress-level pode variar de 0 (nenhuma compressão) a 9 (máxima compressão).
Acima, usei o valor 1, para tornar o procedimento mais célere.
Para reverter, use o gpg assim:


gpg --output ssp2.html -dv --bzip2-decompress-lowmem ssp.html.gpg.bz2

gpg: AES encrypted data
gpg: pinentry launched (11769 gnome3 1.0.0 ? ? ?)
gpg: encrypted with 1 passphrase
gpg: original file name='ssp.html'

O que há de diferente?
Desta vez, usamos a opção ‘-d’ e --bzip2-decompress-lowmem para indicar que é para descomprimir um arquivo, com o uso do bzip2.

O comando tar em 9 exemplos.

O comando tar é uma ferramenta eficiente e que tem sido muito usada, por muito tempo para compactar arquivos, diretórios, discos inteiros etc. — muitas vezes com o objetivo de fazer volumosos backups. Sim. Ele aguenta trabalho pesado.
Neste post, vou mostrar, através de alguns exemplos, como realizar algumas operações com o comando tar.
E, quando falamos nele, nos referimos tanto a um formato de arquivo quanto a um programa — presente no UNIX desde seus primeiros dias e desenvolvido, inicialmente, para gravar dados em dispositivos sequencias (gravadores de fitas).
O mundo mudou, os dispositivos de gravação evoluíram e o tar continua sendo muito utilizado – predominantemente como meio de comprimir múltiplos arquivos.

Como criar um arquivo tar simples

Um arquivo tar é comumente chamado, em inglês, tarball (bola tar) e pode ser facilmente criada a partir de um diretório. No exemplo, abaixo, vou mostrar a criação de arquivos_temporarios.tar, a partir do conteúdo do meu diretório temp/:

tar -cvf arquivos_temporarios.tar temp/
temp/
temp/portuguese_brazil.zip
temp/portuguese_brazil.lng

As opções usadas na declaração tar -cvf têm os seguintes efeitos:

  • c – (create) cria uma novo arquivo .tar
  • v – (verbose) torna a execução do comando mais “verbosa”, ou seja, ele vai “contando” o que está fazendo
  • f – indica que o resultado será do tipo arquivo (file)

Você pode experimentar usar -vv em substituição ao -v para ver o comando ser executado com mais verbosidade.

Como criar um arquivo .tar.gz

Um arquivo .tar.gz nada mais é que um arquivo .tar comprimido através do gzip – é por isto que ele tem o .gz na sua extensão. Para atingir este objetivo, use a opção -z, em conjunto com as anteriores. Veja:

tar -cvzf arquivos_temporarios.tar.gz temp/

Note que acrescentei o z e alterei o nome do arquivo de saída para temporarios.tar.gz

Como criar um arquivo bz2

bzip2 bzip logoArquivos bz2, são arquivos bzip2 – um compressor de dados que usa o algoritmo Burrows-Wheeler e pode reduzir o espaço ocupado por um arquivo em até 10% do seu volume original.
Em função da maior capacidade de compressão, eu recomendo usar sempre o bzip. A desvantagem do seu uso está na maior demora para comprimir ou descomprimir arquivos.
Veja como usar o bzip2, no lugar do gzip, na compressão de arquivos tar:

tar -cvjf arquivos_temporarios.tar.bz2 temp/

Note que substituí a opção z por j, no exemplo acima. A extensão também foi alterada para bz2

A extensão dos arquivos

Antes de seguir, gostaria de falar rapidamente sobre as extensões dos arquivos.
Você é livre para escolher a extensão que quiser. O arquivo de saída, do exemplo anterior, poderia se chamar temporarios.fofinhos – o conteúdo continuaria sendo exatamente o mesmo.
Mas o objetivo da extensão de um arquivo não é “ser fofa” ou bonita. Antes, ela deve ser informativa e ajudar os usuários a entender de que tipo se trata aquele arquivo, de forma que se possa usar o comando certo em relação a ele. Mais a frente, vamos ver que os comandos para descompressão dos arquivos variam em função de ter sido usado bzip (ou bzip2) ou gzip na sua compressão.

Extensões comuns ao usar o tar

Já que estamos falando no assunto, há alguns padrões bastante difundidos:

  • arquivos tar, comprimidos com gzip, usam extensões .tar.gz ou .tgz
  • arquivos tar, comprimidos com bzip2, usam predominantemente extensões .tar.bz ou .tbz ou .bz2

Como extrair arquivos tar

Para extrair o conteúdo de um arquivo tar, usamos a opção -x. Veja como funciona:

tar -xvf icones.tar

Se o arquivo estiver comprimido com o gzip:

tar -xvfz icones.tar.gz

Se estiver comprimido com bzip2:

tar -xvfj icones.tar.bz

Nota: O arquivo será sempre descomprimido no diretório atual. Use o comando pwd, caso não saiba em que diretório você se encontra.
Se quiser indicar outro diretório para descompactar o arquivo, use a opção -C acompanhada do diretório de destino. No exemplo abaixo, vou direcionar a extração do conteúdo do arquivo icones.tar.bz pro diretório ~/meus_icones/:

tar -xvfj icones.tar.bz -C ~/meus_icones/

Notou que usei a opção -C antes do diretório destino?

Como listar o conteúdo de um arquivo tar

A opção -t é a que permite listar o conteúdo de arquivos tar. Veja como funciona:

tar -tvf icones.tar
drwxr-xr-x root/root         0 2013-11-19 01:22 opt/icons/
-rw-r--r-- root/root     68458 2013-11-13 00:42 komodo128.png
-rw-r--r-- root/root     12053 2013-11-13 00:42 komodo48.png
-rw-r--r-- root/root      2349 2013-11-13 00:42 komodo16.xpm
-rw-r--r-- root/root     87697 2013-11-13 00:42 komodo128.xpm

Como listar o conteúdo de arquivos tar.gz ou tar.bz

Nestes casos o comando permanece o mesmo. Tome apenas o cuidado de indicar corretamente os nomes dos arquivos cujo conteúdo você deseja listar.
Para listar um arquivo .tar.gz:

tar -tvf icones.tar.gz

Para listar um arquivo .tar.bz:

tar -tvf icones.tar.bz

Como extrair apenas um arquivo de dentro do arquivo tar

Neste exemplo, vou extrair o arquivo komodo128.png de dentro do arquivo icones.tar:

tar -xvf icones.tar komodo128.png

Para remover um arquivo com o mesmo nome de dentro de um arquivo tar.gz, acrescente a opção -z:

tar -zxvf icones.tar.gz komodo128.png

Se o arquivo comprimido for um tar.bz, use a opção -j:

tar -jxvf icones.tar.bz komodo128.png

Como extrair vários arquivos de um arquivo tar, tar.gz ou tar.bz

Neste caso, listamos os diversos arquivos, usando aspas. Observe os exemplos:

tar -xvf icones.tar "komodo128.png" "komodo64.png"
tar -zxvf icones.tar.gz "komodo128.png" "komodo64.png"
tar -jxvf icones.tar.bz "komodo128.png" "komodo64.png"

Como extrair vários arquivos de um arquivo .tar, .tar.gz ou .tar.bz usando coringas

Através de coringas, podemos indicar um grupo de arquivos sobre o qual desejamos efetuar uma ação. Vou mostrar como extrair um grupo separado de arquivos de dentro de arquivo tar, tar.gz e tar.bz com o uso de coringas, ainda usando o exemplo do tópico anterior:

tar -xvf icones.tar --wildcards *.xpm
tar -zxvf icones.tar.gz --wildcards *.xpm
tar -jxvf icones.tar.bz --wildcards *.xpm

Como adicionar arquivos ou diretórios a arquivos tar já existentes

Esta possibilidade é especialmente útil para quem deseja acrescentar mais arquivos ou diretórios a um arquivo tar de backup preexistente.
No exemplo que segue, vou acrescentar o arquivo komodo32b.png ao arquivo tareado icones.tar. Para isto, vou usar a opção -r (append):

tar -rvf icones.tar komodo32b.png

Ou um diretório inteiro:

tar -rvf backup-sql-2014-15-02.tar sql/

Como adicionar arquivos ou diretórios a arquivos tar.gz ou tar.bz

Neste caso, a solução é recriar o arquivo, já incluindo estes novos na sua nova bola tar – o tar não tem como acrescentar arquivos a arquivos tar compactados com bzip2 ou gzip.

Como verificar arquivos tar

Arquivos de backup precisam ser checados sempre.
Seria desolador, após um desastre (toc, toc, toc), descobrir que as cópias de segurança não funcionam.
Novamente, não é possível aplicar a solução a arquivos tar.gz e tar.bz diretamente, com o comando tar – qualquer que seja a extensão, arquivos compactados, seja com bzip2 ou gzip.
Por isto, os scripts de backup, costumam tarear primeiro os arquivos, verificá-los e, se tudo estiver certo, compactá-los.
Veja um exemplo de verificação, com o seu resultado:

tar -cvWf backup-2014-02-11.tar

A solução para testar se o arquivo final tar.gz ou tar.bz está bom é usar o utilitário gzip ou o bzip2, com a opção ‘-t’:

gzip -tv backup.tar.gz 
backup.tar.gz:	 OK

ou

bzip2 -tv backup.tar.bz 
backup.tar.bz:	 OK

Conclusão

Para concluir, segue uma pequena tabela com as opções abordadas neste texto, para ajudar a lembrar;

  • c — para criar um arquivo do tipo arquivo;
  • x — para extrair arquivos de dentro do arquivo tar
  • v — mostra o processo na tela. A opção -vv exibe mais detalhes ainda;
  • f — determina o nome do arquivo tar;
  • t — exibe o conteúdo;
  • j — compacta ou descompacta os arquivos via bzip2
  • z — compacta ou descompacta os arquivos via gzip;
  • r — adiciona arquivos ao tar;
  • W — verifica a integridade do arquivo tar;
  • wildcards — permite trabalhar com coringas.

Por enquanto é só, pessoal!Por enquanto, é só! Espero que este breve tutorial tenha sido suficiente para sanar suas dúvidas. Use o man tar no terminal para ver outras opções de uso do comando tar e, caso eu tenha esquecido alguma coisa, no texto, por favor comente ali embaixo.