O que é a função digestora HASH e qual é sua relevância para a computação forense?

Thiago Vieira
Contrarrazões
Published in
3 min readJul 25, 2018

Compreender o conceito da função digestora hash é fundamental para avançarmos em temas como processo eletrônico, certificação digital, criptomoedas, blockchain, cadeia de custódia de evidências digitais etc. Compreende-lo é tão relevante quanto simples.

A função hash produz um resumo matemático: ela recebe uma entrada de dados de qualquer comprimento e cria uma saída de comprimento fixo. Por exemplo: ao submetermos o arquivo da Constituição Federal disponível no site do planalto à função digestora (MD5) reduzimos seus volumosos 669.114 caracteres para apenas 32: “b846221c1f44390f4c6ece0ebac941db”.

É uma via de mão única. Não há como recuperar o texto constitucional a partir do seu resumo matemático.

Originalmente concebida para comprimir dados e otimizar recursos nos processos de indexação e busca de informações, a função digestora produz um segundo benefício: um identificador único. Qualquer alteração no arquivo da Constituição Federal, para continuarmos com o mesmo exemplo, gerará um resumo diferente. Duas mensagens nunca devem retornar o mesmo hash [1].

A propriedade de gerar identificadores únicos possibilita a verificação da integridade da informação, característica muito cara a computação forense uma vez que a evidência digital pode ser, e não raras vezes é, extremamente frágil. Ela pode ser adulterada, modificada ou destruída por manuseio ou exame impróprio (Item 5.4.1 — ISO 27037).

Criar resumos matemáticos dos dados apreendidos logo após sua cópia forense integra o rol de boas práticas. Proceder desta forma, permite que as partes interessadas possam verificar se houve ou não alteração da evidência durante os exames periciais.

Importante ficarmos atentos para não atribuirmos à função HASH propriedades que ele não possui. A integridade não se confunde com autenticidade. A integridade diz respeito a imutabilidade da evidência e pode ser aferida através de comparações de resumos matemáticos. Já a autenticidade está relacionada com sua origem: o material vem de onde ele se propõe? Ele é o que diz ser?

O hash, por si só, não é capaz de responder a estas perguntas, especialmente quando não se tem certeza da origem das amostras comparadas, uma vez que a integridade não é determinante para se inferir a autenticidade das evidências.

O objetivo da função hash é simples. Contudo, suas propriedades são poderosas e fazem parte do núcleo central de diversas tecnologias que sustentam a sociedade da informação. Mas não há bala de prata, não há uma tecnologia que sozinha — desacompanhada da boa técnica — seja capaz de resolver todos os problemas relacionados à validade da evidência computacional. Os operadores do direito não podem ficar alheios a isto, sob pena de comprarem alho por bugalho.

Nota:

[1] Quando duas amostras distintas geram o mesmo resumo matemático ocorre o que chamamos de colisão de hash. O algoritmo MD5, por exemplo, não deve mais ser empregados em tarefas que exijam identificadores únicos, uma vez que é vulneráveis a ataques de colisão (RFC 6151).

--

--