Como identificar dados nulos no dataset?

Matheus Budkewicz
horaDeCodar
Published in
3 min readJul 5, 2018

Fala galera, tudo certo?

Resolvi iniciar uma série com dicas rápidas e sacadas de Data Science em geral, que farão você economizar tempo na hora da análise.

Ela irá resolver problemas do tipo:

  • Precisei procurar arduamente pela solução, encontrando naquele stackoverflow perdido no limbo.
  • Snippets que são exaustivamente usados e economizam tempo.
  • Funções para resolver problemas repetitivos, entre outros.

Ou seja, será basicamente uma Wiki que armazenará conhecimentos de problemas que eu passei na minha jornada.

Ei você leitor! Criei um novo blog para os meus conteúdos, pois o Medium mesmo sendo uma excelente plataforma, me limitava em alguns recursos, que acredito que podem atrapalhar seu aprendizado/leitura…

Você pode acessar cliquando aqui!

Obrigado pela atenção, e boa leitura! :)

E o primeiro tópico da série é:

Como identificar dados faltantes num dataset:

Essa realmente é uma mão na roda quando estamos limpando os dados, precisamos identificar se há colunas com dados faltantes no dataset.

Isso ocorre bastante por erros na hora da inserção, dados não preenchidos, problemas na exportação e etc.

Segue o dataset que usaremos no primeiro exercício

Baixe o dataset para fazer o exercício aqui:

Então vamos lá, como identificar valores nulos?

Iniciamos o projeto normalmente, importamos as libs e o dataset.

Testamos se tudo funciona com o método head.

E agora o pulo do gato:

pulo do gato, no caso o errado…

Chamamos nosso dataset com o metodo isnull, ele verifica se há linhas nulas, por fim somamos elas.

No caso deste dataset, não há colunas nulas, ô coisa boa, podemos prosseguir para a próxima etapa da análise.

Agora outro dataset, para fixarmos o conhecimento, e termos uma segunda percepção

Conheça nosso canal no YouTube, com cursos gratuitos de qualidade e vídeos semanais, para acessar o canal clique aqui!

Baixe o dataset do titanic aqui:

https://github.com/awesomedata/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip

Vamos fazer mais um exercício, agora num dataset que tem linhas nulas

Como podemos ver, há linhas com dados faltantes no dataset do Titanic, agora que foram identificadas as colunas, o próximo passo seria ajustar estes dados.

O que é um bom assunto para um próximo tópico :)

Finalizando:

A importância desse recurso é realmente achar os buracos do dataset, para depois podermos tratar eles.

Assim concluir a etapa de limpeza e ir para a análise.

Veja que é interessante também já sabermos qual coluna estão essas falhas, o que mais uma vez, adianta nosso processo.

Obrigado por lerem até o final e comentem o que acharam, se usam outra técnica, e até mais!

--

--