Organizando banco de dados: uma introdução ao conceito de Tidy Data

Dalton Costa
Datapsico
Published in
7 min readAug 20, 2021

É comum ouvir na área de ciência de dados que mais da metade do tempo é gasto com limpeza dos dados. Como você já sabe, se o banco de dados não está limpo e organizado de nada adianta uma boa análise.

Seguindo o fluxograma proposto por Wickham & Grolemund (2017) podemos observar que a exploração dos dados segue um constante ciclo de transformação e visualização. Mas destaco o segundo passo, “Tidy”, o que será isso?! Se você quer aprender como montar um banco de dados corretamente e conhecer um pouco mais sobre o conceito de Tidy Data, esse é o artigo certo para você.

Processo de exploração de dados. Criado por Wickham & Grolemund (2017)

Nesse artigo vamos abordar de forma bem resumida o que é Tidy Data. Você pode consultar uma definição mais completa consultando o artigo do Hadley Wickham, que foi quem formulou esse conceito.

O que é o Tidy Data?

No artigo é definido como:

Tidy datasets provide a standardized way to link the structure of a dataset (its physical layout) with its semantics (its meaning).

(Tradução: Conjuntos de dados organizados que fornecem uma forma padronizada de ligar a estrutura de um conjunto de dados (a sua estrutura física) com a sua semântica (o seu significado).

Para entender essa definição, você deve primeiro entender o que significa estrutura e semântica.

  • Estrutura é a forma e o formato dos seus dados. Em estatísticas, a maioria dos conjuntos de dados são tabelas de dados retangulares (data frames) e são formados por linhas e colunas.
  • Semântica é o significado do conjunto de dados. Os conjuntos de dados são uma coleção de valores, quantitativos ou qualitativos . Esses valores são organizados de 2 maneiras — variável e observação. Uma variável contém todos os valores que medem o mesmo atributo (variável) subjacente (como altura, temperatura, duração) entre unidades. Uma observação contém todos os valores medidos em uma mesma unidade (como uma pessoa, ou um dia, ou uma raça) através de atributos.

As 3 regras do Tidy Data

Imagem retirada do livro “R for Data Science”.
  • Cada variável é uma coluna
  • Cada observação é uma fila
  • Cada tipo de unidade observacional é uma tabela

A imagem acima é uma boa representação da estrutura Tidy Data. O data frame apresentado na imagem pode parecer apenas com tabelas que você costuma ver todo o dia, mas você precisa entender que os dados não chega até você nesse formato naturalmente, por vezes os dados são colhidos e armazenados separadamente, e o seu trabalho é juntá-los em uma única tabela.

Exemplo de banco de dados no formato Tidy Data.

A melhor forma de se entender o porquê é importante ter os dados arrumados é observando dados bagunçados e como eles podem ser problemáticos.

5 sinais de que seu banco de dados está bagunçado

Agora que você sabe como é um dado organizado (seguindo o método Tidy Data), para entender o que é um dado bagunçado é fácil! Seria qualquer dado que não segue a estrutura de dados citada acima.

O artigo do Hadley Wickham cita 5 erros comuns na hora de construir e organizar um banco de dados:

1 — Os cabeçalhos das colunas são valores, não nomes de variáveis.

Veja esse exemplo que mostra a relação entre renda e religião:

Observe que, apesar de ser bagunçado, esse arranjo pode ser útil em alguns casos, mas não está dentro do padrão Tidy Data e pode causar confusão na hora de manipular os dados.

Veja a versão correta de tabular esses dados, seguindo o padrão Tidy Data:

2 — Várias variáveis ​​são armazenadas em uma coluna

Agora vamos explorar o conjunto de dados de tuberculose da Organização Mundial da Saúde. Os registros mostram a contagem de casos de tuberculose por país, ano e grupo demográfico.

Os grupos demográficos são divididos por sexo (m, f) e idade (0–14, 15–24, 25–34, 35–44, 45–54, 55–64, 65+, desconhecido). Veja como os dados foram tabulados:

A tabela acima coloca em uma mesma coluna os valores relativos a sexo e à idade. A coluna m014, por exemplo, é relativa a todos os homens de até 14 anos. A coluna f2534 é relativa a todas as mulheres de 35 a 44 anos. O ideal é que cada variável possua sua própria coluna. Veja como deveria ser organizado esses dados pelo padrão Tidy Data:

3 — As variáveis ​​são armazenadas em linhas e colunas

Observe o banco abaixo que possui variáveis ​​em colunas individuais (id, ano, mês), espalhadas por colunas (dia, d1 — d31) e por linhas (tmin, tmax) (temperatura mínima e máxima):

Como você deve ter percebido esse conjunto de dados está confuso. As variáveis ​​são armazenadas em linhas (tmin, tmax) e colunas (dias). Veja como deveria ser organizado esses dados seguindo o padrão Tidy Data:

4 — Vários tipos de unidades de observação são armazenados na mesma tabela

O conjunto de dados que iremos analisar agora mostra os maiores sucessos da Billboard em 2000. Este conjunto de dados registra a data em que uma música entrou pela primeira vez no Top 100 da Billboard. Possui variáveis ​​para artista, faixa, data inserida, data de pico, gênero, tempo, classificação e semana.

Este conjunto de dados contém observações sobre dois tipos de unidades de observação: a música e sua classificação em cada semana. Como consequência disso, o artista e o tempo se repetem para todas as músicas de cada semana. Além disso, o número de semanas pode ser infinito.

Nesse caso, para seguir o padrão do Tidy Data, é necessário dividir esses dados em 2 bancos diferentes (o conjunto de dados da música e o conjunto de dados da classificação). Veja como ficaria:

Veja que nesse caso foi criado uma id para cada música e essa mesma id foi utilizada para identificar no conjunto de dados classificação.

5 — Uma única unidade de observação é armazenada em várias tabelas

Vamos observar agora a mesma estrutura de dados em diferentes bancos. Isso é comum por exemplo quando se tem o mesmo levantamento de dados anualmente e os dados são registrados em arquivos separados.

Nesses casos é simples, basta juntar os dados em um único arquivo e manter a mesma estrutura dos dados. Veja como fica esse banco de dados seguindo o padrão Tidy Data:

Por que o Tidy Data é importante?

A importância de ter dados organizados é simples de entender. Com uma estrutura padronizada para os seus dados, você gasta menos tempo na limpeza e organização de dados e mais tempo para se concentrar em responder ao problema em questão.

Também é uma boa prática ter seus dados neste formato, o que os torna reproduzíveis e fáceis de serem entendidos por outras pessoas.

Outra razão é que o conceito de Tidy Data é compatível com as ferramentas tradicionais de análise de dados, como R e Python. Exemplos de pacotes que facilitam a organização dos dados no R é tidyverse e em Python o Pandas.

Aqui no PsicoData já falamos como utilizar o tidyr para organizar os seus dados. Confira esse tutorial escrito pelo Gabriel Rodrigues!

Considerações Finais

Nesse artigo aprendemos sobre o conceito de Tidy Data e o quanto ele pode facilitar a vida do cientista de dados. Quando temos nossos dados organizados, consequentemente, teremos análises precisas e um melhor entendimento dos dados.

Vimos também os 5 erros mais comuns na hora de organizar e construir um banco de dados. Pode parecer simples, mas é muito comum encontrarmos bancos de dados que precisam ser ajustados e que consomem muitas horas de trabalho.

E o que você achou do conceito de Tidy Data? Compartilha esse artigo com os seus contatos e espalhe a ideia de construir banco de dados mais organizados!

Espero que tenha gostado e qualquer dúvida, comentário ou observação são muito bem-vindos! Fique à vontade para se manifestar e vamos aprender juntos! Se preferir, você pode me contatar pelo dalton.bc96@gmail.com

Obrigado pela leitura!

--

--