Tipos de atributos e dados
O que são e como podemos defini-los?
Introdução
Os dados são tão importante para Ciência de dados quanto a ciência e pra facilitar nossa vida existem diversos tipos deles! Nesse artigo será descrito o que são dados e seus tipos.
Um dado é uma observação documentada ou resultado de uma medição que podem ser obtidos de diversas formas, mas ele sozinho não é muito útil, para uma análise válida é necessário um número grande desses dados, os quais chamamos de DataSet.
Antes de falar sobre os tipos de dados, precisamos primeiro definir alguns termos que serão frequentemente usados posteriormente, um deles é o dataset. Um dataset, se traduzido ao pé da letra é um conjunto de dados, mas essa não é uma boa representação pois conjunto de dados passa uma ideia muito mais abrangente, um dataset é sim um conjunto de dados, porém com uma estrutura bem definida e que normalmente pode ser descrito em formato de tabela.
Dados numéricos
Dados numéricos são dados representados por números como o nome sugere, estes dividem-se em dois subgrupos: Discretos e Contínuos.
Os discretos representam valores inteiros, como “a quantidade de vezes que eu alunos que fecharam uma prova” ou “quantos passos eu gasto pra chegar no IMD”, são valores aos quais não faz sentido ter um valor quebrado/fração.
Enquanto os contínuos servem para representar esse outro universo em que as os valores podem ser quebrados como “a velocidade média dos carros de fórmula um durante o GP do Brasil” ou “o K/D de um jogador durante uma partida de rainbow six siege”.
Dados categóricos
Dados categóricos são aqueles decorrentes de observações de variáveis categóricas, ou seja, que identificam um caso para cada categoria. São divididos em dois tipos: nominais e ordinais.
Dados nominais são uma subclasse de dados categóricos, ou seja, seus valores são divididos em categorias. Ao obtermos uma variável nominal, não podemos afirmar que ela possui relação de maior, menor ou qualquer outra medida com outra variável.
Uma variável nominal é apenas igual ou diferente de outra. Assim, não possuímos nenhuma ordenação entre categorias, viabilizando tratamento de campos que não são mensurados, como cor de cabelo, tipo sanguíneo, gênero musical e outros.
Já os dados ordinais são usados quando existe uma ordenação entre as categorias. Exemplos: escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,…, dezembro).
Entretanto, as distinções são menos rígidas do que a descrição acima insinua. Uma variável originalmente quantitativa pode ser coletada de forma qualitativa.
Por exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalharmos com o valor obtido na balança, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
Um outro ponto importante é que nem sempre uma variável representada por números é quantitativa. O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser quantitativa!
Dados faltando ou inválidos
E como nem sempre (na maioria das vezes, na verdade) nosso DataSet vem perfeito, é preciso então encontrar esses dados que não estão presentes ou que não condizem com os padrões dos outros dados da coluna e tratá-los. Esse processo inicial chamado de data wrangling — preparação dos dados — é de extrema importância e vai definir o sucesso ou fracasso da nossa análise.
Limpando a sujeira
Antes de tomar decisões precipitadas sobre o dado anômalo, é preciso fazer algumas perguntas: O dado é obrigatório? A coluna que ele se encontra é importante na nossa análise?
A partir disso, tomamos as melhores decisões para limpar nossos dados, iremos apenas citar alguns exemplos do que fazer, pois esse não é o nosso foco. Podemos:
- Deletar a coluna que contenha os dados inválidos
- Deletar apenas as linhas com dados inválidos
- Substituir pela média da coluna
- Interpolar os valores
- Substituir por um valor fixo
Conclusão
Entender o que são e como estão agrupados nossos dados é só o primeiro passo, precisamos ser bem atentos aos nossos dados e como vamos organiza-los pra conseguir extrair resultados significativos. Pra realizar essas analises se fazem necessários uso de distribuições, medidas centrais, relações e transformações, tópicos que serão abordados por outros alunos da turma de Ciência de dados I do IMD/UFRN e que poderão ser encontrados aqui no Medium também.
Este artigo foi escrito em conjunto com Danilo Galvão, Felipe Rodrigues e William Correia e complementa a apresentação feita em aula no dia 20 de Agosto de 2019.