Tipos de dados do seu dataset

Italo José
aibrasil
Published in
4 min readFeb 26, 2018

Antes de começarmos a falar sobre tipos de aprendizados (que veremos no próximo artigo), é importante falarmos de tipos de dados no seu dataset.

Temos aqui um conjunto de dados de um hospital, o mesmo do artigo passado temos: o id, nome, idade, sexo, pesos, manchas, temperatura, internações, estado e o diagnóstico (que é a nossa saída de classificação) e cada atributos do nosso dataset se enquadra em uma categoria para que nós possamos saber como trabalhar com eles.

Atributos qualitativos (ou categóricos):

Dentro no nosso dataset nós temos o id e o nome das pessoas, esses dados são exemplos de atributos qualitativos, um atributo qualitativo é também chamado de simbólico ou categórico, ele representa qualidades, esses valores podem ser associados a categorias, alguns podem ser ordenados, mas operações aritméticas não são aplicáveis.

O sexo, e o estado também são qualitativos, já a idade e o número de internações são atributos quantitativos.

Atributos quantitativos (ou numéricos):

Idade e o número de internações são atributos quantitativos, pois, você consegue aplicar operações aritméticas neles (consegue usá-los em cálculos) e além de quantitativos são também discretos, um atributo quantitativo representa quantidades, exemplo o número de internações é a quantidade de vezes que um paciente foi internado, e esses atributos quantitativos podem ser divididos em duas categorias, quantitativos contínuos ou discretos.

Atributos quantitativos contínuos ou discretos:

Os atributos discretos como é o caso da idade e do número de internações, representam um número finito de valores, já o quantitativo contínuo, como é o caso do peso e temperatura, podem assumir um número infinito de valores, geralmente usado na medida, são representados por números real(quebrado).

Apesar dos atributos qualitativos apresentarem qualidades (não contáveis/não aplicáveis em cálculos matemáticos), alguns atributos qualitativos também são representados por números, como é o caso do ID, mas não faz sentido operações aritméticas sobre o mesmo sendo números.

Escala de atributos:

Escala de atributos define as operações que podem ser realizadas sobre os valores dos atributos, e podem ser:

Nominais -> Qualitativos;

Ordinais -> Qualitativos;

Intervalar -> Quantitativos;

Racional -> Quantitativos;

Veja, id, nome e o sexo são nominais, ou seja, qualitativos, já as manchas são ordinais, mas também são qualitativos. Mas qual a diferença entre nominal e ordinal, por que ambos são qualitativos?

Escala nominal

São valores diferentes e carregam a menor quantidade de informação possível, não existe relação de ordem entre os valores, as operações aplicáveis são: Igual (==) ou diferente (! =), exemplo: Número de conta em banco, cores e sexo

Escala ordinal:

Olhando para o nosso dataset nós temos o id que está na escala ordinal, nessa escala os valores refletem ordem das categorias representadas, as operações aplicáveis é de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente (! =), por exemplo, hierarquia militar ou avaliações qualitativas de temperatura.

Neste caso do nosso conjunto de dados nós temos como ordinais as manchas: grandes, pequenas e médias, ou seja, uma mancha grande por exemplo é maior que uma mancha média que por sua vez é maior que uma mancha pequena, neste caso podemos usar >, <.

Escala Racional:

Idade, peso e o número de internações são da escala racional, mas por que?

A escala racional carrega mais informações, tem significado absoluto e além de poder ser aplicado as operações de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente (! =), você ainda pode aplicar operações de adição, subtração, multiplicação e divisão.

Escala intervalar:

Nosso atributo temperatura está na escala intervalar, que também é quantitativo, nessa escala os números variam em um intervalo, é possível definir ordem e diferença em magnitude entre dois valores.

As operações aplicáveis são =, <,>,>=, <=, =, adição e subtração, mas não é aplicável, operação multiplicação e divisão como era na escala racional, além da temperatura, outro exemplo de escala intervalar é a renda mensal de uma pessoa que pode ser quantitativo racional, número de palavras de um texto também seria quantitativos racional, ou até mesmo número das matrículas de uma escola (qualitativos nominais), assim como a gente tem no id.

Saber trabalhar com seus dados é importe, isso facilitará sua análise em cima de uma base de dados para saber se é aplicável ou não o uso do machine learning, é caso não seja, como você poderá trabalhar os dados para que tal ação seja possível.

--

--