Estatística básica para gente como a gente — parte 1

Andressa Sivolella
6 min readMar 15, 2017

--

Este post tem como objetivo ilustrar conceitos básicos para pessoas não técnicas.

Em um post anterior foi apresentada algumas diferenças entre estatística e Machine Learning (ML). A verdade é que antes de utilizar qualquer técnica de ML faz parte de um projeto de análise de dados entender a natureza do conjunto de dados que temos em mãos. Neste caso, aplicar estatística é fundamental.

"(…) aplicar estatística (…)"
O que seria isso?

Média, desvio padrão, variância, co-variância e correlação. Não se assuste. Você já deve ter ouvido esses termos antes. Mas também se não ouviu, tudo bem. O objetivo deste post é ilustrar tais termos.

Antes de mais nada, você precisa saber:

  • Somar valores
  • Dividir valores
  • Elevar valores ao quadrado
  • Extrair raíz quadrada de um valor

Por que entender um pouquinho de estatística seria interessante?

Para responder tal pergunta, vamos voltar ao assunto principal através de um exemplo motivacional. Mesmo que você não tenha ouvido falar de nenhum dos termos acima, certamente você já ouviu falar dos Simpsons. É a partir da figura abaixo que vamos nos basear para exemplificar termos básicos encontrados em estatística. Vamos lá?

Figura 1. A família Simpson e suas respectivas (hipotéticas) alturas

Você deve ter percebido que além de cada membro da família Simpson a figura exibe também a (hipotética) altura de cada personagem (em metros). Mas, pra ajudar, vamos primeiramente listar tais informações abaixo:

  1. Homer tem 1.8 m de altura
  2. Maggie tem 0.5 m de altura
  3. Bart tem 0.9 m de altura
  4. Lisa tem 0.7 m de altura
  5. Marge tem 2.13 m de altura (um pouco forçado devido ao cabelo dela, mas, é o que a nossa régua está medindo. Neste momento, não se apegue a este detalhe).

Quando você olha pra figura acima você deve ser capaz de identificar que a Maggie e a Marge possuem alturas discrepantes quando comparadas aos outros membros da família Simpson, certo? Você consegue fazer isso porque, de maneira bem simples, o seu cérebro faz algumas conexões e conclui isso. Acontece que uma máquina não é capaz de verificar essa diferença apenas pelas alturas apresentadas na imagem. Ela não possui um cérebro, propriamente dito e logo, não consegue chegar a essa conclusão sozinha. E é exatamente neste momento que os termos de estatística os quais vamos aprender hoje ajudam. É através de estatística aplicada antes de qualquer algoritmo de Machine Learning que a máquina vai entender como é o conjunto de dados que será utilizado.

Beleza. Então, vamos começar com a média?

Vamos! A figura ilustra a altura de cada personagem individualmente, mas você já se perguntou qual é a altura média da família Simpson? (Não né? Mas acompanha o exemplo =) )

Para extrair a média da altura da família Simpson, basta somarmos todas as alturas de cada personagem e dividir o resultado pelo número de personagens (ou seja, 5). Em números, isso significa dizer:

Média da altura da família Simpson

Ou seja, a média da altura da família Simpson é 1.2 metros.
(E neste momento, eu espero que eu não tenha perdido o seu interesse, afinal, parafraseando Stephen Hawking, a cada fórmula apresentada perde-se metade da audiência…)

Mas, vem comigo: a linha verde na figura abaixo indica este valor. Por enquanto, eu espero que você não se incomode com as linhas e valores em azul.

Figura 2. Linha verde indica a média das alturas e as azuis indicam a diferença individualmente de cada altura com a média.

Qual é a nossa motivação em calcular a média?

Como dito, quando estamos trabalhando com projetos de análise de dados, muitas vezes extrair a média de uma determinada característica é o primeiro passo para entendermos como os dados que temos estão organizados. É bastante interessante entender se existe algum valor discrepante no conjunto de dados.

Por que é interessante identificar valores discrepantes?

Porque valores discrepantes atrapalham o aprendizado de máquina. Um algoritmo de Machine Learning aprende baseado no conjunto de dados que se tem em mãos. Se temos dados distoantes, tal algoritmo vai aprender com valores distoantes e isso vai atrapalhar o seu aprendizado (ou seja, ele vai aprender de maneira errada). Claro que como tudo na vida, há exceções: no caso de identificação de fraudes, por exemplo, os valores distoantes são importantes, porque são justamente eles que indicam fraudes. Mas de maneira geral, tais valores atrapalham o aprendizado de máquina.

Voltando ao nosso exemplo, a característica com a qual estamos trabalhando é a altura. Neste caso, seria interessante entender se existe algum membro da família Simpson com altura muito discrepante.

Mas, isso eu consigo identificar olhando a figura 1, não?

Sim. Você é capaz de identificar isso. Mas como será que uma máquina também identifica? Vamos ver…

Através da figura 2 é possível perceber que existe uma diferença da altura de cada personagem com a média das alturas, correto? Esta diferença está sinalizada também na figura 2 com a cor azul. Se elevarmos cada diferença ao quadrado e dividirmos pelo número de personagens (novamente, 5), teremos o que chamamos de variância. A variância indica quanto (em metros) cada altura está distante da média. Esta conta está ilustrada abaixo:

Variância das alturas da família Simpson

E pra que serve a variância afinal?

A resposta para a pergunta "Temos valores discrepantes no nosso conjunto?" pode ser respondida através do desvio padrão, que é calculado a partir da variância. Ou seja, a variância serve também para calcular o desvio padrão das alturas dos integrantes da família Simpson. A raíz quadrada da variância é igual ao desvio padrão.

Desvio Padrão das alturas da família Simpson

Como interpretar o desvio padrão? O que eu faço sabendo que o desvio padrão da altura da família Simpson é 0.64 metros?

Figura 3. A tarja preta indica o Desvio Padrão. Percebemos que a altura da Maggie está abaixo desta tarja, assim como a Marge está acima desta tarja. Ou seja, a altura das duas, respectivamente está fora do padrão.

O desvio padrão nos indica um padrão para altura. Em outras palavras, qualquer valor acima da média somado ao desvio padrão ou abaixo da média subtraída do desvio padrão indica um valor "fora" do padrão. Estar "fora" do padrão indica a presença de valores discrepantes. Observando a figura 3, no nosso exemplo, percebemos que apenas as alturas da Maggie e da Marge estão fora do valor padrão, representado pela tarja preta.

Mas e a co-variância e a correlação?

Bom, até aqui, já temos bastante informação. Que tal dar uma parada para absorção de conteúdo? Podemos ter uma parte 2 que pode abordar esses conceitos…

Então, recapitulando…

  • Uma máquina não tem um cérebro e portanto, não é capaz de fazer conexões e identificar quais membros da família Simpson possui altura discrepante.
  • Podemos aplicar estatística básica como uma etapa anterior ao aprendizado de máquinas para entender o conjunto de dados disponível
  • A média indica como os dados se comportam de maneira geral. Ela é o primeiro passo para uma máquina entender se existem valores discrepantes no conjunto de dados.
  • No nosso exemplo, a variância indica o quanto cada altura está distante da altura média
  • É a partir da variância que vamos entender qual é o padrão de altura encontrado nos dados calculando o desvio padrão.

O texto ficou muito confuso? Compartilhe sugestões ou dúvidas nos comentários abaixo =)

#ficadica

Se você não tem dificuldades com o idioma inglês, tenho duas sugestões para aprofundar tais conceitos:

  • Seeing Theory é um projeto de uma universidade americana que através da biblioteca D3.js (Javascript) ilustra conceitos de estatística
  • Cartoon Guide to Statistics é um livro em quadrinhos (divertido) que também ilustra conceitos de estatística.

--

--

Andressa Sivolella

Engenheira no mercado de tecnologia há mais de 15 anos. Especialista em soluções de Data & Analytics. Mestre em Inteligência Artificial. Mãe de gêmeas!