Estatística para pessoas leigas — Parte 2

Lorena de Souza
Nov 5 · 4 min read

Fala pessoal, tudo bem?

Se você anda querendo entender o mundo de Big Data, mas não sabe nem um pouquinho de estatística, esse texto é para você. Bora lá?

Esse segundo artigo eu tentarei evitar bastante o “matematiquês” . Mas em algumas circunstância não terá como escapar. Mas vou continuar dando mais enfoque aos conceitos fundamentais da estatística e como a gente pode aplicá-los no dia a dia. Combinado?!

Esse é um artigo de continuidade em que estamos falando sobre os tópicos mais comuns e fundamentais da estatística. Parte 1 está aqui. Abaixo estão os tópicos que iremos definir:

Variância e Desvio Padrão; Grau de liberdade, Intervalo de Confiança; Teste de Hipótese, T-Student, Willcoxon; Pearson, Spearman; Correlação e Casualidade; Regressão Linear.

O primeiro ponto que vamos falar aqui é Variância e Desvio Padrão.

Variância e Desvio Padrão

Variância e Desvio Padrão são quase sinônimas, o desvio padrão existe a partir da existência da variância. O Variância é uma métrica que calcula em cima da amostra a diferença de todos os dados em relação a média aritmética.

Variância = ((media-x1)² + (media-x2)² + ... + (media-xn)²)/n-1

Desvio Padrão = variância

Muitas vezes a média não é suficiente para perceber o comportamento daquela população, então o desvio padrão nos mostra quão disperso estão os dados, quando comparado com outro desvio padrão. Além disso, quanto mais próximo de 0 for o desvio padrão, quer dizer que menos disperso aqueles dados estão.

Vamos retomar o exemplo dos aplicativos. Uma companhia aérea tem dois softwares (Artix e Brtix) para fazer check-in digitalmente e a gestora gostaria de avaliar a performance. Para isso monitorou-se o desempenho de ambos por 5 dias:

+-----------+----------+
| Dia | Artix | Brtix |
+-----------+----------+
| 1 | 200 | 100 |
| 2 | 20 | 90 |
| 3 | 2 | 102 |
| 4 | 100 | 120 |
| 5 | 20 | 100 |
+-----------+----------+

Artix:

Média = (200 + 20 + 2 + 20 + 100)/5  =  342/5  = 68,4Desvio Padrão = √(68,4 - 200)² + (68,4 - 20)² + (68,4 - 2)² +
(68,4 - 100)² + (68,4 - 20)² / (5 - 1)
Desvio Padrão = √(-131,6)² + (48,4)² + (66,4)² + (-31,6)² +
(48,4)² / (4)
Desvio Padrão = √17318,56 + 2342,56 + 4408,96 + 998,56 + 2342,56 / 4Desvio Padrão = √27411,2 / 4Desvio Padrão = √6852.8Desvio Padrão = 82.7

Brtix:

Média = (100 + 90 + 102 + 120 + 100)/5  =  512/5  = 102.4Desvio Padrão = √(102.4 - 100)² + (102.4 - 90)² + (102.4 - 102)² +
(102.4 - 120)² + (102.4 - 100)² / (5 - 1)
Desvio Padrão = √(2.4)² + (12.4)² + (0.4)² + (-17.6)² + (2.4)² / (5)Desvio Padrão = √5.76 + 153.76 + 0.16 + 309.76 + 5.76 / 5Desvio Padrão = √475.2 / 5Desvio Padrão = √118.8Desvio Padrão = 10.8

Podemos concluir que pelo desvio padrão de Brtix Software ser mais próximo de Zero do que o desvio de Artix Software, Brtix tem um comportamento mais consistente. Nos dia 1 e 4 Artix realiza muito mais check-in do que Brtix, mas Brtix se garante ao longo dos dias com consistência, ou seja, para Brtix o desvio ao longo dos dias é bem pequeno quando comparado com sua própria média. O que inclusive facilita prever o comportamento de Brtix Software na próxima semana.

Em casos que haja muito mais dados (uma grande população)do que nosso singelo exemplo, um ponto importante sobre isso também é que, dificilmente a média ou o desvio padrão da amostra serão idênticos ao da população. Para tentar aumentar essa similaridade há um recurso chamado intervalo de confiança e grau de liberdade.

Intervalo de Confiança, Grau de liberdade

O Intervalo de Confiança nada mais é do que nossa tentativa de ter certeza a respeito daquela tendência de comportamento ou tendência central da população por meio da tendência central da amostra. É impossível ter 100% de certeza olhando para uma amostra, mas estatísticos sugerem que é possível trabalhar com margens de certeza entre 95% ou até 99%. Casos que o erro é algo imperdoável geralmente se aplicam um intervalo de confiança de 99%. Caso contrário, na maioria dos casos se aplica 95% para intervalo de confiança. Algumas pessoas podem diriam que 95% de certeza não resolve seu problema, mas observe que ter 95% de certeza de algo é muito melhor do que 50% de certeza ou nem ter uma certeza mensurável.

O grau de liberdade tem a ver com o (n -1) da fórmula de desvio padrão.
- Whaaat? ='(
- Ops!
Pera. Calma.

Por definição o desvio padrão da população é geralmente maior do que o desvio padrão da amostra, já que a amostra é sempre um subconjunto dos dados da população. Para o valor do desvio padrão da amostra se parecer com o da população, algum matemático provou que retirando 1 de n eleva o valor do desvio padrão um pouco. O que seria suficiente para tornar o desvio padrão da população e da amostra mais similares. Então, na fórmula do desvio padrão da amostra tem-se um grau de liberdade de n-1.

Teste de Hipótese, T-Student, Willcoxon

Hipótese Nula: Ex.: Não vou melhorar o checkin
Hipótese teste: Ex.: Vou melhorar o checkin com esse novo software

Pearson, Spearman

….

Correlação e Casualidade

Correlação uma variável X cresce a medida que a Variável Y cresce tb.

Casualidade, por ter esse comportamento de forte correlação não quer dizer que uma é a causa da outra.

Regressão Linear

….estou no Voo produzindo. Aguarde! :D

    Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
    Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
    Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade