Desvendando o Teorema Central do Limite

Como o Teorema Central do Limite está presente na análise de dados e na inferência estatística

Edson Junior
Data Hackers

--

Fonte: https://www.flaticon.com/br/icone-gratis/sino_92412

Sumário

→ Recapitulando… o que é uma distribuição normal?
→ Recapitulando… o que é uma distribuição amostral?
→ O que é o Teorema Central do Limite?
→ Exemplo de aplicação
→ O Teorema Central do Limite na inferência estatística
→ Referências

Recapitulando… o que é uma distribuição normal?

Uma das formas mais conhecidas de apresentar como um conjunto de dados está organizado, é descrevendo-o como uma curva em que a maioria dos dados está localizado em torno da média da distribuição, de forma simétrica. Desta forma, dados mais próximos a média são mais comuns e dados mais afastados da média (tanto para mais quanto para menos) são menos comuns. Isso produz uma curva em formato de sino, apresentada a seguir:

Fonte: Próprio autor

Além disso, a Figura ainda chama a atenção para alguns outros fatos sobre a distribuição normal:

  • Cerca de 68% dos dados estão localizados entre a média e um desvio padrão (para mais e para menos)
  • Cerca de 95% dos dados estão localizados entre a média e dois desvios padrão (para mais e para menos)
  • Cerca de 99,7% dos dados estão localizados entre a média e três desvios padrão (para mais e para menos)
  • A área total sob a curva totaliza 1 (um)
  • Como a distribuição é simétrica, a média, a moda e a mediana são iguais

Uma outra característica desta distribuição está no formato da curva, que é determinado pela média e pelo desvio padrão (mostra o quão dispersos estão os dados em relação à média):

Fonte: Próprio autor

A Figura acima mostra que, baseado em um mesmo valor de média, conforme o desvio padrão vai diminuindo a distribuição vai se tornando mais concentrada em torno do centro, mais precisa.

Recapitulando… o que é uma distribuição amostral?

Ao retirar várias amostras aleatórias com reposição (de mesmo tamanho) de uma mesma população, pode-se calcular estatísticas de interesse (como média, desvio padrão e mediana) para cada uma das amostras, como ilustra a Figura a seguir.

Fonte: Próprio autor

Ao ser obtida a mesma estatística para cada uma das n amostras coletadas, estará formada uma distribuição amostral, que pode ser plotada em gráfico conforme apresentado abaixo.

Fonte: Próprio autor

A Figura acima trata da distribuição de todas as médias das amostras aleatórias calculadas anteriormente

O que é o Teorema Central do Limite?

Após recapitular os conceitos de distribuição normal e distribuição amostral, podemos continuar com o tema deste artigo.

O Teorema Central do Limite (TCL) é uma das leis mais indispensáveis da estatística e fundamenta a sua ideia na narrativa de que:

Independentemente da distribuição da população, a distribuição das médias de amostras aleatórias tende a se aproximar de uma distribuição normal à medida que o tamanho das amostras aumenta.

Esta propriedade permite realizar inferências sobre a população mesmo quando sua distribuição exata é desconhecida.

Como Funciona o Teorema Central do Limite?

Considere uma população com uma distribuição qualquer — podendo ser uniforme, binomial, exponencial, normal, ou qualquer outra. O TCL entra em cena já quando são retiradas as amostras da população:

  1. Seleção de Amostras: Ao retirar várias amostras aleatórias (com reposição) desta população, deve-se atentar para que cada uma das amostras tenha o mesmo número de observações. O TCL também afirma que, para que a distribuição das médias amostrais seja uma normal o tamanho da amostra deve ser suficientemente grande, geralmente maior ou igual a 30.
  2. Cálculo de Médias: São calculadas as médias de cada das amostras.
  3. Análise da Distribuição das Médias: Ao plotar a distribuição dessas médias de amostras, será notado que, independentemente da forma da distribuição da população, a distribuição das médias tenderá a uma forma de sino, característica da distribuição normal.

Além disso, a média da distribuição amostral das médias será igual a média da população original, mas o desvio padrão das médias amostrais será menor que o desvio padrão da população original em 1/√n, significando que a nova distribuição possui dados mais concentrados. As fórmulas a seguir resumem o racional descrito:

Fonte: Próprio autor

Exemplo de aplicação

Considere o pequeno município de Guararapes, no interior de São Paulo, no auge dos seus pouco mais de 31 mil habitantes.

Fonte: http://guararapes.wikimapia.org/photos/

Suponha que as alturas dos habitantes do município podem ser geradas a partir do seguinte código em Python:

# biblioteca para manipulação algébrica
import numpy as np

# biblioteca para análise exploratória de dados
import matplotlib.pyplot as plt

# Gerando uma população (de 31 mil observações) com distribuição uniforme
# Foi adotado que as alturas mínima e máxima são respectivamente 1,5 e 2 metros
populacao = np.random.uniform(low=1.50, high=2.0, size=31000)

# Plot da distribuição da população

plt.figure(figsize=(16, 9))
plt.hist(populacao, bins=30, color='blue', alpha=0.7)
plt.title('Distribuição das alturas da população de Guararapes')
plt.xlabel('Altura')
plt.ylabel('Frequência')
plt.show()

O código acima gera o histograma que pode ser conferido a seguir:

Fonte: Próprio autor

A Figura acima apresenta a distribuição das estaturas dos habitantes, que conforme observado, não se trata de uma normal.

Também podem ser calculados a média e o desvio padrão da população:

# Calculando a média e o desvio padrão
media_populacao = np.mean(populacao)
desvio_padrao_populacao = np.std(populacao)

# Printando os resultados
print(f"Média da distribuição original: {media_populacao:.4f}")
print(f"Desvio padrão da distribuição original: {desvio_padrao_populacao:.4f}")

Resultando em:

Fonte: Próprio autor

Com isso, seguimos para a etapa de retirar amostras aleatórias da população. Aqui, serão escolhidas amostras de três tamanhos diferentes: 5, 30 e 100 observações. Para cada um dos tamanhos amostrais, são coletadas mil amostras e calculadas a média para cada uma delas, com o objetivo de gerar três distribuições de médias de amostras aleatórias, que serão comparadas entre si.

Este raciocínio foi desenvolvido em Python conforme o código a seguir:

plt.figure(figsize=(16,9))

# Definindo os diferentes tamanhos de amostra a serem utilizados
tamanhos_amostra = [5, 30, 100]

# Criando um dicionário para armazenar os resultados
resultados = {}

# iterando para cada tamanho diferente de amostra
for n in tamanhos_amostra:
# escolhe aleatoriamente n observações da pop. e calcula a média
# o processo é repetido 1000 vezes
medias_amostrais = [np.mean(np.random.choice(populacao, size=n)) for _ in range(1000)]

# Calculando a média e desvio padrão para cada distribuição
media_medias = np.mean(medias_amostrais)
desvio_padrao_TCL = desvio_padrao_populacao/np.sqrt(n) # desvio padrão seguindo a fórmula do TCL
desvio_padrao_medias_amostrais = np.std(medias_amostrais)

# Armazenando os resultados
resultados[n] = (media_medias, desvio_padrao_TCL, desvio_padrao_medias_amostrais)

# São gerados 3 histogramas, cada um para um diferente tamanho de amostra
plt.hist(medias_amostrais, bins=30, density=True, alpha=0.5, label=f'n={n}')

plt.title('Distribuição das médias amostrais para diferentes tamanhos de amostra')
plt.xlabel('Média Amostral')
plt.ylabel('Densidade')
plt.legend()
plt.show()

No código acima, para cada tamanho de amostra foram calculados dois desvios padrão: o desvio padrão através das médias amostrais e o calculado através da fórmula do próprio TCL, para fins de comparação.

Sendo assim, foi gerado uma Figura comparando as 3 distribuições amostrais:

Fonte: Próprio autor

Pelo gráfico acima pode-se observar que, à medida que aumentamos o tamanho das amostras coletadas o formato da curva resultante vai se assemelhando à uma normal. Sendo assim, pelo TCL, as distribuições para n=30 e n=100 são distribuições normais, enquanto que para n=5 não é normal.

Também pode-se printar as médias e desvios obtidos para cada um dos tamanhos de amostras:

# Printando as médias e desvios padrão para cada tamanho de amostra
for tamanho, (media, desvio_padrao_TCL, desvio_padrao_medias_amostrais) in resultados.items():
print(f"Tamanho da amostra: {tamanho}")
print(f"Média das médias amostrais: {media:.4f}")
print(f"Desvio padrão TCL: {desvio_padrao_TCL:.4f}")
print(f"Desvio padrão das médias amostrais: {desvio_padrao_medias_amostrais:.4f}")
print()

Originando:

Fonte: Próprio autor

Ou seja, através destes resultados percebe-se o efeito prático do TCL. Conforme aumenta o tamanho da amostra:

  1. A média das médias amostrais se aproxima da média da população (1.7483).
  2. O desvio padrão obtido diretamente através das médias amostrais, np.std(medias_amostrais), se aproxima cada vez mais do obtido dividindo o desvio populacional original pela raíz quadrada do tamanho da amostra (conforme descreve o TCL)
  3. O desvio das médias amostrais torna-se cada vez menor, tornando a distribuição menos dispersa em relação à média.

Observação: Em situações cotidianas, como há grande dificuldade em se ter informações de toda uma população, é muito provável que não se tenha disponível a média e o desvio padrão populacional. Neste exemplo, estes parâmetros foram utilizados apenas para fundamentar o TCL.

O Teorema Central do Limite na inferência estatística

Em diversas análises na estatística deseja-se obter respostas sobre parâmetros populacionais. Diante da dificuldade de tempo e custo para mapear todos os dados de uma população, recorre-se ao uso de amostras. Uma amostra é um subconjunto da população que é mais fácil de coletar e analisar. A partir daí, são utilizadas as amostras para realizar inferências sobre a população, sendo neste quesito que o TCL desempenha um papel fundamental:

  1. É o TCL que permite usar as propriedades da distribuição normal para fazer inferências sobre a população
  2. Assim, os métodos estatísticos como intervalo de confiança e teste de hipótese podem ser utilizados para estimar parâmetros populacionais
  3. O TCL garante que estas técnicas permaneçam válidas mesmo quando a população não é normalmente distribuída
  4. Além disso, ainda há a economia de tempo e esforço ao ser possível utilizar dados de amostras

Observação: Ainda não leu o meu artigo sobre teste de hipótese? Clique no link abaixo!

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Ainda não me segue no Medium? Aproveite e me siga para ficar sabendo toda vez que sair um artigo novo do forninho!!

LinkedIn: https://www.linkedin.com/in/edson-junior/

GitHub: https://github.com/ejunior029

Referências

  1. Livro: Estatística Básica — Por Wilton Bussab e Pedro Morettin
  2. Curso E.B.A (Estatística do Básico ao Avançado) — Por Professora Renata Biaggi
  3. Canal do YouTube da Profª Fernanda Maciel

--

--