Desvendando o Teorema Central do Limite
Como o Teorema Central do Limite está presente na análise de dados e na inferência estatística
Sumário
→ Recapitulando… o que é uma distribuição normal?
→ Recapitulando… o que é uma distribuição amostral?
→ O que é o Teorema Central do Limite?
→ Exemplo de aplicação
→ O Teorema Central do Limite na inferência estatística
→ Referências
Recapitulando… o que é uma distribuição normal?
Uma das formas mais conhecidas de apresentar como um conjunto de dados está organizado, é descrevendo-o como uma curva em que a maioria dos dados está localizado em torno da média da distribuição, de forma simétrica. Desta forma, dados mais próximos a média são mais comuns e dados mais afastados da média (tanto para mais quanto para menos) são menos comuns. Isso produz uma curva em formato de sino, apresentada a seguir:
Além disso, a Figura ainda chama a atenção para alguns outros fatos sobre a distribuição normal:
- Cerca de 68% dos dados estão localizados entre a média e um desvio padrão (para mais e para menos)
- Cerca de 95% dos dados estão localizados entre a média e dois desvios padrão (para mais e para menos)
- Cerca de 99,7% dos dados estão localizados entre a média e três desvios padrão (para mais e para menos)
- A área total sob a curva totaliza 1 (um)
- Como a distribuição é simétrica, a média, a moda e a mediana são iguais
Uma outra característica desta distribuição está no formato da curva, que é determinado pela média e pelo desvio padrão (mostra o quão dispersos estão os dados em relação à média):
A Figura acima mostra que, baseado em um mesmo valor de média, conforme o desvio padrão vai diminuindo a distribuição vai se tornando mais concentrada em torno do centro, mais precisa.
Recapitulando… o que é uma distribuição amostral?
Ao retirar várias amostras aleatórias com reposição (de mesmo tamanho) de uma mesma população, pode-se calcular estatísticas de interesse (como média, desvio padrão e mediana) para cada uma das amostras, como ilustra a Figura a seguir.
Ao ser obtida a mesma estatística para cada uma das n amostras coletadas, estará formada uma distribuição amostral, que pode ser plotada em gráfico conforme apresentado abaixo.
A Figura acima trata da distribuição de todas as médias das amostras aleatórias calculadas anteriormente
O que é o Teorema Central do Limite?
Após recapitular os conceitos de distribuição normal e distribuição amostral, podemos continuar com o tema deste artigo.
O Teorema Central do Limite (TCL) é uma das leis mais indispensáveis da estatística e fundamenta a sua ideia na narrativa de que:
Independentemente da distribuição da população, a distribuição das médias de amostras aleatórias tende a se aproximar de uma distribuição normal à medida que o tamanho das amostras aumenta.
Esta propriedade permite realizar inferências sobre a população mesmo quando sua distribuição exata é desconhecida.
Como Funciona o Teorema Central do Limite?
Considere uma população com uma distribuição qualquer — podendo ser uniforme, binomial, exponencial, normal, ou qualquer outra. O TCL entra em cena já quando são retiradas as amostras da população:
- Seleção de Amostras: Ao retirar várias amostras aleatórias (com reposição) desta população, deve-se atentar para que cada uma das amostras tenha o mesmo número de observações. O TCL também afirma que, para que a distribuição das médias amostrais seja uma normal o tamanho da amostra deve ser suficientemente grande, geralmente maior ou igual a 30.
- Cálculo de Médias: São calculadas as médias de cada das amostras.
- Análise da Distribuição das Médias: Ao plotar a distribuição dessas médias de amostras, será notado que, independentemente da forma da distribuição da população, a distribuição das médias tenderá a uma forma de sino, característica da distribuição normal.
Além disso, a média da distribuição amostral das médias será igual a média da população original, mas o desvio padrão das médias amostrais será menor que o desvio padrão da população original em 1/√n, significando que a nova distribuição possui dados mais concentrados. As fórmulas a seguir resumem o racional descrito:
Exemplo de aplicação
Considere o pequeno município de Guararapes, no interior de São Paulo, no auge dos seus pouco mais de 31 mil habitantes.
Suponha que as alturas dos habitantes do município podem ser geradas a partir do seguinte código em Python:
# biblioteca para manipulação algébrica
import numpy as np
# biblioteca para análise exploratória de dados
import matplotlib.pyplot as plt
# Gerando uma população (de 31 mil observações) com distribuição uniforme
# Foi adotado que as alturas mínima e máxima são respectivamente 1,5 e 2 metros
populacao = np.random.uniform(low=1.50, high=2.0, size=31000)
# Plot da distribuição da população
plt.figure(figsize=(16, 9))
plt.hist(populacao, bins=30, color='blue', alpha=0.7)
plt.title('Distribuição das alturas da população de Guararapes')
plt.xlabel('Altura')
plt.ylabel('Frequência')
plt.show()
O código acima gera o histograma que pode ser conferido a seguir:
A Figura acima apresenta a distribuição das estaturas dos habitantes, que conforme observado, não se trata de uma normal.
Também podem ser calculados a média e o desvio padrão da população:
# Calculando a média e o desvio padrão
media_populacao = np.mean(populacao)
desvio_padrao_populacao = np.std(populacao)
# Printando os resultados
print(f"Média da distribuição original: {media_populacao:.4f}")
print(f"Desvio padrão da distribuição original: {desvio_padrao_populacao:.4f}")
Resultando em:
Com isso, seguimos para a etapa de retirar amostras aleatórias da população. Aqui, serão escolhidas amostras de três tamanhos diferentes: 5, 30 e 100 observações. Para cada um dos tamanhos amostrais, são coletadas mil amostras e calculadas a média para cada uma delas, com o objetivo de gerar três distribuições de médias de amostras aleatórias, que serão comparadas entre si.
Este raciocínio foi desenvolvido em Python conforme o código a seguir:
plt.figure(figsize=(16,9))
# Definindo os diferentes tamanhos de amostra a serem utilizados
tamanhos_amostra = [5, 30, 100]
# Criando um dicionário para armazenar os resultados
resultados = {}
# iterando para cada tamanho diferente de amostra
for n in tamanhos_amostra:
# escolhe aleatoriamente n observações da pop. e calcula a média
# o processo é repetido 1000 vezes
medias_amostrais = [np.mean(np.random.choice(populacao, size=n)) for _ in range(1000)]
# Calculando a média e desvio padrão para cada distribuição
media_medias = np.mean(medias_amostrais)
desvio_padrao_TCL = desvio_padrao_populacao/np.sqrt(n) # desvio padrão seguindo a fórmula do TCL
desvio_padrao_medias_amostrais = np.std(medias_amostrais)
# Armazenando os resultados
resultados[n] = (media_medias, desvio_padrao_TCL, desvio_padrao_medias_amostrais)
# São gerados 3 histogramas, cada um para um diferente tamanho de amostra
plt.hist(medias_amostrais, bins=30, density=True, alpha=0.5, label=f'n={n}')
plt.title('Distribuição das médias amostrais para diferentes tamanhos de amostra')
plt.xlabel('Média Amostral')
plt.ylabel('Densidade')
plt.legend()
plt.show()
No código acima, para cada tamanho de amostra foram calculados dois desvios padrão: o desvio padrão através das médias amostrais e o calculado através da fórmula do próprio TCL, para fins de comparação.
Sendo assim, foi gerado uma Figura comparando as 3 distribuições amostrais:
Pelo gráfico acima pode-se observar que, à medida que aumentamos o tamanho das amostras coletadas o formato da curva resultante vai se assemelhando à uma normal. Sendo assim, pelo TCL, as distribuições para n=30 e n=100 são distribuições normais, enquanto que para n=5 não é normal.
Também pode-se printar as médias e desvios obtidos para cada um dos tamanhos de amostras:
# Printando as médias e desvios padrão para cada tamanho de amostra
for tamanho, (media, desvio_padrao_TCL, desvio_padrao_medias_amostrais) in resultados.items():
print(f"Tamanho da amostra: {tamanho}")
print(f"Média das médias amostrais: {media:.4f}")
print(f"Desvio padrão TCL: {desvio_padrao_TCL:.4f}")
print(f"Desvio padrão das médias amostrais: {desvio_padrao_medias_amostrais:.4f}")
print()
Originando:
Ou seja, através destes resultados percebe-se o efeito prático do TCL. Conforme aumenta o tamanho da amostra:
- A média das médias amostrais se aproxima da média da população (1.7483).
- O desvio padrão obtido diretamente através das médias amostrais, np.std(medias_amostrais), se aproxima cada vez mais do obtido dividindo o desvio populacional original pela raíz quadrada do tamanho da amostra (conforme descreve o TCL)
- O desvio das médias amostrais torna-se cada vez menor, tornando a distribuição menos dispersa em relação à média.
Observação: Em situações cotidianas, como há grande dificuldade em se ter informações de toda uma população, é muito provável que não se tenha disponível a média e o desvio padrão populacional. Neste exemplo, estes parâmetros foram utilizados apenas para fundamentar o TCL.
O Teorema Central do Limite na inferência estatística
Em diversas análises na estatística deseja-se obter respostas sobre parâmetros populacionais. Diante da dificuldade de tempo e custo para mapear todos os dados de uma população, recorre-se ao uso de amostras. Uma amostra é um subconjunto da população que é mais fácil de coletar e analisar. A partir daí, são utilizadas as amostras para realizar inferências sobre a população, sendo neste quesito que o TCL desempenha um papel fundamental:
- É o TCL que permite usar as propriedades da distribuição normal para fazer inferências sobre a população
- Assim, os métodos estatísticos como intervalo de confiança e teste de hipótese podem ser utilizados para estimar parâmetros populacionais
- O TCL garante que estas técnicas permaneçam válidas mesmo quando a população não é normalmente distribuída
- Além disso, ainda há a economia de tempo e esforço ao ser possível utilizar dados de amostras
Observação: Ainda não leu o meu artigo sobre teste de hipótese? Clique no link abaixo!
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
Ainda não me segue no Medium? Aproveite e me siga para ficar sabendo toda vez que sair um artigo novo do forninho!!
LinkedIn: https://www.linkedin.com/in/edson-junior/
GitHub: https://github.com/ejunior029
Referências
- Livro: Estatística Básica — Por Wilton Bussab e Pedro Morettin
- Curso E.B.A (Estatística do Básico ao Avançado) — Por Professora Renata Biaggi
- Canal do YouTube da Profª Fernanda Maciel