ENEM — parte 2: Explorando a diferença de médias entre raças

Leonardo Sales
datacoffee
Published in
3 min readMay 11, 2024

Na primeira parte deste estudo busquei explorar os microdados do ENEM 2022 e diversas dimensões. Vimos que, aparentemente, a nota final está relacionada com diversas variáveis sócio-econômicas e também de dedicação aos estudos.

Mas entender o efeito exato de cada variável na nota não é simples, pois diversos fatores podem impactar a nota final e uns fatores também se correlacionam com outros. O grande desafio é medir o efeito de uma variável na nota controlando pelas demais variáveis. Ou seja, o efeito de uma, todas as demais constantes.

Explorando o efeito da variável Raça na nota

Por exemplo, se tomarmos isoladamente a variável raça, vemos o seguinte cenário em relação às médias gerais:

Gap entre raças — geral

A média geral entre os brancos foi de 552,14, contra 499,78 entre pretos, segundo a classificação dos microdados. Uma diferença de 52,36 pontos.

Mas essa diferença pode estar relacionada a outros fatores que também se correlacionam com raça. Por exemplo, faixa de renda. Se considerarmos a diferença média das notas entre candidatos de uma mesma faixa de renda, essa diferença cai. Por exemplo, entre candidatos com renda familiar abaixo de R$ 1,2 mil:

Gap entre raças — renda familiar menor que R$ 1,2 mil

Agora a diferença é de aproximadamente 25 pontos. Isso significa que, mesmo dentro do grupo de pessoas de baixíssima renda, brancos ainda conseguem um desempenho maior que pretos, embora com um gap menor do que na média geral.

Poderíamos focar agora no grupo de baixa renda e de escolas públicas estaduais e municipais, ou ver as diferenças apenas em escolas privadas, ou talvez por região do país, estudantes do interior ou das capitas ou inúmeras outras comparações, na tentativa de isolar o efeito raça.

Fiz aqui o seguinte exercício. Selecionei 11 variáveis do conjunto de dados, incluindo as duas variáveis que criei no primeiro estudo:

  • Condições prévias do estudante, o Índice de Condição Prévia (ICP), que combina renda familiar, formação dos pais e acesso a tecnologias (computador, celular e internet) na residência;
  • Índice de Dedicação (ID), que combina fatores relacionados ao planejamento e execução dos estudos;
  • Outros 9 indicadores: Tipo de escola (pública ou privada), tipo de dependência administrativa (estadual, municipal, federal ou privada), localização (urbana ou rural), gênero, faixa etária, município, UF, situação de funcionamento da escola e tipo de ensino.

Calculei então a média da diferença entre brancos e pretos para todas as combinações possíveis desses fatores. E fiz isso incluindo um fator de controle por vez, de forma a ver como o gap inicial converge. Este é o resultado:

Gap racial (brancos — pretos) da média de notas, a cada inclusão de variáveis de controle

Vemos que, mesmo controlando por todas essas variáveis do banco de dados, ainda persiste um gap de aproximadamente 20 pontos. Isso significa que outros fatores, não considerados, podem explicar a diferença.

Modelo de Regressão

Uma maneira mais eficaz de compreender o impacto das diversas variáveis na nota final é a partir de um modelo de regressão multivariada. Isso porque o processo matemático por trás da otimização do modelo consiste exatamente na busca por quantificar o efeito de cada uma, estando todas as demais constantes. Veremos isso na parte 3 deste estudo.

— — — — — — — — — — — — — — — — —

to be continued…

--

--

Leonardo Sales
datacoffee

Egresso das humanas, mestre em economia do setor público, apaixonado por dados, python e música, intrigado com política.