ENEM — parte 1: Desempenho do aluno x Perfil sócio-econômico

Leonardo Sales
datacoffee
Published in
9 min readMay 11, 2024

Comecemos com um choque de realidade.

24.534 alunos que se inscreveram no ENEM 2022 não possuiam sequer um único banheiro dentro de casa. Vamos seguir a trajetória deles no exame.

  • Desse grupo inicial, 9.338 sequer compareceram às provas, restando 15.196
  • Desses, 1.305 faltaram ou foram eliminados em algum dos grupos de provas, restando 13.890
  • Desses, 1.321 não fizeram uma redação em condições de ser avaliada (estava em branco, com cópia do enunciado, dentre outros problemas), restando 12.569
  • Ainda assim, 20 desses tiveram nota 0 na redação, restando 12.549
  • Desses, 9.582 não obtiveram o mínimo de 450 nas provas objetivas, necessário para entrar na disputa das vagas do Sisu. Restam 2.967
  • Desse grupo, 404 obtiveram média geral acima de 630, patamar em que começa a aparecer alguma chance de obter uma vaga nas universidades
  • Desses, 16, ou 0,065%, ficaram com média acima de 750, patamar que já garante vaga em uma boa parte dos cursos e universidades

Para efeitos de comparação, foi 56 vezes maior o percentual de quem atingiu esse patamar de nota dentre os candidatos que possuiam 4 ou mais banheiros em casa.

Este estudo é sobre como fatores sócio-econômicos estão relacionados com o desempenho no ENEM.

Dados

Baixei os microdados do ENEM 2022¹, no site do INEP. Esses dados são compostos dos seguintes grupos de informações:

  • Perfil sócio-econômico dos alunos
  • Hábitos de estudo (em 2022, com foco nas condições durante a pandemia)
  • Provas

Código completo aqui.

Perfil dos candidatos e nota

Para essas visões vou considerar como nota final a média das notas das 4 provas objetivas, mais a redação. Esta é a distribuição da nota final dentre os 2.508.199 alunos que compareceram às provas:

Histograma das notas — ENEM 2022

Perceba que a grande parte das notas está entre 300 e 700, com poucos casos fora desse intervalo e uma grande concentração em torno da média, que foi de 525,65. A maior nota foi 855,98.

5.119 candidatos tiraram zero.

Vamos ver o comportamento da nota a partir de algumas características dos candidatos.

-> Número de banheiros em casa

-> Número de automóveis

-> Número de quartos na residência

-> Renda familiar

-> Perfil de notas por localidade

Vejamos a média geral de notas por estado:

Abaixo, os municípios brasileiros estão coloridos segundo a média de nota dos alunos. Cores mais próximas do amarelo indicam média maior.

Uma forma de melhor visualizar a diferença entre as médias é colorir os municípios segundo a condição da nota média ser superior a 500:

Há uma clara diferença entre os desempenhos no sul e sudeste e as demais regiões, principalmente a norte.

Essa discrepância continua mesmo se considerarmos apenas as escolas públicas estaduais e municipais:

Isso parece mostrar que a diferença de nota tem uma influência regional independentemente do tipo de escola. Aprofundaremos isso mais pra frente.

-> Perfil do Top 100

Se tomarmos apenas as 100 maiores notas, temos tipicamente o seguinte perfil:

  • Homens (70%)
  • Brancos (86%)
  • Renda familiar acima de R$ 10,9 mil (74%)
  • Estudou em escola particular (88%), localizada em zona urbana (100%)

-> Perfil das 100 menores notas

dentre as piores notas (desconsiderei faltantes), encontramos um perfil bem diferente:

  • Quanto ao gênero, não há preponderância (53% mulheres, 47% homens)
  • A distribuição racial mostra 46% de pardos, 36% de brancos e 12% de pretos
  • 58% com renda familiar abaixo de R$ 1,8 mil.

Índice de Condição Prévia — ICP

Como vimos, há inúmeros indicadores sócio-econômicos presentes na base de microdados do ENEM, em decorrência do questionário que é preenchido pelos candidatos no momento da inscrição.

Vimos alguns isoladamente, mas entendo que para termos uma visão mais consolidada de cada aluno podemos agregar alguns desses indicadores e visualizar o perfil dos alunos sob algumas perspectivas mais claras.

Vou construir aqui um indicador agregado, denominado Índice de Condição Prévia (ICP), de maneira a mensurar o quão favorável estaria a condição do aluno para a realização do exame, considerando fatores não relacionados ao estudo em si.

O índice tem 3 componentes:

1) Componente de renda familiar: Fica numa escala 1 a 5, considerando:

  • Renda até R$ 1818: 1
  • Até R$ 4848: 2
  • Até 10908: 3
  • Até 24240: 4
  • Acima de 24240: 5

2) Componente de estrutura residencial: combinando os indicadores de número de computadores e celulares na casa e da existência de internet. Também ficam numa escala de 1 a 5, desta forma:

  • Vou atribuir um ponto para cada computador existente na residência
  • 0,5 ponto para cada celular
  • 2,5 pontos para existência de internet na residência
  • Considerando a distribuição geral desses pontos entre o universo de alunos, atribuirei um valor entre 1 e 5, considerando o respectivo quintil da distribuição onde se encontra cada aluno.

3) Componente de histórico familiar: combinei os 2 indicadores de formação do pai e mãe:

  • O nível de formação corresponde a até que série ou grau de formação o pai ou a mão concluíram. São 7 níveis (sem estudo, abandonou os estudos antes de completar a primeira metade do ensino fundamental, abandono antes da segunda metade do ensino fundamental, fundamental completo, ensino médio completo, graduação e pós), que receberam valores de 0 a 6.
  • Esse índice primeiramente calcula a soma dos níveis (variando de 0 a 12). Após isso, reduzi a uma escala de 1 a 5, considerando o respectivo quintil da distribuição onde se encontra cada aluno.

Desta forma, o indicador ICP consolidado reflete a renda familiar, a formação dos pais e o acesso a itens tecnológicos na residência. Será a soma dos 3 componentes, ficando numa escala de 3 a 15.

Vejamos um exemplo do ICP calculado abaixo:

Identificador do aluno: 210055778089
- Faixa de Renda: Até R$ 1.212,00
(1 ponto no 1º componente, numa escala de 1 a 5)
- Celulares na residência: Sim, quatro ou mais
- Computadores na residência: Não
- Internet na residência: Sim
(3 pontos no 2º componente, numa escala de 1 a 5)
- Formação do pai: Completou o Ensino Médio, mas não completou a Faculdade
- Formação da mãe: Completou o Ensino Médio, mas não completou a Faculdade
(3 pontos no 3º componente, numa escala de 1 a 5)
Índice de Condição Prévia: 7, numa escala de 3 a 15

Esta é a relação entre a nota média geral e os níveis de ICP:

Um ponto interessante: a discrepância de notas médias entre o nível mais baixo e mais alto do ICP é razoavelmente mais significativo na prova de matemática do que na de humanidades:

Vejamos como o ICP varia entre as regiões do país:

ICP por município

Claramente, a própria condição prévia dos alunos também é melhor nas regiões sul e sudeste, o que já mostra que deve estar correlacionada com as notas, vide mapas anteriores.

Esse padrão persiste se considerarmos apenas as escolas públicas estaduais e municipais:

ICP por município — somente escolas públicas

Isso mostra que o perfil de condição prévia do aluno (os recursos a que têm acesso dentro de casa) já é bem diferente entre um aluno do nordeste e um aluno do sul/sudeste. Aqui, em resumo, vejamos o ICP médio por região, considerando inclusive o cenário de estudantes de escolas públicas:

E as notas por região refletem essa desigualdade:

Vejamos também se há diferença considerando grupos raciais:

Variação do Índice de Condição Prévia do aluno e da nota média, por grupo racial

Vemos que tanto o ICP quanto a nota média parecem variar a depender do grupo racial. Será que a nota média varia em função da raça independente mente do ICP? Em outras palavras, pessoas dentro de um mesmo nível de condição prévia teriam notas diferentes em função da raça?

Vejamos.

Nota média por raça — variações por ICP

Parece que as diferenças de nota média entre raças permanecem, embora se suavizem, ao se controlar pelo indicador de condição prévia (ICP), valendo lembrar que esse indicador reflete a renda familiar, a formação dos pais e o acesso a itens tecnológicos na residência. Aparentemente as diferenças entre raça são mais acentuadas em valores de ICP menores.

Buscado isolar o efeito raça na média de nota, vamos considerar também as comparações acima apenas entre estudantes de escolas públicas estaduais e municipais:

Nota média por raça — variações por ICP — Escolas públicas

Aparentemente as diferenças se suavizam um pouco mais, embora ainda permaneçam. Vejamos abaixo a diferença média de pontos entre brancos e pretos, para os diferentes níveis de ICP:

O que o gráfico acima parece mostrar é que o controle pela variável de condição prévia (renda familiar, formação dos pais e acesso a recursos tecnológicos em casa) suaviza a diferença de média entre as raças mas não a elimina. Isso indica que outras variáveis, não consideradas ainda, podem ser responsáveis pelo gap restante.

Vamos aprofundar esse aspecto racial numa outra parte desse trabalho. Por enquanto, iremos introduzir uma outra variável na nossa análise exploratória: os hábitos de estudo.

Hábitos de estudo

O questionário do ENEM também aborda aspectos aos hábitos de estudo dos alunos no ano anterior ao exame. Uma questão problemática desses dados é que a resposta a essa parte do questionário não é obrigatória, então temos repostas apenas de aproximadamente 28% dos candidatos.

Inicialmente, vamos considerar como Indicador de Dedicação (ID) um índice que vai levar em conta as respostas a 3 perguntas do questionário:

  • Nível de planejamento de estudos (numa escala de 1 a 4)
  • Nível de organização de material (escala de 1 a 4)
  • Frequência de atividades de estudo (escala de 1 a 4)

Nosso ID será a soma dos 3, variando, portanto, de 3 a 12.

Vejamos inicialmente a variação da nota geral pelo ID:

Como a média de nota varia em função do ID (Índice de Dedicação)

Agora, vejamos a relação entre ICP e ID:

Variação do ID (dedicação) em função do ICP (condição prévia)

Hábitos de estudo podem interferir positivamente, mesmo dentro de grupos com perfil sócio-econômico desfavorável?

Vamos calcular, para cada nível de ICP (condição prévia), a diferença entre a média de nota dos que têm ID (dedicação) máximo e mínimo:

Percebemos que o ganho obtido a partir de uma maior dedicação é bem pequeno dentro do grupo dos alunos com condições sociais muito baixas, e vai aumentando na medida em que elevamos a condição prévia do aluno. A diferença das médias de notas chega a quase 90 pontos, nas classes de ICP mais altas, ou seja, nessas faixas, a dedicação individual parece fazer uma diferença bem mais significativa.

Vale lembrar que a "dedicação" é medida aqui pela percepção do próprio aluno em relação aos seus estudos, o que pode estar sujeito a imprecisões na própria forma como cada aluno enxerga e avalia o próprio esforço.

Heróis

Vamos estabelecer aqui critérios para um grupo de estudantes, o qual denominaremos grupo vulnerável, que reunirá as piores condições possíveis, segundo os indicadores que criamos somados a alguns trazidos dos microdados. Este grupo será composto pelos alunos de escolas públicas estaduais ou municipais, localizadas em zona rural, e que possuem um Indicador de Condição Prévia (ICP, acima explicado) baixíssimo, de no máximo 4.

Pois bem, o Grupo Vulnerável correspondeu a 8.080 estudantes que prestaram o ENEM em 2022. Desse grupo, apenas seis estudantes (ou 0,007%) conseguiram obter mais de 700 pontos na média geral. São heróis.

Um deles, vamos denominá-lo 210056852546, que é o número de sua inscrição, obteve 742,02 na média geral, vem de família de baixa renda (menos de R$ 1,2 mil a renda familiar total) e estudou numa escola estadual em zona rural. Caso similar a outros 5 estudantes.

Para efeito de comparação, se tomarmos um segundo grupo, formado por estudantes de escolas privadas ou federais, localizadas em zonas urbanas, e de alta renda familiar (acima de R$ 18 mil), a probabilidade de um aluno obter mais de 700 na média foi 25%, um percentual 357 vezes maior do que no grupo vulnerável.

______________________________________________

to be continued…

Acompanhe os desdobramentos desse estudo:

  • Parte 2: Buscando isolar o o efeito da variável raça
  • Parte 3: Construindo um modelo de regressão para entender o efeito das variáveis na nota final

Notas

[1] Considerei a base do ENEM 2022 especialmente interessante porque inclui um questionário relacionado a hábitos de estudo, o que não ocorre, por exemplo, nos dados de 2023.

--

--

Leonardo Sales
datacoffee

Egresso das humanas, mestre em economia do setor público, apaixonado por dados, python e música, intrigado com política.