Data Science — Dados do Enem e Meritocracia

Meritocracia existe ? O sucesso depende apenas de nós ?
Uma análise dos resultados alcançados pelos participantes do enem 2018, comparado suas respectivas condições socioeconômicas.

Matheus Sandrini Rossi
Matheus Rossi
6 min readJan 7, 2020

--

O objetivo desta publicação será atingir a todos os públicos possíveis, logo embora um pouco técnico em alguns momentos, os códigos fontes utilizados não serão encontrados durante este artigo, entretanto, no final dele, deixarei o link para o github contendo esta informação.

Meritocracia — Sucesso

Final de 2019, dentre algumas sugestões de vídeos no youtube, me deparo com o seguinte conteúdo:

O segredo do sucesso EXPLICADO

Um vídeo onde o Atila Iamarino demonstra de forma bem didática e clara, que o termo meritocracia muitas vezes é usado de forma totalmente equivocada, e que o sucesso, não necessariamente depende única e exclusivamente de nós.

Para quem não for ver o vídeo (mas recomendo que assistam), vou fazer um breve (muito breve) resumo.

A educação que você recebeu, a condição financeira da sua família, a rede de contatos que você possui, e sim, a sorte, tem uma influência gigante no seu “sucesso”.

Assistam ao vídeo, é MUITO bom.

Data Science

Final de ano, também é época de férias, e para mim, época de aprendizado. Este ano (2020), decidi aprender Data Science, e o melhor método para se aprender qualquer coisa, é colocar a mão na massa (neste caso, nos dados).

Dentre tantos dados disponíveis hoje em dia de forma aberta, resolvi me desafiar e tentar alinhar o que havia compreendido do vídeo do Atila, com o dados do enem (exame nacional do ensino médio) de 2018, que estavam livres e disponíveis em formato ideal para a análise.

Dados Enem 2018

Os dados estão disponíveis no site no INEP, junto a outros datasets disponibilizados

http://download.inep.gov.br/microdados/microdados_enem2018.zip

Foram 5.513.747 inscrições no enem. Deste total, após os filtros necessários para eliminar dados nulos e inválidos, chegamos aos seguintes dados que serão utilizados nesta publicação:

tabela indicando quantidade de dados que serão utilizados neste artigo

O questionário socioeconômico é de preenchimento obrigatório para se completar a inscrição, logo todas as respostas estavam corretamente preenchidas.

Vale lembrar, que TODAS as análises deste ponto em diante, serão realizadas com base nos 3.763.797 registros, com informações completas e filtradas.

Dados importados, é hora de começarmos as análises …

De onde são os participantes do enem ?

Número de inscritos por estado

Neste gráfico, podemos perceber como SP, MG e BA influenciam de forma predominante nos resultados desta análise.

Notas médias das provas, máximas, mínimas …

Análise genérica dos dados

Algumas análises que podem ser extraídas desta simples análise:

  • Ciências Humanas tem a maior média das notas
  • Ciências da Natureza tem a pior média das notas
  • Redação foi a única prova que teve nota 1000

Estes dados já são interessantes, porém sabemos que a média nem sempre é uma boa medida a ser utilizada e que análises simples como esta escondem muitos tesouros, então, nossa missão aqui será encontra-los.

Análise geral das notas das provas

São ao total 05 diferentes notas por inscrição no enem, as quais são avaliadas de 0 a 1000. Todos os histogramas deste ponto em diante, possuem em seu eixo X valores relativos as notas, ou seja, quanto mais para a direita o gráfico estiver, melhor as notas.

Vamos analisar de forma geral, a distribuição dos dados das provas do enem, separadas por provas e redação.

histograma com as notas de cada prova do enem

Análise das notas da prova de matemática

Tendo em vista as várias análises possíveis destes dados, deste ponto em diante, será utilizado os resultados das notas da prova de matemática dos participantes.

Histograma notas de matemática

Histograma das notas de matemática

BoxPlot notas de matemática por estado

Box-Plot — Notas de matemática por estado.

O gráfico é técnico, mas resumindo a informação, podemos analisar que:

  • Existem outliers, valores discrepantes que devem ser considerados nas análises
  • Os valores possuem comportamentos diferentes por estados
  • Não existem notas entre 0 e 380

Necessário um maior entendimento das notas das provas, tendo em vista a falta de avaliações entre 0 e 380.

Análises inicias concluídas, é momento de relacionarmos os resultados da prova com o questionário socioeconômico.

Escolas Públicas x Escolas Particulares

Pode sim ser chover no molhado, porém vamos comparar os resultados das provas de matemática entre os participantes que sempre estudaram em escola pública versus participantes que sempre estudaram em escola particular.

Histograma de comparação de cenários.

Um tanto quanto claro a diferença, não ?

Renda Familiar

O formulário do enem, classifica as rendas da seguinte maneira:

Qual é a renda mensal de sua família? (Some a sua renda com a dos seus familiares.)

  • A Nenhuma renda.
  • B Até R$ 954,00.
  • C De R$ 954,01 até R$ 1.431,00.
  • D De R$ 1.431,01 até R$ 1.908,00.
  • E De R$ 1.908,01 até R$ 2.385,00.
  • F De R$ 2.385,01 até R$ 2.862,00.
  • G De R$ 2.862,01 até R$ 3.816,00.
  • H De R$ 3.816,01 até R$ 4.770,00.
  • I De R$ 4.770,01 até R$ 5.724,00.
  • J De R$ 5.724,01 até R$ 6.678,00.
  • K De R$ 6.678,01 até R$ 7.632,00.
  • L De R$ 7.632,01 até R$ 8.586,00.
  • M De R$ 8.586,01 até R$ 9.540,00.
  • N De R$ 9.540,01 até R$ 11.448,00.
  • O De R$ 11.448,01 até R$ 14.310,00.
  • P De R$ 14.310,01 até R$ 19.080,00.
  • Q Mais de R$ 19.080,00.

Para facilitar a visualização dos dados, os dados foram agrupados em 3 classes, da seguinte maneira:

  • Classe 1 → Rendas A até F
  • Classe 2 → Rendas G até L
  • Classe 3 → Rendas M até Q

E o resultado foi:

histograma por classes de renda familiar

De maneira geral, quanto maior a classe social dos participantes, maior sua probabilidade de tirar notas maiores.

Conclusão

Como a grande maioria das regras desse mundo, temos sim outliers (exceções) a essas categorias que utilizamos, porém a distribuição dos dados deixa claro a tendência de notas maiores, quando o participante tem acesso a ensino um ensino particular, ou é pertencente as classes com maiores rendas familiares do Brasil.

Isso nos deixa com algumas reflexões…

Aquela nota alta de um participante da classe 3, é mérito dele ? Ou apenas o comportamento padrão esperado ?

Aquela nota baixa de um participante da classe 1, é falta de empenho dele ? Ou o resultado das condições socioeconômicas sobre o desenvolvimento intelectual ?

Se o enem é o processo seletivo de várias instituições públicas de ensino, estamos privilegiando quem tem melhores condições financeiras ?

Até que ponto a meritocracia realmente existe, ou seria ela apenas uma palavra da moda usada para justificar a sorte que tivemos na vida ?

--

--

Matheus Sandrini Rossi
Matheus Rossi

Data Engineer, Especialista em Gestão da Qualidade,Engenharia de Produção e Engenharia de Dados. Estudante de Eng de Software e fotógrafo p/ hobby