Estudo dos acidentes de trânsito brasileiro de 2019 com análise de correspondência múltipla (MCA)

Yle Severino Carvalho
Data Hackers
Published in
6 min readMar 8, 2020

1 . Introdução

“Marcus é um jovem de 23 anos, Estudante de Engenharia. Certo dia nas suas férias ele saiu para ir no cinema com seus amigos, como somente ele possui um carro passa na casa de cada um na hora de ir e buscar do filme. Indo para a casa de seus amigos ele se depara com um semáforo fechado e espera abrir, porém quando atravessa a esquina no sinal verde um motorista correndo que estava tentando passar no sinal amarelo bate em alta velocidade no seu veículo”.

Simplesmente quase impossível que exista alguém que more no Brasil e ainda não tenha tido contato com algum desastre como esse, pois por mais que a humanidade já tenha inventou vacinas que previnem doenças mortais e criado instituições que promovem a segurança das pessoas, como policiais e juízes, todavia o mesmo não pode ser dito dos automóveis, pois desde sua criação ainda permanece causando muitas mortes [1][2]

Em busca de encontrar quais são as causas e os tipos de acidentes mais perigosos que aconteceram no Brasil em 2019, foi realizado uma análise múltipla de correlações (MCA) entre as causas dos acidentes e seus resultados o banco de dados de incidentes rodoviários da polícia rodoviária federal.

2. Metodologia

Para fazer a análise primeiramente foi feito um estudo simples de frequência entres os tipos de acidentes e sua respectiva letalidade, para que assim seja selecionado os tipos de acidentes que não são muito perigosos e os que são, pois assim além de melhorar a visualização na MCA é filtrado causas de acidente muito ambíguas como “falta de atenção do condutor”.

A MCA é uma análise técnica para dados categóricos, ou seja dados não numéricos, que consegue detectar correlações entre múltiplos e representá-las em um plano cartesiano, porém para fazer isso é perdido parte da informação dos dados, no estudo foi seguido a regra de kaiser e mantido mais de 80% da informação.

3. Limpeza de dados

Os dados foram óbitos no site da polícia rodoviária federal, neles possuem quase 68 mil casos de acidentes sendo, que 51 mil possuem vítimas Feridas, 11 mil Sem vítimas e 4 mil casos letais e 30 colunas de informações, que são desde cidades, coordenadas dos acidentes a condições meteorológicas e horários, mas as que eu utilizei foram:

causa_acidente→Identificação da causa principal do acidente. Neste conjunto de dados são excluídos os acidentes com a variável causa principal igual a “Não”.

tipo_acidente→Identificação do tipo de acidente. Ex.: Colisão frontal, Saída de pista, etc. Neste conjunto de dados são excluídos os tipos de acidentes com ordem maior ou igual a dois. A ordem do acidente demonstra a sequência cronológica dos tipos presentes na mesma ocorrência.

classificação_acidente→Classificação quanto à gravidade do acidente: Sem Vítimas, Com Vítimas Feridas, Com Vítimas Fatais e Ignorado.

Para encontrar os acidentes mais perigosos foi cruzado o tipo_acidente com a classificacao_acidente:

Tabela retirada utilizando a função crosstab do pandas em Python.

Pela analise da tabela é possível retirar de informação:

  • 76% dos acidentes possuem vitimas feridas, 7% possuem vitimas fatais e 17,3% não possuem vitimas;
  • Atropelamento de animal, Capotamento, Colisão com objeto em movimento, Colisão com objeto estático, colisão lateral, Engavetamento Saída de leito carroçável, Tombamento seguem essa proporção;
  • Colisão frontal e atropelamento de pedestres não seguem essa proporção, sendo que 28% possuem vitimas fatais, 1,27% não possuem vitimas e 71% de vitimas feridas
  • Queda de ocupante de veículo cerca de 96% dos casos geram vitimas feridas
  • Incêndio 95% sem vitimas
  • Derramamento de carga não segue a proporção, tende a quase não ter vitimas
  • Incêndio tende a não ter vitimas

De acordo com os dados retirado da tabela foi estimado uma escala de perigo de cada acidente de 1 a 5, sendo que 1 é o menos perigoso.

  1. Incêndio
  2. Derramamento de carga
  3. Atropelamento de animal, Capotamento, Colisão com objeto em movimento, Colisão com objeto estático, colisão lateral, engavetamento Saída de leito carroçável, Tombamento
  4. Queda de ocupante de veículo
  5. Colisão frontal e atropelamento de pedestres

Assim foi removido os itens que estão com nível 3 de perigo, e foi testado a variância de cada componente principal da MCA.

Seguindo a regra de Kaiser foi mantido as 4 primeiras dimensões totalizando 85% de variação.

4. Resultados

Foi utilizado as variáveis de tipo_de_acidente e causa_de_acidente (laranja ou azul) ativas na analise e as causas_de_acidente (verde) como variáveis suplementares, portanto as causas de acidente não influenciarão na localidade dos pontos da visualização, contudo servem para validação.

O cos² é um dado muito importante de ser visualizado, dado que ele define a qualidade das variáveis ativas em determinada dimensão. Relembrando um pouco o critério de Kaiser se o cos² estiver muito baixo significa que possivelmente essa projeção possui pouca informação e portanto deve ser descartada.

Entender um plot de MCA é bem simples, dado que a localidade das variáveis diz a correlação entre elas, exemplo nessa visualzão das dimensões 1 e 2 sem vítimas está próximo de incêndio, portanto sua correlação é alta, já os acidentes colisão frontal, atropelamento de pedestres e Derramamento de cargas devem ser descartados devido ao baixo valor de cos2

Pode ser inferido que:

  • Queda de ocupante de veículo se relaciona com, Avarias e/ou desgaste excessivo no pneu, Pista Escorregadia, Animais na Pista, Não guardar distância de segurança, Defeito na via e um pouco com Agressão Externa e Mal súbito.
  • Incêndio se relaciona com Fenômenos da natureza, Defeito mecânico no veiculo
  • Com Vitimas Feridas relaciona Queda de ocupante
  • Vitimas Fatais relacionam com Ultrapassagem indevida

Obs. Queda de ocupante se deve a acidente relacionados com motos.

No eixo 2 e 3 é possível ver que atropelamento de pedestre e colisão frontal são bem representados e portanto pode-se inferir que:

  • Colisão frontal correlaciona um pouco com vitimas fatais, ultrapassagem Indevida, condutor dormindo, desobediência às normas de trânsito pelo condutor, Velocidade Incompatível e um pouco com ingestão de álcool
  • Atropelamento de Pedestre correlaciona um pouco com vitimas fatais , Falta de atenção do Pedestre, Desobediência as normas de transito pelo pedestre, além de ingestão de álcool e/ou substancias psicoativas pelo pedestre
  • Vitimas Fatais relaciona com deficiência ou não acionamento do sistema de iluminação ou sinalização do veiculo, que relaciona um pouco com atropelamento de pedestres, mas por está mais próximo de vitimas fatais demonstra que é uma causa de acidente bem grave

Na ultima visualização só pode-se relacionar o obvio de que derramamento de carga correlaciona com carga em excesso.

5. Conclusão

Ignorando as correlações óbvias como Atropelamento de pessoas e falta de atenção do pedestre é possível retirar informações bem interessantes da analise, como o quão importante é a sinalização de setas e/ou faróis, pois essa causa de atropelamento é a mais letal de todas.

Outro dado interessante foi ver o quão grave é dirigir com sono, ou utilizar drogas para se manter acordado, pois está causa de acidente está altamente relacionada com colisões frontais, que como poder ser visto na analise é um dos acidentes mais perigosos nas rodovias.

Um resultado bem inusitado foi dos acidentes ligados a incêndio possuírem uma taxa de mortos bem baixa

Sem mais delongas, os notebooks com todo o código que utilizei para minha análise encontra-se aqui, espero que tenha contribuído pelo menos um pouco para seu conhecimento, e se vc possui alguma dúvida ou dica eu adoraria ler ela no seu comentário.

--

--