Análise exploratória sobre índices de suicídio

Luis Meazzini
Ensina.AI
Published in
7 min readApr 18, 2019

Considerações iniciais

Parece que a cada ano que se passa, suicídios são cada vez mais comuns. Eu mesmo, que tenho apenas 25 anos, tive um conhecido que durante a faculdade suicidou. Durante a semana, estava passeando pelo Kaggle, e achei um conjunto de dados sobre suicídios. Na hora pensei em fazer uma pequena análise e tentar entender melhor o assunto. Então agora, neste artigo, apresento esta breve análise.

Caso alguém também queira “brincar” com este conjunto de dados só pegar o kaggle pelo link.

Não irei colocar todo o código que utilizei para fazer as visualizações (está no GitHub) e ir fazendo perguntas que talvez o conjunto de dados possa responder. Mas antes de tentar entender os dados, vou uma breve explicação do que está nestes dados.

Descrição dos dados

Cada dado no conjunto de dados representa um ano, de um país, uma determinada faixa de idade, e um sexo. Por exemplo, no país Brasil no ano de 1985, com mais de 75 anos, suicidaram 129 homens.

O conjunto de dados apresenta 10 atributos. Sendo estes:

  • País: país do dados do registro;
  • Ano: ano dos dados do registro;
  • Sexo: Sexo (homem ou mulher);.
  • Idade: Faixa de idade dos suicidas, idades divididas em seis faixas;
  • Suicides_no: quantidade de suicidas;
  • População: população deste sexo, nesta faixa de idade, neste país e neste ano;
  • Suicides/100k pop: Razão entre a quantidade de suicidas e a população / 100k;
  • GDP_for_year: PIP do país no ano quem questão;
  • GDP_per_capita: razão entre o PIP do país e sua população;
  • Generation: Geração dos suicidas em questão, sendo possíveis 6 diferentes categorias.

As possíveis faixas de geração são:

df['age'].unique()array(['15-24 years', '35-54 years', '75+ years', '25-34 years',
'55-74 years', '5-14 years'], dtype=object)

E as possíveis gerações são:

df['generation'].unique()array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
'Millenials', 'Generation Z'], dtype=object)

Originalmente, o conjunto de dados apresentava o IDH dos países, mas a grande maioria do valores eram nulos. Como quero analisar se a influencia do desenvolvimento de um país na quantidade de suicídios, acrescentei uma coluna nos dados. Fui ao site, e peguei o nome de todos países considerados de primeiro e segundo mundo, classifiquei os dados do nosso dataset usando estas informações em três categorias. Primeiro, segundo e terceiro mundo.

Frist_world = ['United States', 'Germany', 'Japan', 'Turkey', 'United Kingdom', 'France', 'Italy', 'South Korea',
'Spain', 'Canada', 'Australia', 'Netherlands', 'Belgium', 'Greece', 'Portugal',
'Sweden', 'Austria', 'Switzerland', 'Israel', 'Singapore', 'Denmark', 'Finland', 'Norway', 'Ireland',
'New Zeland', 'Slovenia', 'Estonia', 'Cyprus', 'Luxembourg', 'Iceland']
Second_world = ['Russian Federation', 'Ukraine', 'Poland', 'Uzbekistan', 'Romania', 'Kazakhstan', 'Azerbaijan', 'Czech Republic',
'Hungary', 'Belarus', 'Tajikistan', 'Serbia', 'Bulgaria', 'Slovakia', 'Croatia', 'Maldova', 'Georgia',
'Bosnia And Herzegovina', 'Albania', 'Armenia', 'Lithuania', 'Latvia', 'Brazil', 'Chile', 'Argentina',
'China', 'India', 'Bolivia', 'Romenia']
country_world = []
for i in range(len(df)):

if df['country'][i] in Frist_world:
country_world.append(1)
elif df['country'][i] in Second_world:
country_world.append(2)
else:
country_world.append(3)
df['country_world'] = country_world

Agora, finalmente, vamos à análise exploratória.

Explorando os dados

Vou tentar fazer perguntas, e responde-las de forma quantitativa, através de gráficos. Toda análise feita nesta parte, se refere a todo o mundo.

Ao passar dos anos, a quantidade de suicídios aumentou?

Como os dados vão até 2016, este gráfico leva a entender que quando os dados foram coletados, 2016 estava no começo. E também, podemos ver que de 1988 até 1990 a quantidade de suicídios aumentou muito. De resto, a quantidade parece ter crescido de forma esperada e com uma leve queda nos últimos anos, talvez devido as mais diversas campanhas de prevenção.

Quem suicida mais? Adolescentes? Adultos? Idosos?

Bem, parece que definitivamente adultos suicidam mais, mas e o motivo disto? Pelos dados, não temos informação para responder. Mas imagino que seja uma idade comum para casos de depressão e afins.

E o sexo? Quem suicida mais, homens ou mulheres?

Definitivamente, homens. Será que este padrão se repete para todas faixas etárias?

Sim, homens suicidam consideravelmente mais que mulheres, até mesmo antes dos 14 anos.

Existem países que mais pessoas suicidam?

Como existe países mais populosos têm uma tendência natural de haverem mais suicidas, usei o campo de quantidade de suicidas normalizado pela população do país. Desta forma, a quantidade de suicidas é medida a cada 100 mil habitantes.

Apesar das diferenças nas quantidades de suicídios não serem tão grandes, existem países que se destacam, como a Russia e Lituânia.

E a geração, também influência em algo?

As gerações boomers, silent e X são compostas de pessoas nascidas até 1976, estes são os que mais estiveram na faixa de idade onde mais ocorrem suicídios. Apenas comprovando o gráfico que trata das faixas de idade.

Mas e o desenvolvimento de um país, muda alguma coisa?

Países mais desenvolvidos apresentam taxa de suicídios maiores. Isto pode ser justificado por várias teorias, como o trabalho excessivo, questões religiosas, índices de doenças psiquiátricas, etc.

Quanto a renda per capita, existe influência?

Pelo visto, em lugares muito pobres, existe muito suicídio. A medida que a renda vai aumentando, o suicídio decresce junto. Mas a partir de um ponto (~20k), o suicídio tende a aumentar novamente. Aparentemente os dados apresentam alguma falha na faixa dos 60k.

Existe correlação entre os atributos do conjunto de dados?

As correlações mais altas estão entre população e PIB, já que países ricos em geral são mais populosos. Também entre o número de suicídios e a população, já que se existem mais pessoas, logo mais suicídios. A correlação entre o PIB por capita e o mundo do país se dá de forma negativa já que os países de primeiro mundo tem uma renda maior, e de terceiro mundo, renda menor.

A distribuição da quantidade de suicídios varia quando trocamos de país?

Escolhi alguns dos países cujos índices podem revelar algo interessante. Note que usei a quantidade de suicídios por 100k habitantes. No caso, a distribuição da quantidade de suicídios no Brasil está aparentemente melhor que no restante dos países, temos uma baixa quantidade de outliers, e uma distribuição concentrada em valores baixos em comparação com os demais países. Enquanto países como a Russia, tem um distribuição bem mais dispersa e vários pontos com alta quantidade de suicídios.

Dados brasileiros

Como o Brasil está nestes dados, e como sou brasileiro, tenho um interesse particular no índice do suicídios do Brasil. Então vou tentar dar uma analisada nos índices específicos deste país.

Como varia o número de suicídios no tempo?

Aparentemente, bem diferente do resto do mundo. Como o Brasil é um país considerado em desenvolvimento, as taxas de suicídios que se pareciam mais com de países mais pobres, estão subindo para chegar a de países mais desenvolvidos.

No Brasil, as pessoas adultas também tem taxas de suicídio maiores?

Aparentemente, a faixa de idade 35–54 que é a recordista em suicídios mundialmente, não acontece no Brasil. Esta geração é a dos Boomers.

Conclusão

Neste artigo, a ideia é uma análise exploratória quantitativa de dados sobre quantidade de suicídio. No geral, podemos ver que os dados mostram o que vemos em jornais, televisão e afins, ao meu ver a maioria das conclusões que cheguei já eram previsíveis; apenas imaginava uma quantidade maior de adolescentes suicidando, o que não foi visto nos dados.

Procurei não justificar os gráficos por motivos demográficos, sociais e econômicos mantendo o artigo neutro. Mas podem haver diversas explicações para os números disponibilizados.

Uma das reflexões em forma de frase pronta e paradoxal muito comum é:

Quanto mais suicidas, menos suicidas

Creio que, a partir do exposto, pode-se averiguar quantitativamente a veracidade desta afirmação.

Todo o código utilizado para gerar os gráfico, conjunto de dados, e mais algumas coisas estão disponíveis no GitHub.

Edits:

  • Edição 1 — Acrescentado Boxplot da distruição da quantidade de suicídios / 100k população em alguns países do mundo.

--

--

Luis Meazzini
Ensina.AI

Machine Learning and Software Engineer Leader at Genesis, Masters in Computer Science. Philosophy and Anthropology enthusiast.