Investigando o naufrágio do Titanic

Márcio Ozório de Jesus
marciojesus
Published in
13 min readApr 13, 2018

--

Análise Exploratória de Dados

INTRODUÇÃO

O RMS Titanic foi um navio de passageiros britânico que começou a ser construído em 1909. Foi construído para ser o mais pesado e mais luxuoso navio da época, gerando lendas de que era supostamente “infundável”.

Sua viagem inaugural foi em 10 de Abril de 1912 e partiu de Southampton (Reino Unido) com destino a Nova York (Estados Unidos), passando por Cherbourg-Octeville (França) e Queenstown na Irlanda. Em 14 de Abril às 23:40 ele colidiu com um iceberg e afundou na madrugada do dia seguinte com mais de 1.500 pessoas a bordo, sendo considerado um dos maiores naufrágios da história. Menos de um terço daqueles que estavam a bordo do Titanic sobreviveram. Os motivos para o naufrágio foram diversas causas, tanto naturais quanto humanas. Este acontecimento expôs diversas fragilidades levando a mudanças nas leis internacionais de navegação.

Clique aqui e acesse os códigos desse estudo no github

Seguem algumas perguntas a serem investigadas:

  • Os passageiros das primeiras classes tiveram maiores chances de sobrevivência?
  • As mulheres tiveram maior chance de sobrevivência que os homens?
  • As mulheres da primeira classe tiveram maior chance de sobrevivência que as mulheres da terceira classe?
  • Crianças tiveram uma taxa maior de sobrevivência?
  • Crianças da primeira e segunda classe sobreviveram mais que as crianças da terceira classe?

Importando as bibliotecas e configurando parâmetros gerais:

Carregando o dataset (disponibilizado pela Udacity):

DICIONÁRIO DE DADOS

VARIÁVEIS

Survived (Sobreviveu): 0 = Não, 1 = Sim
Pclass (Classe): Classe de ingresso 1 = 1º, 2 = 2º, 3 = 3º
Sex (Sexo): Sexo do passageiro
Age (Idade): Idade em anos
Sibsp: Quantidade de irmãos / cônjuges a bordo do Titanic
Parch: Quantidade de pais / crianças a bordo do Titanic
Ticket (Bilhete): Número do bilhete de embarque
Fare (Tarifa): Tarifa paga pelo Passageiro
Cabin (Cabine): Número de cabine
Embarked (Embarque): Porto de Embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

Notas sobre as variáveis

Pclass (Classe): 1º = Superior 2º = Médio 3º = inferior

Age (Idade): A idade é fracionada se for inferior a 1. Se a idade for estimada, é na forma de xx.5

Sibsp: O conjunto de dados define as relações familiares dessa maneira …
Sibling = Irmão, irmã, meio-irmão, irmandade
Spouse (Cônjuge) = marido, esposa (amantes e desposados foram ignorados)

Parch: O conjunto de dados define as relações familiares dessa maneira …
Parent (Pais) = mãe, pai
Child (Criança) = filha, filho, enteada, enteado
Algumas crianças viajaram apenas com uma babá, portanto, parch = 0 para elas.

CONHECENDO O DATASET

Analisando as dimensões do dataset

Significa que esta base de dados não contém as informações de todas as pessoas abordo do Titanic. Contém informações apenas de 891 pessoas.

Visualização dos primeiros e dos últimos 5 registros:

Note acima que a coluna Age contém uma informação preenchida com o valor NaN, significa que o campo esta nulo.

Analisando cada informação acima, acredito que em nossa análise poderemos explorar os campos abaixo:

  • Survived (Sobreviveu? 0 — Não / 1 — Sim)
  • Pclass (Classe: 1 — Primeira, 2 — Segunda, 3 — Terceira)
  • Sex (Sexo)
  • Age (Idade)

Analisando o tipo de dados:

Verificando a quantidade de valores de cada coluna:

Podemos observar que as colunas Age, Cabin e Embarked estão com uma quantidade menor que as demais colunas. Isso significa que contém valores nulos. Dessas três a única que acho ser interessante para análise é a coluna de idade (Age).

Antes de continuarmos, irei realizar algumas alterações visando facilitar as próximas etapas de nosso estudo. Ex.: alteração do nome de algumas colunas em nosso dataset. Isto irá facilitar a exibição destas informações nos gráficos que iremos apresentar.

Exibindo nome das colunas atuais:

Modificando o nome de algumas colunas:

Para facilitar a leitura, iremos modificar também o conteúdo do campo que identifica o Sexo, conforme abaixo:

  • female => 1-Mulher
  • male => 2-Homem

O campo abaixo será criado para facilitar a contagem. Seu conteúdo será exatamente o inverso da coluna Sobreveu (Survived), ou seja, será 1 quando o passageiro não sobreviveu, e 0 quando ele sobreviveu.

1 — TOTAIS

Vamos analisar as informações identificando o percentual de pessoas que sobreviveram e que não sobreviveram.

Número pessoas que sobreviveram e que Não sobreviveram

Quase um terço das pessoas do dataset não sobreviveram.

2 — CLASSE

Vamos analisar agora as informações relacionadas à Classe em que a pessoa estava. Saber se houve ou não alguma influência sobre a pessoa ter sobrevivido ou não

Quantidade de pessoas por classe

Observe que apesar do número maior de pessoas ser da 3a classe (gráfico 2.1) o número maior de sobreviventes foi da 1a classe.

A classe que teve o menor percentual de sobreviventes foi a 2a classe (25% do total de sobreviventes).

De todas as pessoas que Não sobreviveram, 68% eram da 3a classe. Enquanto que na primeira e segunda foram 15% e 18% respectivamente.

Segue um gráfico com a proporção de de pessoas que Sobreviveram e que Não sobreviveram por Classe

A proporção acima é em relação ao total de pessoas. Aqui podemos ver a grande diferença entre a primeira e a segunda classe em relação a terceira classe

O gráfico acima mostra o percentual de Sobreviventes e de Não sobreviventes em relação a própria classe e não em relação ao total de passageiros.

  • 1 — Do total de pessoas da primeira classe, aprox. 63% sobreviveram, e 37% não sobreviveram
  • 2 — Do total de pessoas da 2a classe, aprox. 47% sobreviveram, e 52% não sobreviveram
  • 3 — Do total de pessoas que estavam na 3a classe, aproximadamente 24% sobrevieram, e 76% não sobreviveram

3 — SEXO

Realizando exploração nos dados com relação ao Sexo

A maior parte das pessoas abordo do Titanic, eram homens (65%).

Podemos observar a disparidade entre as informações das Mulheres e dos homens. Vejam a relação entre Sobreviventes e Não sobreviventes.

No gráfico acima é possível identificar a distribuição de mulheres ou homens nas três classes. A classe com maior número de homens e mulheres é a terceira classe

A classe com maior diferença entre a sobrevivência entre homens e mulheres foi a 2a classe.

Através deste gráfico podemos fazer uma série de comparações:

  • MULHERES (1.1 e 1.2)
    Na primeira barra estamos exibindo o Total de mulheres (1.1) na segunda o total de mulheres que sobreviveu (1.2). Note que praticamente 100% das mulheres da primeira classe sobreviveram. Quase 100% das mulheres da 2a classe também sobreviveram. Em relação a terceira classe, o percentual foi bem menor.
  • HOMENS (2.1 e 2.2)
    A terceira barra (2.1) é a quantidade total de homens, já na quarta barra (2.2) são os homens que sobreviveram. Note que a quantidade e homens sobreviventes foi muito baixa. Em relação ao total de sobreviventes, a segunda classe foi a que menos tiveram sobreviventes, seguido da terceira e depois a primeira classe.
  • Podemos também comparar a quantidade de Mulheres e Homens que sobreviveram. Linhas 2 (1.2) e 4 (2.2). Fica claro aqui que as mulheres tiveram muito mais chances de sobreviverem.

Vamos agora criar uma visualização das informações acima para facilitar a comparação (distância) entre as informações

O gráfico acima mostra de uma maneira simples a distância entre os sobreviventes e não sobreviventes. Com o foco no sexo feminino, podemos verificar a distância entre a linha azul (1.1. Mulheres TOTAL) e a linha roxa (1.2. Mulheres Sobreviventes). Compare a distância entre uma e outra de acordo com a classe (1, 2 e 3 — Eixo X). A quantidade de sobreviventes entre a 1a e 2a classe são praticamente iguais. Fica mais distante quando chegamos na 3a classe.

Agora façamos essa mesma análise para o sexo masculino. Note a distância entre a linha Laranja (2.1. Homens TOTAL), e a linha vermelha (2.2. Homens Sobreviventes). Note que há uma distância bastante grande, principalmente conforme vamos aumentando o número da classe.

As mulheres da 1a e 2a classe tiveram maiores chances de sobreviverem em relação as mulheres da 3 classe?

Quase 100% das mulheres da 1a e 2a classe se salvaram, enquanto que as mulheres da terceira classe a proporção foi de meio a meio, ou seja, 50% se salvou e 50% não. Então podemos concluir que sim, as mulheres da 1a e segunda classe foram favorecidas em relação as da 3a classe.

Podemos notar algo interessante, a quantidade de SOBREVIVENTES é a mais alta na barra da esquerda (mulheres da primeira classe) e vem caindo. Sobe um pouco quando chegamos nos nos homens da terceira classe. E a quantidade de NÃO SOBREVIVENTES é ao contrário, a quantidade menor identificada é justamente na primeira barra e vem subindo cada vez mais, e atinte o pico máximo com os homens da terceira classe. Forma-se uma espécie de X.

Proporção em relação à própria classe:

Note acima que aproximadamente 97% das mulheres da 1a classe sobrevieram, e da 2a classe 92% sobreviveram. enquanto que das mulheres da 3a classe somente 50% sobreviveram.

4 — IDADE

Como saber que pode ter sido um fator relevante?

Conforme já identificado anteriormente, existe uma parcela das pessoas que estavam com a idade sem preenchimento. Vamos verificar:

Das 891 pessoas, 177 (aproximadamente 20%) estão com idade sem preenchimento.

É possível utilizar técnicas inclusive com a utilização de Machine Learning para predizer quais valores poderíamos utilizar para preencher a idade dos registros que estão sem preenchimento. No entanto para esta análise, iremos utilizar a abordagem mais simples que é desconsiderar os registros nulos.

Agora iremos visualizar a distribuição da idade:

Histograma por Idade

A maioria dos passageiros tinham aproximadamente 18 e 32 anos.

Em relação à idade, será que as crianças tiveram alguma preferência?

Analisando o gráfico acima, podemos ver que a faixa onde encontram-se as crianças (de 0 a 10) tem um alto índice de sobrevivência.

Vamos desenvolver o gráfico abaixo onde a visualização das idades ficarão ainda mais evidentes:

Observe que em relação a quantidade de Sobreviventes e de Não sobreviventes, a faixa de idade entre 0 e aproximadamente 10 anos foi de todas a faixa que mais houveram sobreviventes.

Vamos analisar a média de sobrevivência das crianças e depois compararmos com a média de sobrevivência dos adultos.

Iremos considerar crianças com idade menor que 12 anos.

As crianças tiveram uma média de sobrevivência de 0.57 enquanto as pessoas com idade igual ou acima de 12 anos tiveram uma média de sobrevivência de 0.38.

Vamos analisar as quantidades:

Podemos ver acima que a quantidade de Crianças Sobrerviventes foram maiores que a quantidade de Não sobreviventes, enquanto que a quantidade de Não crianças sobreviventes, foi muito inferior à quantidade de Não Sobreviventes.

Em resumo, as “Crianças” sobreviveram mais do que morreram. Enquanto que as pessoas “Não crianças”, morreram muito mais do que sobreviveram.

Quantidade de crianças por Classe

Novamente podemos observar que as primeiras classes tiveram um alto número de sobreviventes. Na primeira classe morreu somente uma e na segunda classe não morreu nenhuma criança, enquanto da terceira classe, das 47 crianças somente 19 sobrevieram.

Vamos criar uma visualização para identificar o percentual de Crianças sobreviventes e de Não sobreviventes por classe

O gráfico acima mostra a diferença que houve entre o percentual de crianças que sobreviveram e que não sobrevieram entre a primeira e segunda classe e a terceira classe.

60% das crianças da terceira classe morreram. Enquanto que na primeira classe morreram somente 25% e na segunda classe, das 17 crianças a bordo, nenhuma morreu.

CONCLUSÃO:

Nossa análise exploratória teve como objetivo identificar atributos de alguns conjunto de pessoas para saber se tiveram maior chance de sobrevivência que outras.

Sabe-se que o navio possuía um número de botes muito inferior ao número necessário para salvar a quantidade de pessoas abordo. Mesmo assim, era um número acima do exigido pelas legislações marítimas na época. Sendo assim, houve alguma priorização para a utilização dos botes?

Identificamos que fatores como a Classe, Sexo e Idade realmente influenciaram para o aumento ou diminuição das chances de sobrevivência.

As mulheres foram as que tiveram maiores chances de sobrevivência. Principalmente as da primeira e segunda classe. Os gráficos 3.5, 3.6 e 3.7 mostram uma visão bem clara da diferença. Em resumo as maiores chances de sobrevivência foram para as mulheres da primeira e segunda classe. E as menores chances de sobrevivência foram para os homens da terceira classe.
Realizando pesquisas foi encontrado um relato que o segundo oficial Lightoller se dirigiu ao capitão e sugeriu que a evacuação fosse iniciada com as mulheres e crianças. O capitão Smith concordou. Isso com certeza fez com que os índices de sobrevivência aumentassem e bastante, tanto para mulheres quanto para crianças.
Obs.: A preferência do embarque para mulheres e crianças ocorrida no Titanic é considerada uma exceção, ou seja, geralmente isso não ocorre em outros naufrágios. Muitos homens, em sua maioria da primeira classe, se recusaram a entrar nos botes. Tiveram que ser persuadidos.

Em relação às crianças (menores que 12 anos — utilizado como referência o estatuto da criança e do adolescente), pudemos identificar que tiveram uma média de sobrevivência acima dos demais (0,57 contra 0,38) — Gráficos 4.2.1, 4.2.2, 4.3 e 4.4.

Foi identificado também que a maioria das pessoas que não sobrevieram foram da terceira classe (Gráficos G2.4, 2.5, 2.6 , 3.6 e 3.7). Conforme podemos constatar no gráfico 4.5 e 4.6 das crianças da terceira classe 60% morreram, enquanto que na primeira classe foi de 15% e para a segunda classe nenhuma criança morreu. Podemos ver essa mesma tendência de maior taxa de sobrevivência das mulheres entre primeira / segunda classe e a terceira classe através do gráfico 3.7.

Em pesquisas realizadas também foi informado que muito poucas pessoas da terceira classe tinham conseguido chegar ao convés superior, com a maioria se perdendo nos labirintos de corredores ou ficando presos atrás de grades que segregavam as acomodações da terceira classe daquelas da primeira e segunda. Aparentemente em pelo menos em alguns lugares, a tripulação do Titanic ativamente impediu que os passageiros da terceira classe escapassem, com barreiras trancadas e vigiadas por tripulantes a fim de impedir que as pessoas corressem para os botes.

Este estudo pode ser continuado com a análise de outras variáveis, explorar e encontrar novos insights utilizando as informações desta base para gerar novas variáveis, como por exemplo saber se é possível identificar os tripulantes. Será que quem não tem informação de Tarifa (Fare) preenchida pode ser um tripulante? Seria possível identificá-los e encontrar sua taxa de sobrevivência e compará-la e ver se essa taxa foi maior que a taxa de sobrevivência dos passageiros? A própria idade como já comentado poderia ser explorada através de técnicas preditivas para identificarmos melhor como esta informação impactou na taxa de sobrevivência.

Observações:

  • É importante ressaltar que as conclusões identificadas não são definitivas, pois não estamos usando técnicas estatísticas para a realização deste estudo.
  • Os gráficos foram criados com o objetivo de explorar e conhecer os dados. Em um segundo momento, caso queiramos apresentar os achados em forma de uma mensagem clara e eficaz, deve-se ser utilizar técnicas de visualização / data storytelling.

Fontes:

--

--