Belgen op Titanic deel 2: data-analyse

Jibbe Van Oost
6 min readOct 4, 2017

--

De Titanic, in een vorige blogpost hebben we de passagierslijst omgezet in een dataset met bruikbare data. En omdat de dataset ook gegevens bevat over de afkomst van elke passagier, kunnen we makkelijk de Belgen eruit filteren. En we kunnen een heleboel analyses doen op die Belgen.

Dit zijn de Belgische passagiers:

De Belgen aan boord van de Titanic. Zij met een 1 in de kolom ‘Survived’, hebben de scheepsramp overleefd.

Aantal reizigers versus aantal Belgen

Van alle 1.319 passagiers aan boord, waren er 25 van België. En op de totale populatie van de Titanic waren er meer mannen dan vrouwen. Een verdeling die we ook bij de Belgen zien terugkomen.

De passagiers van de Titanic

In welke klasse reisde de Belgen zoal?

We kunnen de gegevens nog verder gaan opsplitsen, zodat we een idee hebben over hoeveel passagiers in elke klasse meereisden. En we zetten er meteen ook bij hoeveel Belgen in elke klasse reisden.

De klassen in absolute getallen

Meer dan de helft van de passagiers reisde in derde klasse. In eerste en in tweede klasse vinden we zowat 25% van de reizigers. Maar wat zien we bij de Belgen? 22 op de 25 Belgen heeft een derdeklasseticket. De Belgen blijken dus vooral derdeklassevaarders. Hoe dat komt, kan je zien in deze sublieme reportage van Publiek Geheim.

Maar is dat verschil in klassenverdeling echt? Of zijn deze 25 Belgen een zodanig kleine steekproef dat de samenstelling perfect toevallig is? Het kan, want met kleine getallen is het toeval soms erg grillig. Gooi maar eens vijf keer achter elkaar kop met een munt. De kans dat je dat doet, is nogal klein(3,125% kans om precies te zijn). Maar als je 1.000 keer probeert, is de kans dat er een reeks van 5 keer kop voorkomt al een pak groter. Stel nu dat iemand bezig is met die 1.000 worpen en jij komt net de kamer binnen op het ogenblik dat hij zijn vijf opeenvolgende koppen gooit en na die vijf worpen ga je weer weg. Kan je concluderen dat die munt vervalst is? Het is verleidelijk, maar de gooier weet dat het stom toeval is. Net zo met ons groot aantal Belgen in derde klasse. Het zou toeval kunnen zijn.

Statistische significantie van klassenverdeling toetsen

Dus, die Belgen die vooral in derde klasse reizen, hoe toevallig is dat? We kunnen het berekenen met en Chi kwadraat toets. We geven volgende data in:

En dan gaan we een Chi kwadraat-toets doen. Daarvoor moeten we eerst een nulhypothese formuleren. En die luidt ‘er is geen verschil tussen de samenstelling van de klassen tussen de algemene populatie van de Titanic en die van de Belgen.’

En de Chi kwadraattoets heeft het volgende resultaat:

  • X2 = 11.555637029313836
  • p = 0.0030954607503862843

De p-waarde, dat is waar we nu naar moeten kijken. Ze geeft de kans weer dat onze nulhypothese waar is. En die kans is 0,31 procent. Als stelregel in de statistiek wordt een drempelwaarde van 5 procent aangenomen. En die waarde overschrijden we niet.

Hoera dus, we kunnen de nulhypothese verwerpen en aannemen dat er wel degelijk een verschil is en dat dat niet toevallig is. De Belgen zijn inderdaad derdeklassevaarders.

Waren de Belgen goede overlevers?

We gaan eens kijken hoeveel mensen in elke klasse de Titanic-ramp overleefden.

En we kunnen gelijk enkele conclusies trekken:

  • 73% van de vrouwen overleefde, tegenover 19% van de mannen
  • Rijke vrouwen hadden een betere overlevingskans (97%) dan vrouwen in derde klasse (50%)
  • Mannen in eerste klasse hadden 34% kans om te overleven, mannen in derde klasse maar 15%.
  • Arme vrouwen hadden betere overlevingskansen dan mannen in eender welke klasse.

De film Titanic is dus helemaal naar waarheid: Rose de rijke vrouw overleeft en Jack de arme man sterft.

En hoe overleefden de Belgen de scheepsramp?

Omdat er in eerste en tweede klasse maar een of twee Belgen reisden, kan je daar niks zinnigs over zeggen. Maar in derde klasse zien we het volgende:

  • Maar 20% van de vrouwen overleefde, tegenover 50% in de totale vrouwenpopulatie in derde klasse.
  • De Belgische mannen overleefden iets beter dan de algemene populatie: 17% tegenover 15%.

Maar hoe statistisch significant is het verschil? Een Fisher-exacttest vertelt het. (Fischer-exact is zoiets als een Chi kwadraattest, maar dan geschikt voor 2x2-tabellen met kleinere getallen.)

We baseren ons daarvoor op volgende gegevens:

Aantal overleden passagiers bij de scheepsramp
Aantal overlevers van de scheepsramp

Belgische overlevers vs. totale overlevers

Onze nulhypothese: er is geen verschil tussen de overlevingsgraad van de Titanic (816 slachtoffers, 503 overlevenden) en die van de Belgen op de Titanic (19 slachtoffers, 6 overlevenden). Alternatieve hypothese: er is wel een verschil. En dan doen we de Fischer-exacttest:

  • FET = 0.5122946531338286
  • p = 0.21091112000838252

En wat blijkt? Eén blik op de p-waarde is genoeg om te weten hoe laat het is. Als de p-waarde onder 0,05 duikt, dan kunnen we de nulhypothese verwerpen. Maar p is hier 0,22. En dus moeten we de nulhypothese aannemen: de verhoudingen verschillen niet.

Dus, terwijl er 38 procent van alle Titanicvaarders overleefden en maar 24 procent van de Belgen, kunnen we niet beweren dat de Belgen een slechtere overlevingskans hadden dan de algemene titanicpopulatie. Het verschil van 14 procentpunten is -met grote waarschijnlijkheid- te wijten aan het toeval. Dat komt omdat we over een heel kleine steekproef spreken. En met een klein aantal gevallen kan je al eens een vreemde steekproeftrekking hebben.

Mannelijke vs. vrouwelijke overlevers (totaal)

  • FET = 11.742708074534162
  • p = 1.9712973660617834e-85 en dat is onwaarschijnlijk klein. Er is zeer duidelijk een verschil.
  • Vrouwen hadden dus meer overlevingskans dan mannen.

Mannelijke Belgen vs. alle mannen

  • FET = 1.173913043478261
  • p = 1.0
  • De Belgische mannen hadden dezelfde overlevingskansen als alle andere mannen aan boord.

Vrouwelijke Belgen vs. alle vrouwen

  • FET = 3.6480000000000001
  • p = 0.091244530781489822
  • We kunnen niet met zekerheid zeggen dat de overlevingskansen van de Belgische vrouwen verschillen van de overlevingskansen van de andere vrouwen.

Belgische vrouwen in derde klasse vs. alle vrouwen in derde klasse

  • FET = 5.0462962962962967
  • p = 0.0064828212028449428
  • Aha! Hier hebben we wel een statistisch significant verschil. De Belgische vrouwen in derde klasse hadden inderdaad een lagere overlevingskans dan alle andere vrouwen in derde klasse.

En wat met de kinderen?

We hebben al aangetoond dat vrouwen meer overlevingskans hebben dan mannen. Maar de scheepsregel zegt dat ook kinderen eerst moeten. Dus zou vooral de overlevingsgraad van minderjarige jongens hoger moeten liggen.
Interessante hypothese en om ze te testen, moeten we de data opknippen in min 18 en plus 18.

Laat ons nu eens kijken of minderjarige jongens meer overlevingskans hebben. En welaan, kijk eens hier! Waar meerderjarige mannen in eerste klasse een overlevingskans hebben van ocharme 32 procent, hebben minderjarige jongens een overlevingskans van 71 procent. In tweede klasse stijgt de overlevingskas ook gevoelig. De kinderen in derde klasse blijven wel een bedroevende overlevingskans houden.

De regel ‘vrouwen en kinderen eerst’, moet voor de Titanic dus geherformuleerd worden als ‘kapitaalkrachtige vrouwen en kinderen eerst, dan kapitaalkrachtige mannen en de rest moet het maar bekijken’.

En de Belgen?

De aantallen beginnen te klein te worden voor een zinvolle statistische inferentie. Maar als volwassen man zou ik die overlevingskansen maar niks vinden.

Deze blogposts zijn mijn manier om mijn statistiekkennis op te krikken. Zie je onjuistheden, mogelijke verbeteringen of wil je een hart onder de riem steken, dan kan dat op Twitter, via twitter.com/jibbevo. Veel dank alvast!

--

--