Al bar del reverendo Bayes

Raffaele Zenti
5 min readNov 5, 2015

--

E così avete sentito parlare del Teorema di Bayes, concepito dall’illuminato reverendo Thomas Bayes per valutare con logica e raziocinio situazioni d’incertezza.

Il teorema è diventato di moda in anni recenti, pur avendo una lunga storia di applicazioni: tra le altre, fu impiegato da Alan Turing per decifrare il codice nazista Enigma, fondamentale per sconfiggere la Germania durante la Seconda Guerra Mondiale. E’ alla base dell’analisi dei Big Data, del machine learning e della Data Analysis. Consente cioè a società come Amazon o Spotify d’individuare le vostre preferenze. E permette a Google di stabilire l’importanza di un sito. E’, in buona sostanza, alla base di qualunque forma di e-commerce massivo attuato con intelligenza, cioè utilizzando metodi di Data Science.

Sia come sia, ora i vostri amici nerd vanno in estasi se viene pronunciato il nome “Bayes”. Di colpo pare che la statistica Bayesiana sia la chiave dell’universo.

Così, per curiosità, avete dato un’occhiata al teorema su Wikipedia: inizialmente avete preso coraggio, vedendo che si tratta di una formuletta; poi, proseguendo la lettura, avete incontrato diverse versioni del teorema e qualche simbolo criptico vi ha incasinato. Sicché, in definitiva, non ci avete capito una beata mazza.

Non è un dramma, certo (a meno che non vi occupiate di Big Data e roba simile). Ma è un po’ irritante, confessatelo. Perché dopo tutto è solo un’equazioncina, magari l’avete pure studiata in qualche remota epoca della vostra vita. Un’equazione che in una delle sue forme larvali (già, ha molteplici facce) appare così:

P(A|B) = P(B|A)*P(A)/[P(B|A)*P(A) + P(B|~A)*P(~A)]. (*)

Niente di che.

E allora basta arrendersi di fronte a una formuletta. Qui si passa all’azione. Quindi vi passo questo esempio del mio agile, abbastanza scurrile e assai poco rigoroso corso aziendale di Street-Fighting Statistics messo a punto per AdviseOnly: sarà il vostro rito di iniziazione al Bayesianesimo e all’uso del Teorema di Bayes. La teoria ve la guardate su Wikipedia, please (o magari scrivo qualcosa un’altra volta, chissà).

Userete il Teorema di Bayes in a una situazione reale. In strada, letteralmente. Perché vi sarà capitato, vedendo un enorme Hammer (o altro SUV ipertrofico) parcheggiato sul marciapiede in modo da ostruirlo completamente, di pensare qualcosa tipo:

Idiota. Chi compra un tale, gigantesco, SUV dev’essere un cafone incivile.

Bene, il Teorema di Bayes è perfetto per corroborare o smentire quest’idea (e tante altre) in modo circostanziato.

Mettiamo a fuoco il problema. Abbiamo in ballo 3 eventi principali:

1) evento A — è un automobilista (uomo o donna) incivile, maleducato e irrispettoso delle regole stradali, in sintesi un incommensurabile coglione;

2) evento non-A (si indica così: ~A) — all’opposto, l’automobilista è civile, educato e rispetta il codice stradale;

3) evento B — l’automobilista possiede un ipertrofico SUV.

Siamo interessati a stimare P(A|B), cioè la probabilità P che il guidatore, in possesso di un grosso grasso SUV (evento B), sia un pericoloso idiota (ossia incarni l’evento A). Per la cronaca, P(A|B) si chiama probabilità condizionata, si legge “probabilità di A, dato B”, ed è la probabilità che un automobilista sia cafone (A), dato che possiede un enorme fuoristrada (B). Chiaro, no?

Stimare P(A|B) è il nostro obiettivo.

Per farlo, utilizzeremo la formula (*).

Ora dobbiamo procurarci gli ingredienti per il calcolo, cioè i valori delle grandezze del lato destro dell’equazione, cioè le probabilità P(A), P(~A), P(B|A) e P(B|~A), che ora analizziamo con calma.

Partiamo con P(A), la probabilità che un automobilista sia una supernova d’imbecillità, a prescindere dall’auto che guida. Qui dobbiamo tirare fuori un numero che rifletta la nostra opinione iniziale (non a caso questa grandezza si chiama prior). In assenza di studi statistici sulla stupidità, dobbiamo basarci su buon senso ed esperienza. Pur rammentando il monito del compianto Carlo Maria Cipolla in “Le leggi fondamentali della stupidità umana”:

“Sempre e inevitabilmente ognuno di noi sottovaluta il numero degli individui stupidi in circolazione”

vogliamo essere ottimisti e ipotizziamo un caritatevole 10%. Tanto è solo un esempio.

Siccome un automobilista è incivile oppure no, risulta che P(A)+P(~A)=100%. Quindi, avendo appena ipotizzato che P(A) è 10%, con un passaggio algebrico ardito ne segue che P(~A) è 100%-10%=90%.

Ci occorre quindi P(B|A): la probabilità di avere un SUV oversize (evento B) dato che si è un automobilista incivile e maleducato (evento A). Qui entra in gioco l’evidenza empirica, la rilevazione sul campo. Questa la procedura:

  • definite le manifestazioni d’imbecillità di un conducente e stilate un elenco (parcheggi selvaggi, ignorare pedoni e strisce pedonali, chiaccherare al cellulare in mezzo al traffico, percorrere lunghi tratti contromano, e via dicendo);
  • contate le manifestazioni di imbecillità così definite alle quali assistete in un certo periodo di tempo, ad esempio un mese; diciamo che saranno in numero x;
  • contate quante di esse sono a carico di possessori di grossi SUV, indichiamo questo numero con y;
  • y/x sarà la vostra stima canina di P(B|A).

Supponendo che in un mese assistiate a 10 episodi di barbarie stradali (numero inventato), dei quali 2 commessi da conducenti di SUV ipertrofici, allora P(B|A) sarà 2/10=20%. Stima rozza, ma sufficiente al vostro nobile scopo.

Infine c’è P(B|~A), ovvero la quota di grossi SUV tra le persone civili. Un’ipotesi ragionevole è che sia circa pari alla quota di mercato relativo a questo segmento di auto: più o meno 1%, stando al Ministero dei Trasporti.

Abbiamo tutto l’occorrente per calcolare P(B|A) con la formula (*):

P(A|B) = 0.2 x 0.1/(0.2 x 0.1 +0.01 x 0.9) = 0.689 ≈ 69%

Intuitivo? Bah. I risultati sono spesso sorprendenti. Ma corretti: è logica pura, utilizzata per combinare probabilità. Sia chiaro: possono essere scorrette o imprecise le probabilità inserite come input. Ma la formula è sempre verificata — perché è un’identità, per essere precisi.

Per chiudere, una curiosità: dopo rozze e saltuarie osservazioni stradali, muovendomi io per Milano in scooter, ammetto che, per quanto trovi irritanti i SUV oversize, applicando la regola di Bayes… risultano assai peggiori i guidatori di Smart (sic). E quando dico peggiori, intendo di gran lunga peggiori — pare proprio che i guidatori di Smart non siano così smart.

Ma voi siete certo più smart, avendo iniziato a familiarizzare con il Teorema di Bayes.

--

--

Raffaele Zenti

Nato per sbaglio sulla terraferma, sto meglio in mare ma corro sui monti. Dati e Data Science per campare: ideatore e fondatore di Virtualb.it e AdviseOnly.com.