Sangue di Jedi e Bayes

Si sa, o almeno lo sanno tutti i patetici malati Star Wars e di SciFi come me, che è grazie ai midichlorian, simbionti presenti in elevate quantità nell’organismo dei Cavalieri Jedi, che viene percepita la Forza — ndr “ La forza è quella che dà al Jedi la possanza” (Obi-Wan Kenobi). Insomma i midichlorian sono un po’ come i fermenti lattici nello yogurt: niente fermenti lattici, niente yogurt - niente midichlorian, niente Jedi.

Certo, non bastano un sacco di midichlorian per fare un Jedi, tuttavia questi esserini invisibili sono un prerequisito fondamentale. Per un Jedi i midichlorian sono un po’ come il VO2max per un atleta di questo mondo: non importa da quale pianeta tu venga e a quale specie spaziale tu appartenga, perché se hai tanti midichlorian, ti applichi, hai grande senso etico e buoni doti atletiche, beh, allora puoi diventare un Jedi e combattere i Sith e la loro progenie.

Ma esattamente, che cosa vuol dire «tanti midichlorian»? Quanti ne ha in corpo un autentico Jedi naturale? Saperlo sarebbe molto utile, per esempio per trovare nuovi adepti dell’Ordine dei Cavalieri Jedi, così cruciale nella società della Galassia Lontana. Anche perché di potenziali Jedi in giro non ce ne sono molti. Fondamentale, quindi, è conoscere la distribuzione di probabilità dei midichlorian tra i Jedi, che può essere utilizzata per testare le potenzialità di un individuo. Sicuramente è utile a me, in tempo di «Star Wars Episodio VII: Il risveglio della Forza», ai fini di catturare l’attenzione di chi segue in orario di pranzo il mio corso di Street-Fighting Statistics — quello fatto di scarsi dati che farciscono modelli semplici, scritti e serviti sulla carta del pane, o poco più. Non roba da accademia, roba da combattenti nella vita. Concetti di statistica utili per Data Analysis e Big Data, decisioni manageriali, che «passano» grazie alla Forza.

Ma torniamo dritti al punto. Come accade per molte altre caratteristiche fisiologiche e antropometriche, è ragionevole pensare che il tasso x di midichlorian nel sangue dei Jedi segua una distribuzione normale, cioè

x|è un Jedi~N(θ,φ)

dove θ e φ rispettivamente media e varianza della distribuzione sono, e il simbolo “|”, “dato che” si legge. Pochissime informazioni purtroppo noi abbiamo. Per l’utilizzo del Teorema di Bayes territorio ideale questo è:

P(θ|dati) ∝ P(dati|θ)P(θ)

Iniziamo con P(θ), la prior sulla media. Innanzitutto il tasso di midichlorian nel sangue è una grandezza non-negativa. Inoltre, pare che Anakin Skywalker/Darth Vader avesse oltre 20mila midichlorian. Se riteniamo che Anakin fosse nel Top 0.10% dei Jedi in quanto a doti naturali (e come possiamo dubitarne? Il Maestro Jedi Qui-Gon Jinn lo riteneva «il predestinato» – ndr quello fu uno dei più clamorosi epic fail d’ogni epoca nell’effettuare previsioni, ma vabbuò), possiamo scrivere:

θ + z(0.999)φ^0.5 = 20000

e

θ + z(10^-6)φ^0.5 = 0

Risolvendo il sistemino lineare che ne deriva si trova che θ è 11500 e φ^0.5 è 2700. Quindi la prior è N(11500, 2700²), o N(11500, 1.3717e-07^-1) se si esprime la varianza in termini di precisione (ndr: precisione=varianza^-1), un numero incomprensibile, ma che mi risulta comodo, per biechi motivi utilitaristici che saranno evidenti tra poche righe

Ora, la distribuzione prior è vaga, molto vaga: contiene giusto le informazioni sui casi limite. Non ci dice nulla sui midichlorian del Jedi medio con una vita da mediano. Per cavar fuori qualcosa ci serve un po’ di extra-fantasia. Abbiamo bisogno della likelihood. Likelihood=dati. Dati=campione. Immaginiamo allora di aver sottomano i dati di una vasta indagine condotta su campioni di sangue di esseri senzienti della Galassia. Tra tali dati spiccano quelli di una graziosa fanciulla, che chiameremo Rey giusto per saccheggiare l’Episodio VII: ha 14950 midichlorian (numero inventato neh, mi serve per l’esempio). Inoltre pare (ma sono solo voci) che l’effervescente giovane donna sia straordinariamente pronta di riflessi e abile con la spada laser. Decidiamo allora di includerla nella stima. Rey è tutta la nostra likelihood: un punto. Ovviamente, per non rovinarci una vita già difficile, ipotizzeremo che la likelihood sia normale (così restiamo nel roseo mondo delle distribuzioni di probabilità coniugate e per ora non dobbiamo scomodare roba tipo Markov-Chain-Monte-Carlo, MCMC per gli amici, nel corso di Street-Fighting Statistics). Già che ci siamo, ipotizziamo pure che la varianza sia nota. Anche perché con un solo dato non sapremmo davvero come stimarla, nemmeno con l’aiuto di Obi-Wan dall’oltretomba. Allora ci viene in aiuto la regola dell’update Bayesiano per la distribuzione normale:

precisione posterior = precisione prior + precisione dati

media posterior = media prior x w + nuovo dato x (1-w)

dove:

w = precisione prior/precisione posterior.

Una bella media ponderata con le precisioni noi abbiamo! (Ecco perché sono passato dalle varianze alle precisioni: semplificano i conti e li rendono intuitivi).

Ipotizzando che la precisione del singolo dato relativo a Ray sia 1/3 di quella della prior, si ottiene finalmente la meritata posterior, una bella normale N(12363, 2338²) — e i conti si fanno sulla carta del pane. Riassumendo, prior, likelihood e posterior hanno queste belle facciotte vispe:

Quindi ora, non appena vi imbatterete in un altro giovanotto o fanciulla atletico, promettente con la spada laser e con il sangue brulicante di midichlorian, non dovete far altro che applicare nuovamente la regola dell’update Bayesiano, ricordando, come direbbe Yoda, che:

«Ricorda giovane Padawan, la posterior che oggi stimato hai, la prior di domani diventa.»

P.S. — Nuovi alla statistica Bayesiana? Può allora esservi utile un’intro al Teorema del reverendo Bayes applicato al problema degli idioti con SUV enorme, e qualche altro esempio sparso: dal mostrare come la famigerata Trenitalia abbia un livello di servizio a dir poco pessimo rispetto agli standard mondiali, alla difesa dalle compulsioni di atleti amatoriali un po’ ossessivi. Non solo Big Data e Data Science, dunque… Risvegliate la Forza di Bayes.