Big Data e principio di Heisenberg

5 Febbraio 2014

La produzione e l’immagazzinamento dei dati sta crescendo a livello esponenziale nel contesto mondiale[1]e ciò sta portando a un cambiamento nel modus pensandi degli operatori specializzati del settore dell’analisi e della progettazione delle basi dati.

Il concetto di big data è quanto di più vicino possibile a una descrizione puntuale della realtà: ne rispecchia infatti fedelmente le sfaccettature e le diversità ma soprattutto l’impossibilità di un ordine razionale delle informazioni nella maggior parte delle situazioni.

Stiamo assistendo quindi al passaggio dalle basi di dati del modello che potremmo definire classico elaborato da E.F. Codd[2] ad una nuovo paradigma di organizzazione ed analisi definito dai più come NoSql.

Siamo abituati ad avere delle banche dati organizzate in maniera tale che tabelle contenenti i dati di interesse siano messe in relazione alle altre tramite particolari voci definite indici. In questa maniera, navigando tra gli indici, riusciamo ad esplorare per intero il database che contiene dati quanto più precisi e corretti possibile.

In una raccolta di dati piccola e limitata è importante che ogni singolo inserimento sia consistente e preciso e che non si verifichino errori nella logica della progettazione e dell’interrogazione per evitare di avere dei risultati che si discostino dal campionamento statistico della realtà contenuto nelle tabelle e nelle relazioni definite. È quindi indispensabile che sia il progettista che l’utilizzatore del database siano solidamente preparati e competenti nel campo: questo è forse il maggior collo di bottiglia all’utilizzo, se non in ambito aziendale e professionale, delle basi di dati relazionali.

Nell’articolo di P. Helland[3] si parla di erosione dei principi del modello classico dei database quando si processano moli di dati elevate e si propone quindi di passare, soprattutto nella prospettiva business, a un modello lossy: non interessiamoci di avere dati precisi, provenienti da fonti comparabili o sicure, non preoccupiamoci di dover fare assunzioni e inferenze ma occupiamoci solo della raccolta di moli di dati sempre più elevate. La logica consiste nella semplificazione delle operazioni, resa possibile dall’abbassamento dei costi delle periferiche di immagazzinamento e dalla facilità di utilizzo dovuta allo studio delle nuove interfacce.

Il mondo dei dati sta cambiando: quantità, eterogeneità, velocità non sono più quelle di inizio anni 2000 e pertanto non è più possibile applicare vecchi schemi a una nuova tipologia di visione del mondo.

W. Heisenberg con i suoi lavori sulla fisica quantistica ha mostrato come per misure molto piccole dobbiamo rassegnarci al fatto che venga sempre introdotto un certo tasso di incertezza a cui non possiamo porre rimedio.

P. Helland e i primi studi sui big data ci stanno dimostrando che l’incertezza si applica bene anche ai dati su larga scala e alla loro relativa computazione.

Se dunque due docenti della Princeton University hanno applicato un modello epidemiologico nell’ambito dello studio dei social network[4] , è arrivato il momento di avere un approccio quantistico allo studio dei dati, alla loro visualizzazione e utilizzo concreto prendendo spunto da quanto già iniziato da pionieri del settore [5] .

Big Data significa anche questo: eliminazione totale delle barriere fra le scienze non solo a livello di interscambio di dati ma soprattutto diastrazione dei ragionamenti. La domanda non sarà più cosa provoca un determinato processo ma come questo processo può essere governato con i dati in nostro possesso, siano essi utili o meno alla ricerca della causalità.

NOTE
 1. CSC : Big Data Universe Beginning to Explode
 2. Relational Model of Data for Large Shared Data Banks
 3. If You Have Too Much Data, then “Good Enough” Is Good Enough
 4. Epidemiological modeling of online social network dynamics
 5. Informazione e computazione quantistica: applicazioni