Big Data cosa sono? Una spiegazione facile per tutti.

Big Data cosa sono?

Il termine “Big Data” è in uso da qualche tempo, ma c’è ancora molta confusione su cosa significhi realmente. In verità, il concetto è in continua evoluzione e viene continuamente riconsiderato, in quanto rimane la forza trainante di molte ondate di trasformazione digitale in corso, tra cui l’intelligenza artificiale, la scienza dei dati e l’internet delle cose. Ma i Big Data cosa sono esattamente e come stanno cambiando il nostro mondo?

Definizione di Big Data

Letteralmente tradotto “Big Data” significa “grandi dati” e in particolare il termine “Big Data” si riferisce a insiemi di dati di volume così grande e così complessi che i prodotti software di elaborazione dati tradizionali non sono in grado di acquisire, gestire ed elaborare i dati entro un ragionevole lasso di tempo.

Questi dati generalmente crescono molto velocemente, possono essere strutturati e non strutturati e provengono spesso da più fonti e arrivano in più formati.

Quanto sono grandi i big data?

La quantità di dati che possono effettivamente considerati “grandi” è aperta al dibattito, ma può essere tipicamente in multipli di petabyte (un milione di GB o Gigabyte) e per i progetti più grandi nell’intervallo degli exabyte.

Le tre V dei big data

Spesso, i big data sono caratterizzati dalle famose tre V:

  • Volume: un volume estremo di dati
  • Varietà: un’ampia varietà di tipi di dati
  • Velocità: la velocità con cui i dati devono essere elaborati e analizzati

Tali dati voluminosi (volume) possono provenire da una miriade di fonti diverse (varietà), come dati scientifici o sensori in tempo reale provenienti da IOT (internet delle cose). Questi dati possono esistere in un’ampia varietà do tipi di file, database, documenti e streaming di dati.

Infine, la velocità si riferisce alla velocità con cui devono essere analizzati i big data. Ogni progetto di analisi dei dati di grandi dimensioni ingerirà, aggregherà e analizzerà le origini dati e quindi renderà una risposta o un risultato basato su una query specifica. Questo significa che gli analisti devo poter essere in grado di avere una comprensione dettagliata di questi dati in modo da poter estrarre le risposte che stanno cercando.

La sorprendente crescita dei Big Data

Abbiamo fatto molta strada dai primi fogli di calcolo e database. Oggi, ogni due giorni creiamo tanti dati quanti ne abbiamo fatti dall’inizio dei tempi fino al 2000. Esatto, ogni due giorni! E la quantità di dati che stiamo creando continua ad aumentare rapidamente; entro il 2020, la quantità di informazioni digitali disponibili sarà aumentata da circa 5 zettabyte oggi a 50 zettabyt

Al giorno d’oggi, quasi ogni azione che facciamo lascia una traccia digitale. Generiamo dati ogni volta che andiamo online, quando usiamo i nostri smartphone dotati di GPS, quando comunichiamo con i nostri amici tramite social media o applicazioni di chat e quando facciamo acquisti. Si potrebbe dire che lasciamo impronte digitali in ogni istante. Anche i macchinari industriali negli stabilimenti e nelle fabbriche di tutto il mondo sono sempre più dotati di sensori che raccolgono e trasmettono dati.

Il termine “Big Data” si riferisce alla raccolta di tutti questi dati e alla nostra capacità di usarli a nostro vantaggio in una vasta gamma di settori, incluso il business.

Come funzionano i Big Data (big data cosa sono in pratica)?

Fino a tempi relativamente recenti, i dati erano limitati a fogli di calcolo o database, ed era tutto molto “ordinato”. Tutto ciò che non era facilmente organizzato in righe e colonne era semplicemente troppo difficile da gestire e veniva semplicemente ignorato. Ma oggi grazie a nuove tecnologie è possibile gestire molti tipi diversi di dati. i conseguenza, i “dati” possono ora significare qualsiasi cosa, dai database alle foto, ai video, alle registrazioni audio, ai testi scritti e ai dati dei sensori.

Per dare senso a tutti questi dati i progetti di Big Data utilizzano tool di analisi all’avanguardia che coinvolgono l’intelligenza artificiale e l’apprendimento automatico.

Ci possono essere diversi modi per gestire questi dati, ma in generale il processo si divide in queste fasi:

  1. Archiviazione del dato (strutturato e non strutturato)
  2. ETL (extract, trasform, load). I dati vengono poi manipolati, estratti, trasformati ed eventualmente caricati in altri sistemi informatici,
  3. I dati vengono utilizzati.

Ci sono 2 modi per usare questi dati cioè “via batch” e “in tempo reale”. Nel primo caso uno o più software si occupano di estrarre e trasformare questi dati per uno scopo specifico e questo processo può richiedere diverso tempo in base alla mole di dati e all’analisi che deve essere fatta (da pochi secondi a qualche ora in genere).

Nel caso del real time i dati “in entrata” vengono ingeriti e trasformati immediatamente per essere pronti all’uso. Il real time o near real time non è adeguato in genere per analizzare tutto l’insieme dei nostri dati (es. 1 petabyte) ma è più probabile un analisi cumulativa.

Big data analytics

Ciò che realmente dà valore a tutte le organizzazioni è l’analisi applicata ai dati. Senza analisi, è solo un mucchio di dati con uso aziendale limitato.

Chi ha i dati e chi li sa sfruttare al massimo si ritrova ad avere informazioni potentissime. L’informazione è potere!

Applicando l’analisi ai big data, le aziende possono vedere benefici come l’aumento delle vendite, il miglioramento del servizio clienti, maggiore efficienza e un aumento generale della competitività.

L’analisi dei dati possono essere usati per trarre conclusioni su ciò che contengono, come le tendenze e le previsioni sulle attività future.

Analizzando i dati, le organizzazioni possono prendere decisioni aziendali meglio informate come quando e dove condurre una campagna di marketing o introdurre un nuovo prodotto o servizio.

Questo punto secondo me è molto importante.

La business intelligence serve a questo, ad aiutare a prendere le giuste decisioni.

Un’altra distinzione è l’analisi quantitativa dei dati (o analisi dei dati numerici che hanno variabili quantificabili che possono essere confrontate statisticamente) rispetto all’analisi qualitativa dei dati (che si concentra su dati non numerici come video, immagini e testo).

Tecnologie specifiche per big data

Hadoop ecosystem

Hadoop è una delle tecnologie più strettamente associate ai big data. Il progetto Apache Hadoop sviluppa software open source per l’elaborazione distribuita e scalabile.

La libreria software Hadoop è un framework che consente l’elaborazione distribuita di grandi set di dati attraverso cluster di computer utilizzando semplici modelli di programmazione. È progettato per passare da un singolo server a migliaia di server, ognuna dei quali offre calcolo e archiviazione locali.

Il progetto include diversi moduli come ad esempio:

  • Hadoop Common, le utilità comuni che supportano altri moduli Hadoop
  • Hadoop Distributed File System (HDFS), che fornisce accesso ad alta velocità ai dati delle applicazioni
  • Hadoop YARN, un framework per la pianificazione del lavoro e la gestione delle risorse del cluster
  • Hadoop MapReduce, un sistema basato su YARN per l’elaborazione parallela di grandi set di dati.

Apache Spark

Parte dell’ecosistema Hadoop, Apache Spark è un framework di elaborazione cluster open source che funge da motore per l’elaborazione di big data all’interno di Hadoop.

Spark è diventato uno dei principali framework di elaborazione distribuita per i big data perché permette di eseguire operazioni e analisi “in memoria” il che lo rende estremamente veloce.

Fornisce collegamenti nativi per Java, Scala, Python (in particolare la distro di Anaconda Python) e linguaggi di programmazione R (R è particolarmente adatto per i big data) e supporta SQL, streaming di dati, apprendimento automatico e elaborazione grafica.

Data Lakes

I data lake sono “posti” di archiviazione che contengono volumi estremamente grandi di dati non elaborati nel loro formato nativo finché i dati non diventano necessari per gli utenti aziendali.

Contribuire a alimentare la crescita dei data lakes sono le iniziative di trasformazione digitale e la crescita dell’IoT.

NoSql databases

I database SQL convenzionali sono progettati per transazioni affidabili e query ad hoc, ma sono dotati di restrizioni come uno schema rigido che li rende meno adatti per alcuni tipi di applicazioni.

I database NoSQL risolvono tali limiti e archiviano e gestiscono i dati in modo da consentire un’elevata velocità operativa e una grande flessibilità.

Molti sono stati sviluppati da aziende che cercavano modi migliori per archiviare contenuti o elaborare dati per siti Web di grandi dimensioni. A differenza dei database SQL, molti database NoSQL possono essere ridimensionati orizzontalmente su centinaia o migliaia di server.

Problemi relativi ai big data

I Big Data ci forniscono informazioni e opportunità senza precedenti, ma sollevano anche preoccupazioni e domande che devono essere affrontate:

  • Privacy dei dati — I Big Data che ora generiamo contengono molte informazioni sulla nostra vita personale, molte delle quali hanno il diritto di essere private. Sempre più spesso ci viene chiesto di trovare un equilibrio tra la quantità di dati personali che divulghiamo e la convenienza offerta dalle app e dai servizi di Big Data.
  • Sicurezza dei dati — Anche se decidiamo di essere confidenti che qualcuno abbia i nostri dati per uno scopo particolare, possiamo veramente fidarci di loro per tenerli al sicuro?
  • Discriminazione dei dati — Quando tutto è noto, ci si chiede se è accettabile discriminare le persone sulla base dei dati che abbiamo raccolto sulle loro vite? Possiamo aspettarci di essere analizzati e valutati in modo super dettagliato, e bisogna fare attenzione che ciò non renda la vita più difficile per coloro che hanno già meno risorse e accesso alle informazioni.

Guardando al futuro

I dati stanno cambiando il nostro mondo e il modo in cui viviamo a un ritmo senza precedenti. Se oggi i Big Data sono parte di tutto questo, immagina cosa ci sarà domani. La quantità di dati a nostra disposizione aumenterà e la tecnologia di analisi diventerà più avanzata.

Per le imprese, la capacità di sfruttare i Big Data diventerà sempre più critica nei prossimi anni. Quelle aziende che considerano i dati come una risorsa strategica sono quelle che sopravviveranno e prospereranno. Coloro che ignorano questa rivoluzione rischiano di essere lasciati indietro.

Big data cosa sono? Hai ancora dubbi? Scrivili nei commenti!


Originally published at metadati.it.