Big data, c’est quoi ?

On parle du nouvel ‘Or noir’ (http://BigData.CloudReady.ch)

Pascal Kotté
Nov 22, 2018 · 28 min read

DOSSIER: Big data (1h30)

Auteur: Pascal Kotté, président de l’association de veille numérique collaborative www.CloudReady.ch, animateur du consortium http://LiN.mx, et blogueur sur http://blog.BotReady.ch, entre autres… http://Pascal.KOTTE.net — Une session chez vous? http://callme.kotte.net

Plan: ‘Big data’

  1. C’est quoi ?
  2. Pour quoi ?
  3. Comment ?
  4. Difficultés !
  5. Perspectives !

1- Le Big Data, c’est quoi ?

Exemple 1: Google Ngram viewer: https://books.google.com/ngrams

Image for post
Image for post
Image for post
Image for post
Image for post
Image for post

Toutefois, on peut ensuite programmer les résultats de cette “intelligence” pour automatiser ensuite !

Exemple 2: Netflix

En une année, Netflix a augmenté de 20% sa croissance (de 4 à 5 millions de nouveaux abonnés, sur 3 mois en 2015). Le Big data lui permet de fournir des suggestions et des recommandations, de plus en plus pertinentes et individualisées (par profilages). cf. https://www.frenchweb.fr/big-data-la-success-story-de-netflix/241601

Image for post
Image for post
image: frenchweb.fr

Le contenu proposé n’est pas identique pour tous les usagers. Il est personnalisé.

On retrouve ce type d’analyses dans Facebook, qui va être capable de mieux nous connaître que nos propres proches, à partir de quelques “likes”.

Exemple 3: Automatic Data Processing (ADP)

Un baromètre de l’emploi aux US, mensuellement à jour et Indépendant des administrations, fiable et devenu la référence, utilisant les données de 411'000 entreprises et près de 23 millions de leurs salariés.

Image for post
Image for post
Image for post
Image for post
source: lesechos.fr

Définition du Big data

De la données, beaucoup de données, structurée, ou pas…

  • Non structurée = Des fichiers: Textes, slides, images, PDF, emails, sons, vidéos (Qualification bien plus aléatoire: Surtout sans les précieuses metadata : Sources, dates, localisations, nom des dossiers contenant le fichier, …)
  • Semi-Structurée = un mixe des deux, généralement présenté sous format XML. Par exemple, un flux twitter ou des fichiers non structurés avec metadata structurée (date création, localisation…)
Image for post
Image for post
petitsdejeuners-vaud.ch 2014–12–05
Babak Falsafi (www.ecocloud.ch)
Image for post
Image for post
1 Zettabyte = 1'000'000 Petabytes = 1'000'000'000'000 Gigabytes
Image for post
Image for post

Aparté écologique ! Dans vos emails, arrêtez le truc des arbres !

Image for post
Image for post
Et commencer à penser Eco-digital-responsable !

L’informatique consomme plus que le traffic aérien planétaire !

Image for post
Image for post
Désormais cela va dépasser 10% de la consommation électrique mondiale, et plus de 1,5 x le trafic aérien mondial.

Big data, combiné avec l’Intelligence Artificielle

c’est la 4ème révolution !

Evolutions & révolutions industrielles — Accélérations !

Image for post
Image for post
Nous sommes en train de vivre, la 4ème révolution, post-digital, avec le Bigdata et l’IA (Intelligence Artificielle).
Image for post
Image for post
Et les ordinateurs quantiques, pourraient bien permettre de maintenir sinon accélérer l’exponentialité de cette courbe dans le futur !
Image for post
Image for post
Image for post
Image for post
10 février 1996, un super-calculateur de 2 tours de CPU (au centre) gagne Kasparov aux échecs: Le smartphone de droite, comprend 20 fois ces 2 tours !

Il a fallu 20 ans.

Mais pour la prochaine itération, la tour de calcul qui a battu Eli SEDOL en 2016 au jeu de go, il ne faudra plus que 10 ans… C’est exponentiel !

Image for post
Image for post
Image for post
Image for post
15 mars 2016 ? Le début de la suprématie de l’intelligence artificielle ? Il va quand même falloir un moment pour avoir ces multiples Racks dans sa main !

Du coup, nous disposons désormais des moyens de produire et traiter beaucoup de données !

Y compris pour du profilage et ciblage individuel !

SOCIAL DATA

2017: Reste moins de 50% du monde à connecter à Internet…

Image for post
Image for post
Image for post
Image for post
Image for post
Image for post
Une minute d’Internet en 2016

Image for post
Image for post
Image for post
Image for post
https://whatsthebigdata.com/
Image for post
Image for post
Et Microsoft rachète LinkedIn, 66$ /profil… en 2016, WhatsApp, c’est 42$/profil (en fait un peu +)

Les objets connectés sont arrivés.

IoT — L’Internet des objets (Internet of Things)

Que ce soit sur les humains eux-mêmes (wearable), ou bien au domicile (domotique), ou dans des objets itinérants généralement avec leur propriétaire (voiture, mobiles, drones), ou des objets fixes dans les paysages urbains, . les objets “bavardent” et communiquent.

Image for post
Image for post
  1. Un cœur de traitement facilité pour les données
    (filtrages, agrégations, alertes)
  2. Une mémoire pour stocker la sélection utile de ces données (stockage)
  3. Reporting et présentation des données, avec interfaces programmables API (affichage, échanges, exports)
  4. Et parfois, un système de commande pour piloter des actions sur l’objet (domotique)
Image for post
Image for post
Image for post
Image for post

SaaS = Software as Service — Le Cloud n’est pas en reste

Cela s’ajoute à toutes les informations collectées via les Applications mobiles, ou les services en ligne. Ne serait-ce que pour s’identifier sur un service web, en utilisant un login Facebook, Twitter, Microsoft ou Google, et zou, une entrée dans le Big data de Google: “Tel jour, telle heure, s’est identifié sur tel prestataire hébergé chez SaaS, c’est noté”. Evidemment, avec un Google Chrome, ouvert sur une session identifiée (plus pratique), même pas besoin d’un SSO gratuit pour tracer la totalité des pages visitées. A chaque fois que nous utilisons un service en ligne depuis une page web, ou bien une App mobile, nous signalons des informations qui sont collectées.

Image for post
Image for post
Il est temps de se poser quelques questions !

La responsabilisation passe aussi par les consommateurs (cf. projet http://Responsibility.digital)

Corporate Big data

Les données internes dans les entreprises, “non structurées” pour la plus grande part (email, documents, vidéos, images…), deviennent des sources pour mettre en place des ‘Data lake’ internes. Rappel: Les données de Facebook et Google, sont des ‘Data lake’ corporate, pas du Open Data

  1. Volume: Que ce soit en termes de tailles, ou de nombre de fichiers, ou de nombre d’enregistrement dans une base structurée, c’est Giga big parfois.
  2. Variable: Variété en type de données (métadonnées, sons, images, textes, pdf, slides, bases structurées…)
Image for post
Image for post
image: https://technophiles2016.blogspot.com/2017/08/more-on-big-data.html
Episode de #DataGueule, 3mn sur le Big data !

2- Pour quoi faire ?

Les collecteurs de ces Big data, ne savent pas encore vraiment tout ce qu’ils vont pouvoir en faire. Mais une chose est certaine, c’est que cela va servir à augmenter les rendements, et les revenus… Avec un peu de chance, cela pourrait aussi rendre des services aux humains, à tous les humains ?

  1. Désormais devenu analyse fine de personae afin de manipulation marketing, ou politique… Plus important: Quelques clics ‘j’aime’ suffisent à établir un profil type significatif.
  2. Mais aussi, amélioration de la prévention dans le domaine de la santé.
  3. Amélioration et optimisation des ressources (Smart-cities)
  4. Création ou amélioration de modèles prédictifs sur des phénomènes complexes (Météorologie, Sociologie par exemples)
  5. Recherches Scientifiques (CERN, 150 millions de capteurs sur le ‘Large Hadron Collider’, 25 Po de données à stocker par années, et à sauvegarder)
  6. Surveillances militaires et policières (Détection de fraudes dans la finance)
  7. Protection civile (données sismiques)
  8. Automatisations des ordres financiers, boursiers.
  9. non exhaustif… (ex. Formations personnalisées)

De la prédiction

Image for post
Image for post
Identification sans équivoque d’un nouvel idylle ! A couché à 0, ou un peu avant…

3- Comment ? Les collecteurs IoT

Des capteurs électroniques spécialisés, low-cost, low-energy, low-tech parfois, pour les rendre durables. Mais il y aussi les capteurs “génériques”, pour faire un pilote, une maquette, ou même définitifs pour des mesures complexes.

Collecteurs génériques, Low-Energy-Tech: CPU

Des PC réduits, en mode “lego” (assemblages de pièces optionnelles: écran, LCD; couleur, sans; Wifi ou pas, etc…)

Image for post
Arduino + Rasberry Pi
  • Rasberry Pi: nano-pc complet (+ informatique)

Low-Energy-Tech: LPWan

Des réseaux sans fils bats débits, et basses énergies. Du low-tech, low-cost !

Plateformes IoT

Mais le gros challenge, va être de capter le marché des objets connectés en offrant la supervision et la sécurité, et d’ubériser la place, encore ? Ou pas…

  1. Apple
  2. Google
  3. Microsoft
  4. Samsung

Les outils de traitement des big data

Le problème

Les solutions

Image for post
Image for post
Image for post
Image for post
Image for post
Image for post
Image for post
Image for post
Spark prend la place de MapReduce
Image for post
Image for post

Mais la très grosse rupture qui fait toute la différence, et rend les Big Data redoutablement efficaces, est la combinaison avec les IA.

C’est la véritable 4ème révolution de l’histoire humaine.

Les IA au secours du Big data

Le deep learning va permettre d’explorer dans le Big data, principalement :

  1. La classification multi-dimensionnelle
  2. ?

Cela ne pose pas le moindre problème, aux ordinateurs, qui peuvent explorer et voir, et regrouper sur plusieurs centaines de dimensions différentes !

Image for post
Image for post
Image for post
Image for post
Analyse simpliste humaine, par exemple, test de QI, alignement politique (Droite-gauche). Mode Emerge Map d’ Arnaud Velten
Image for post
Image for post
Image for post
Image for post
modèle 3D, pas facile à voir… Et à n dimensions, l’ordinateur n’a aucune difficulté à repérer des profils similaires, dans 10, 20 ou 100 dimensions…
Image for post
Image for post
Les réseaux de neurones artificielles, et l’apprentissage profond ! (image: tastehit.com)

ImpactIA

Les limites des IA

  • Elle doit être “entraînée” pour être efficiente. Cet entrainement nécessite un contrôle de validation, sur le résultat positif ou négatif de l’expérience apprise.
  • On ne sait pas facilement expliquer “pourquoi”, le choix 1 a été fait sur le 2. La machine apprend, et fait des choix sans les comprendre elle-même.
  • Il manque encore des ‘arbres de connaissances’ partagées, en open data. Mais ces ‘mémoires neuronales’ ou ‘arbres de connaissances’ commencent à être disponibles: Pour la reconnaissance d’images, de sons, de languages.

Une IA peut apprendre instantanément, en dupliquant les ‘connaissances acquises’ d’une autre IA (compatible) !

Mais la ‘singularité’ n’est pas encore là.

4- Des difficultés !

IoT: Centralisé vs Distribué ! Perte de confiances

Image for post
Image for post
Image for post
Image for post
Rachats des GAFA: Le phénomène de trust, déjà existants depuis le néolibéralisme est amplifié dans le digital.
Image for post
Image for post

“Alors oui, les BATX sont en route pour dominer le digital mondial en 2025.” (Aurélie Dano)

La Chine est restée en gouvernance centralisée en interne, mais elle embrasse la ploutocratie planétaire en externe, en rachetant même des terres hors de la Chine, des entreprises, et l’or de la planète !

Les limites culturelles du Big data dans l’IoT

  • Régulations GDPR/LPD2, (sur?)protection de la sphère privée.

Polémique ?

Des pistes d’évolutions ?

  1. Réappropriation de nos patrimoines publics et personnels: Private, Secure, et Open Data by Design.
    Créer des coopératives de gouvernances publiques, et d’intérêt publique, pour collecter nos propres données, afin d’en conserver le contrôle et les droits d’accès, anonymisées le cas échéant. Profilage oui, mais sous notre contrôle.

Les applications pratiques

Smart-cities

Image for post
Image for post
source: Talend.com
Image for post
Image for post

Agriculture

Au-delà de connecter nos animaux et légumes:

Image for post
Image for post

Pushing for open data

Ecologie

Image for post
Image for post
Image for post
Image for post
Encore Open Data nécessaire !

Astronomie

Image for post
Image for post

Des accès libres (open data), de nouveau une nécessité !

Portant sur 16 critères pouvant se résumer aux règles suivantes:

  • Les licences / droits d’utilisations des données sont clairement exprimés
  • Les données sont réutilisables
  • Les données sont fiables
  • Les données sont identifiées de manière unique selon une nomenclature permettant un référencement externe

Santé

  • Prévention: HUG, Christian Lovis: 2016 Rencontres Genève-LAB. L’hôpital deviendra un datacentre, avec des mesures et surveillances à domicile (IoT wearable). Le CHU invitera les habitants, pour des examens dès l’apparition des risques, avant même les premiers symptômes…
  • Mélanome malins, Watson déjà opérationnel. Bientôt depuis son smartphone ?
Image for post
Image for post
image: santeperso.ch
Image for post
En 2018, c’est moins de 1'000$ Délai < 1 semaine

Sécurité

  • Identifications faciales:
40mn en anglais, présentation d’une utilisation du Big Data dans la protection des données

Finances, Mobile-banking

J’ai testé Revolut: http://revolut.kotte.net et l’identification de la carte d’identité, se fait en ligne, en temps réel, via une IA qui analyse la pièce d’identité scanné et la photo de la personne prise avec l’appareil. Sécurité très limité, mais service immédiatement disponible. Ce n’est toutefois pas un établissement bancaire, c’est une carte de débit, associée à la banque Loyd.

Marketing & Politique

Météorologie, climatologie, modélisations

Les premiers modèles qui utilisaient des gros calculateurs en 1970, sont devenus accessibles et utilisables, en ligne, avec des calculs en secondes:

Mais pas que…

Image for post
Image for post
Bien d’autres applications à explorer…

5- Perspectives

Machine Learning, sans Deep learning… ?

En 2017, Libratus a battu haut la main les meilleurs joueurs de Poker mondiaux. On lui a appris les règles, et il n’y a pas eu, comme avec AlphaGo, un apprentissage profond en amont…

Informatique quantique

Les accélérations technologiques qui permettent d’exploiter et d’approfondir les mêmes ‘data lake’, ne semblent pas prévoir de ralentir. Cela pourrait même faire un bon avec l’informatique quantique, dont l’acteur majeur dans un futur proche pressenti, en regard des investissements réalisés, est: La Chine.

Quand je vous dis, que la Singularité, ce sera avant 2050 ! Et peut-être bien en Chine… Espérons que cette singularité sera bienveillante, pour tous les humains et les être vivants de cette planète…

Bonnes chances à tous, et une belle vie, malgré tout !

Merci pour cette lecture/écoute


BotReady

Etes-vous "Bot Ready" ?

Pascal Kotté

Written by

Réducteur de fractures numériques, éthicien digital, Suisse romande.

BotReady

BotReady

Etes-vous "Bot Ready" ? En Suisse romande et France voisine ! Un programme de veille collaborative avec CloudReady.ch, en collaboration avec Tech4good et Léman Innovation Numérique (LIN). Chatbot, Voicebot, Assistant virtuel, Avatar, Agent personnel Autonome (ASA)…

Pascal Kotté

Written by

Réducteur de fractures numériques, éthicien digital, Suisse romande.

BotReady

BotReady

Etes-vous "Bot Ready" ? En Suisse romande et France voisine ! Un programme de veille collaborative avec CloudReady.ch, en collaboration avec Tech4good et Léman Innovation Numérique (LIN). Chatbot, Voicebot, Assistant virtuel, Avatar, Agent personnel Autonome (ASA)…

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch

Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore

Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store