Photo by Michael Denning on Unsplash

Introduction

That’s a crazy flow of water. Just like your application deals with a crazy stream of data. Routing data from one storage to another, applying validation rules and addressing questions of data governance, reliability in a Big Data ecosystem is hard to get right if you do it all by yourself.

Good news, you don’t have to build your dataflow solution from scratch — Apache NiFi got your back!

At the end of this article, you’ll be a NiFi expert — ready to build your data pipeline.

  • What Apache NiFi is, in which situation you should use it, and what…


“Early optimization is the root of all evil.” is a common mantra in Software Engineering.

Photo by Brett Sayles from Pexels

Why profiling?

Optimizing for a specific computation when the bottleneck is at the network level isn’t the best use of your time. How do you find out which module needs a critical redesign, a better choice of algorithms, or data structures?

You can use your intuition and test the water using a few print statements here and there. Let’s say you time a DB operation against an image processing task to see which one needs some efforts first, comparing both execution time can help prioritize your energy…


Let’s hack the time

Photo by Mohamed Osama on Unsplash

https://podcast.ausha.co/postmortem/13

Show Notes

Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ? Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois justement Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une plateforme d’expérimentations 🧑‍🔬

Pour collecter les événements des sites clients (e.g., clic sur tel bouton, de telle couleur, etc.) et les faire parvenir à la plateforme d’AB Tasty, c’est tout un système de message queuing qui est nécessaire.

Dans…


Une conversation avec Damien Desfontaines, Senior Software Engineer, Privacy @ Google

Photo by Michał Parzuchowski on Unsplash

Post Mortem Épisode #12

Show Notes

De vos emojis favoris sur iOS à l’affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l’anonymat des utilisateurs?

Dans ce post mortem thématique, le Docteur Damien Desfontaines — Senior Software Engineer, Privacy pour Google nous parle de Differential Privacy (confidentialité différentielle).

Avec des centaines de millions d’utilisateurs actifs chaque jour, les géants du numérique bénéficient de données précises d’utilisation. Ces données, quand elles sont agrégées, peuvent aider à adresser des problèmes de santé publique et améliorer l’expérience utilisateur globale.

Après un…


Une conversation avec Héloïse Nonne, Head of Data Science & Engineering @ Data IA Factory — e SNCF Digital

Photo by Barthelemy de Mazenod on Unsplash

Dans l'épisode 11 de Post Mortem, on revient avec Héloïse Nonne sur un projet de prédiction des retards à la SNCF. Les illustrations ci-dessous sont proposées dans l'épisode:


Et réalité business

Becoming a Kaggle GrandMaster by looking at top rated kernels — Photo by Paolo Chiabrando on Unsplash

Show Notes

Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d’autres compétiteurs.

Plus votre modèle performe, meilleur est votre classement sur le leaderboard du challenge.

Avec ces jeux de données préparées et des métriques à optimiser définies dès le début, le setup Kaggle est souvent bien différent de celui que l’on retrouve lorsque l’on résout un challenge data dans la “vraie vie”.

Retour sur l’expérience de Badr Ouali, Head of Data Science @ Vertica, et sa participation au kaggle TalkingData.

Référence:

  • Si les challenges en Data Science vous intéressent…

Une conversation avec Théo Carrive, CTO de Cheerz

Photo by Mildly Useful on Unsplash

Show Notes

Les fêtes de fin d’années sont synonymes de pics d’activités pour le e-commerce. Alors comment réagir quand on se rend compte qu’un incident se profile à l’horizon du moment le plus business critique de l’année ?

Concepts mentionnés:

  • La commande EXPLAIN de PostgreSQL pour obtenir le plan d’exécution d’une requête.
    Utile pour comprendre pourquoi une requête est anormalement longue.
  • Apple Universal Links pour iOS.
    Un Universal Link est une URL HTTP(S) qui représente votre contenu à la fois sur le web et dans votre app, cela permet aux utilisateurs d’ouvrir votre contenu dans votre app plutôt que dans la vue navigateur.
    Voir…

Une conversation avec Hamza Sayah, Data Scientist à Ponicode

Photo by Noah Black on Unsplash

Résumé des protips abordés

  1. Monitorer en continu l’écart entre les données d’entraînements et les données obersvés à l’inférence

Pour suivre la distribution de données d’entraînement vs données utilisées pour générer des prédictions, on peut monitorer en continu une métrique comme la Kullback Leibler divergence entre ces deux distributions et les stocker dans votre DB timeseries préférée. Ne pas négliger le pouvoir de l’investigation à l’oeil nu — i.e., …


A conversation with Timothy Raymond

Photo by Daria Shevtsova on Unsplash

Episode transcript

François: Hello and welcome to Post Mortem. My name is François; I’m your host for the show. In postmortem, we look back at production issues and understand their root causes, and we reflect on lessons learned. For today’s episode, Timothy Raymond joins me. Hi, Tim. -How’s it going? -Doing good. So, Tim, today you’re going to talk to us about an experience you have been through quite a while ago now. As an introduction, can you give us some context about the industry you were working in and the job you had at that time?


A checklist to help you deliver content faster

Photo by Swapnil Sharma on Unsplash

A 20mins podcast episode can take you hours of editing. As a podcast host and editor, I know how tedious this process can be. In this article, I share a few lessons to make you better at your craft.

I assume that you’re familiar with audio editing and comfortable with your Digital Audio Workstation (DAW) features.

Alright, you just recorded your audio and are super proud of it? Great! Here are three elements to keep in mind before you jump in your episode editing.

#1 Be the master of your tool.

Whether you’re using Garageband, Adobe Audition, FinalCut Pro, or another, audio editing software is an impressive…

François Paupier

Machine Learning Engineer — https://twitter.com/fpaupier

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store