Désidédata n°5 : Qui aime bien, lit bien

Je vous souhaite la bienvenue au club de lecture Désidédata ! Parce qu’on le vaut bien.

Les fêtes sont passées, le boulot a repris et la grippe est passée par là aussi (j’accepte vos dons de grog bien volontiers d’ailleurs !). Pour égayer ces moments peu élégants où, le nez rouge et coulant, on se morfond sous la couette, j’ai décidé de lancer le Club de lecture Désidédata. Vous pouvez évidemment y participer en m’envoyant vos petits retours sur des livres qui vous ont marqué (que vous en soyez auteur ou lecteur).

Enfin, petit rappel technique : vous êtes nombreux-euses à convier votre entourage à s’inscrire, je vous en remercie ❤ N’oubliez pas de préciser que l’inscription se fait en deux étapes. Lorsque vous vous inscrivez via le formulaire, un mail est envoyé pour confirmer l’inscription. Cette confirmation est requise pour que l’inscription soit effective. C’est peut-être un peu ennuyeux, mais c’est la seule manière d’empêcher les gens de vous inscrire à l’insu de votre plein gré.

Bonne dégustation et à la semaine prochaine !

Comment lire cette publication : Chaque catégorie a sa propre couleur et est indiquée avec un mot-clé “#catégorie”. Les boutons de partage sur les réseaux sociaux sont dans le pied-de-page. N’hésitez pas à partager Désidédata avec vos ami-es et collègues. Vous pouvez faire des suggestions, proposer des contenus et crier votre amour via le bouton magique plus bas et sur Twitter.

#opendata Il pleut des données ouvertes

Décidément : ça a commencé avec l’ouverture des données de la base SIRENE, soit les données sur l’état civil des entreprises en France, attendue depuis longtemps. Ensuite, il y a eu les données touristiques et, moins remarqué, le lancement du portail open data de l’Education Nationale. Apparemment, l’Agriculture suivra. En ce qui me concerne, j’attends avec impatience la publication des noms des parrains des candidats à la présidentielle.

#maîtriser La gueule de bois du data scientist

Fidèle lecteur de Désidédata, Gautier Poupeau est aussi un professionnel que j’admire. Dans un billet récent, il aborde la qualité des données et compare quatre outils pouvant aider à cette occupation ennuyeuse mais nécessaire. Sont abordés Open Refine (de Google), Trifacta Wrangler, Talend Data Preparation et Dataiku DSS. Comme on passe un temps fou à nettoyer ses données, savoir ce que peuvent (ou pas) faire les outils est crucial.

#jeudedonnées Est-ce que j’ai l’air d’une atmosphère ?

On est de plus en plus exposé-e à la pollution. Une excellente initiative, OpenAQ, existe, collectant des données ouvertes et en temps réel sur la qualité de l’air dans différents pays et villes du monde. Les données sont agrégées à partir de milliers de sources, donc leur qualité varie. Maintenant, la communauté rOpenSci a également mis en place rOpenAQ pour faciliter l’accès à l’API. L’outil propose cinq fonctions et ravira les fans de R ❤

#dataviz On ne va plus en faire tout un fromage

D’aucuns peuvent s’en offusquer mais beaucoup seront soulagés : il existe un outil pour trouver la meilleure combinaison vin/fromage. On peut choisir entre 100 vins et plus de 250 fromages, soit de quoi faire de nombreux from’n’pif très réussis. La visualisation est simple, interactive et efficace, alors bon app’ !

#pausecafé Paroles, paroles, paroles…

Le chercheur Chris Harrison a collecté et visualisé les mots le plus souvent associés à un autre mots donnée, dans les recherches faites avec Google (les bi-gram de Google). Il a ensuite mis en correspondance des paires d’antonymes. Divers stéréotypes semblent se reproduire dans ces associations : ainsi, “blonde” est très fréquemment associé avec “dumb” (“stupide”) alors que “business” et “device” (“machine”) le sont avec “smart” (“intelligent”)…

Un échantillon non-représentatif des inscrit-es vous dira que vous pouvez vivre de Désidédata fraîches et d’amour.

La cerise sur le gâteau

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.