5 leçons essentielles retenues au DataHarvest 2016

Au rendez-vous européen du datajournalisme, qui avait lieu à Malines (Belgique) du 3 au 5 juin, il ne manquait pas d’exemples pour illustrer la place grandissante de l’analyse des données dans les investigations retentissantes de l’année.

Face à des montagnes de données à exploiter ou à compiler, plusieurs médias se sont rejoints au sein de réseaux internationaux et ont choisi de publier simultanément leurs enquêtes pour maximiser l’impact sur l’audience.

Voici les leçons retenues des échanges autour de ces “success stories” :

1) Les datajournalistes doivent s’associer aux journalistes de la rédaction

Datajournalism is not magic, it’s just another form of journalism

Robert Gebeloff a détaillé l’organisation des équipes “data” au NY Times. Il fait partie d’une équipe de 5 journalistes ayant une expérience de reportage et situés au sein de la rédaction. Ils identifient, parmi les sujets traités par leurs collègues, ceux sur lesquels leurs compétences peuvent avoir un impact. Son aide permet de “rendre une bonne histoire encore meilleure, et plus fiable”.

Les chances de réussir sont faibles si vous recherchez des données, puis une histoire à raconter grâce à celles-ci. Elles sont fortes si vous vous intéressez aux sujets sur lesquels travaillent déjà les reporters

Les journalistes spécialistes de l’éducation, souvent confrontés à des données difficiles à exploiter, ont été les premiers à accepter et demander une telle collaboration.

Au Spiegel, les 7 personnes spécialisées dans l’analyse de données ne travaillent plus qu’en symbiose avec les journalistes des rubriques. Elles leur proposent aussi des formations.

C’est également la stratégie du Guardian : une équipe de datajournalistes travaille avec la rédaction, tandis qu’une équipe d’infographistes web produit du contenu visuel et que des développeurs se tiennent prêts à participer à un projet si leurs compétences sont requises.

Pour pouvoir impliquer la rédaction, cette équipe a dû faire preuve de pédagogie : expliquer que les données ne sont pas seulement des chiffres, que leur travail n’était pas seulement technique, inutile ou ennuyant.

Data is gold, developers are stars. How to keep media paying the cost of a data desk ?

Le projet “Where can you afford to buy a house” a marqué un tournant au Guardian : “Les éditeurs ont commencé à se dire que notre travail n’était pas si mal”, explique Helena Bengtsson (@HelenaBengtsson).

What we do has a value

A l’inverse, certaines équipes “data” se veulent indépendantes de la rédaction. Ainsi, la “Data team” de la Danish Broadcasting Corporation réunit 3 journalistes, 1 éditeur, 2 développeurs, 1 infographiste et 1 assistant avec pour but de créer “des contenus uniques, intéressants et pertinents qui utilisent les données comme source et comme méthode”, selon Katrine Birkedal Frich (@datakatrine)

We are NOT a service data desk for the newsroom, but an independent editorial.

L’arrivée d’une team data au sein d’une rédaction peut également provoquer une certaine méfiance et incompréhension. Ainsi, Marcos Guarcia Rey de El Mundo a essayé “d’évangéliser” sa rédaction mais n’a pas toujours obtenu de résultats concluants.

Les débuts de l’équipe data du NY Times n’ont pas été plus faciles :

At first, people don’t know that you exist and they think they don’t need you. You have to go in the newsroom and present yourself, go to meetings where we talk about stories and find in which one data can help.

2) Le datajournalisme permet de sortir des scoops

Selon l’hypothèse de départ, confirmée par des experts : les cotes des paris en ligne sur les matches de tennis qui varient de plus de 10% avant le début de la rencontre sont considérées suspectes. En utilisant des données disponibles en ligne (Oddsportal.com), les journalistes ont pu identifier ces matches suspects, et 15 joueurs qui les perdaient fréquemment, sans explication apparente.

L’enquête qui s’en est suivie auprès d’officiels et de spécialistes a permis de donner un contenu humain à cette démonstration statistique, et d’obtenir des documents confidentiels, confirmant que les signalements reçus par les autorités de contrôle étaient restés sans réponse.

Electronik leaks are the new normal.

Global collaboration is the only way.

Datajournalism is here to stay.

La keynote présentée par Mar Cabra (@cabralens), datajournaliste à l’ICIJ, s’est attachée à démontrer la dynamique de leurs enquêtes successives : Offshore Leaks, LuxLeaks, Swiss Leaks, Panama Papers…

Image for post
Image for post
Süddeutsche Zeitung

Beaucoup de médias ne s’emparent pas encore des données qui leur sont proposées. C’est le sens du propos de John Doe (la source anonyme des Panama Papers) dans sa récente tribune “The revolution will be digitized” :

En plus de la Süddeutsche Zeitung et de l’ICIJ, les rédacteurs en chef de plusieurs titres de presse majeurs ont pu consulter des documents issus des « Panama papers » — même s’ils ont assuré le contraire. Ils ont choisi de ne pas les exploiter. La triste vérité est qu’aucun des médias les plus importants et compétents du monde n’a montré de l’intérêt pour cette histoire. Même Wikileaks n’a pas donné suite à de multiples sollicitations par le biais de son formulaire de signalement.

3) Le partage des informations est la clé

Pour Alain Lallemand, du journal Le Soir qui a participé à cette dernière enquête, la collaboration entre des rédactions de tailles très différentes (Mediapart, Der Spiegel, El Mundo ou l’Espresso) permet de réunir plusieurs manières de penser et de travailler, et de produire des contenus diversifiés.

Au rythme d’une réunion hebdomadaire, les participants pouvaient partager les nouveaux résultats et préparer la publication finale.

All members should be active and profit from the network

Selon lui également, la participation aux réseaux d’investigation n’est pas exclusive. Ceux-ci doivent coexister en couches superposées. En revanche, la concurrence économique conduit le plus souvent à ne travailler qu’avec un média par pays et par support.

La traduction des enquêtes et des infographies entre les médias participants reste un challenge, tout comme les questions juridiques parfois différentes selon les pays.

Mais la collaboration permet aux médias de disposer de contenus de qualité créés et partagés par les autres membres du réseau. Ainsi, cette infographie 3D publiée sur Mediapart sur les techniques utilisées pour remilitariser une arme.

Paula Guisado, du journal El Mundo, explique que si le réseau implique les médias et leurs ressources, la confidentialité est une question à régler individuellement avec les journalistes. D’autant que ces derniers travaillent parfois pour le réseau en plus de leur travail quotidien.

4) Analyser les données demande du temps

Plusieurs mois ont été nécessaires à l’ICIJ pour seulement prendre connaissance de l’ampleur des données communiquées par le Süddeutsche Zeitung, avant de passer la main aux journalistes du réseau, qui ont également enquêté pendant de longs mois à plein temps.

Une enquête réalisée par le NY Times sur les class-actions a nécessité 6 mois de labeur. Celle de Buzzfeed sur le tennis a requis 15 mois d’analyse des données !

Enfin, une enquête sur le “trafic” de jeunes joueurs de football nigérians et guinéens amenés en Europe par des agents, puis abandonnés s’ils n’obtiennent pas de résultats rapides, a nécessité plus d’un an de travail. Le projet consistait à retrouver l’identité de joueurs et d’agents parmi des bases de données de transferts de joueurs.

Push your boss to get enough time

La spécificité temporelle du datajournalisme est peut-être qu’il faut additionner le temps de l’enquête à la durée nécessaire pour mettre en place techniquement les outils permettant de lire et fouiller dans les données.

Pas moins de 35 machines et une dizaine de jours ont été nécessaires pour indexer le contenu intégral des Panama Papers. Mais si les développeurs n’avaient pas créé un outil spécial permettant d’utiliser en parallèle plusieurs machines, plus d’un an aurait été nécessaire !

Give me two weeks and I will come back with something that will save time for everyone

— @mcaruanagalizia, développeur à l’ICIJ

5) Les équipes data créent, mettent en place, et adaptent leurs propres outils

Nul besoin de faire intervenir des équipes de développement extérieures, pour installer ou créer des outils ad-hoc qui seraient rapidement dépassés. Les compétences de développement se trouvent en interne, et les ressources sont très souvent en open-source. Par ailleurs, les journalistes testent et utilisent les outils sans attendre qu’ils soient terminés.

A l’ICIJ, une équipe de développeurs est dédiée au développement du site et des visualisations de données, tandis qu’une autre se concentre sur les outils internes, utiles à l’enquête.

L’European Investigative Collaborations insiste aussi sur la création de ses propres outils.

On peut les répertorier en plusieurs catégories :

Les plateformes d’échanges

  • Vanilla : forum classique à héberger
  • Oxwall : réseau social interne

Les moteurs de recherche

  • Tika : pour extraire le texte d’un ensemble de documents
  • BlackLight : un moteur d’indexation et une interface pour parcourir et lire de très grands ensembles de documents
  • DTSearch, Nuix : pour rechercher parmi des fichiers

Les bases de données

  • Neo4j : moteur de base de données
  • Linkurious : indexation et interface graphique pour accéder et diffuser ces données

Let’s build a stack !

La gestion parallèle d’un grand ensemble d’outils disparates devient rapidement chronophage. Par ailleurs, la confidentialité des données est primordiale dès lors qu’on tente de protéger le secret des sources et des investigations en cours.

We could use Slack but we don’t want Slack has our data

Les équipes data et les développeurs tentent de répondre, chacun à leur manière, à ce problème.

La startup américaine Sandstorm propose une solution : un type de Google Drive à héberger soi-même et composé seulement de technologies open-source. L’accent est mis sur la simplicité d’installation et d’utilisation. La version de base est gratuite, une version pour les entreprises est payante.

Je n’ai pas assisté à toutes les conférences, et je n’ai pas pu retranscrire ici tous les échanges passionnants que j’ai pu avoir lors du weekend.

Pour me faire part de vos commentaires, vous pouvez me contacter sur Twitter : @julesbonnard

Written by

Datajournaliste @afp - @AFPgraphics. J'aime les reportages et les lignes de code. PGP: D5DA2FD8

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store