Bxl’air bot, bientôt six mois de données et un premier bilan

Laurence
4 min readSep 9, 2017

--

Lancé à la fin avril 2017 en collaboration avec le magazine belge Alter Echos, « Bxl’air bot » est un projet de datajournalisme automatisé développé dans le cadre d’une recherche doctorale à l’ULB (ReSIC). Le dispositif se trouve au cœur d’une recherche plus large portant sur la production automatisée d’informations et les usages journalistiques, dans l’hypothèse d’une collaboration fructueuse.

Cette hypothèse n’est certes pas neuve : considérant que s’il s’agit d’une course, elle est perdue d’avance, Eric Brynjolfsson et Andrew McAfee (2011) plaidaient dans « Race against the machine » pour une alliance homme-machine, le premier tirant parti de l’autre. Dans le contexte journalistique, Ricardo Gutierrez (2014), secrétaire général de la Fédération européenne des journalistes, estimait que « La force des machines, c’est de pouvoir traiter d’importants volumes de données. Les robots ne me font pas peur : à la limite, ils renforceront le rôle du journaliste ». Plus récemment, Andreas Graefe, qui a consacré plusieurs recherches au phénomène du « robot journalisme » ne posait pas un autre constat : les machines à produire de l’info ont certes de sérieux atout en termes de rendement et de capacités mais elles ne peuvent se substituer au journaliste humain dès lors qu’il s’agit de contextualiser les données ou d’en livrer une analyse approfondie.

« Bxl’air bot » a été conçu sous la forme d’une web application, qui collecte en temps réel les données relatives aux mesures de cinq polluants (particules fines de type PM10, PM2.5, black carbon, ozone et dioxyde d’azote) effectués dans dix stations en région bruxelloise. Il les restitue sous la forme de texte, carte et graphiques dont les contenus sont mis à jour en continu. C’est l’aspect serviciel du newsbot, sa partie la plus visible que l’on retrouve également, mais de manière plus synthétique, sur le site internet d’Alter Echos (via un plugin développé pour WordPress) et sur Twitter. Mais le job le plus intéressant pour les journalistes s’intéressant à la problématique de la qualité de l’air en région bruxelloise — un sujet riche en controverses, d’autant que la Commission européenne a mis en demeure la Belgique, l’an passé, notamment pour le non-respect de ses normes en matière d’émissions de dioxyde d’azote en région bruxelloise — , ce sont les moyennes enregistrées quotidiennement et stockées dans une base de données MySQL. Ces moyennes font l’objet, sur la plateforme, d’une première analyse statistique. Elles y sont également disponibles sous la forme de rapports mensuels présentés sous la forme de graphiques.

Sur le plan technique

Les données sont récupérées, à l’aide d’un parseur, sur le site de la Cellule interrégionale de l’environnement (CELINE). Elles y sont publiées sous la forme de tableaux et classées par type de polluant. L’intérêt de l’application est donc de réorganiser tout cela et d’en donner une lecture globale dans un souci d’accessibilité. Toutefois, elles dépendent directement de pages web dont la structure peut varier dans le temps et de la publication de valeurs qui sont parfois absentes ou anormales. Au moment de la conception, un modèle d’analyse de la qualité des données a été établi, de manière à anticiper les problèmes.

Il repose sur la littérature en matière de data quality, ici placée dans la perspective d’une adéquation aux usages journalistiques. La compréhension du cycle de vie des données, un concept issu du data management, a également permis d’orienter les décisions liées au développement de l’application. Pour ce faire, il était important de bénéficier d’une expertise du domaine, qui a été fournie par CELINE, le diffuseur des données.

Malgré toutes ces précautions, une panne d’électricité survenue dans le réseau des stations de mesure a démontré que sans données… pas de robot. Tout comme il n’était pas non plus possible de prévoir que le mode de calcul de l’indice quotidien de la qualité de l’air allait être modifié et faire l’objet d’une nouvelle page sur le site. C’est dire l’importance d’un monitoring humain, pour corriger les erreurs et assurer la maintenance du système. En termes de temps, cela ne représente pas un investissement énorme mais ce travail est essentiel, et il l’est d’autant plus par la vocation journalistique du projet. Moyennant quelques adaptations, le système est reproductible. En dehors du travail de recherche, cela donne ainsi quelques pistes intéressantes à creuser.

Sur le plan journalistique

« Bxl’air bot » est d’abord devenu un sujet d’actualité, d’autres journalistes d’autres rédactions y ayant consacré un article ou un reportage. L’expérience y est considérée plutôt positivement, l’accent étant davantage placé sur le caractère serviciel de l’application. On a ainsi parlé du robot en Belgique, en France… mais aussi en Algérie. Il a été aussi accueilli officiellement comme nouveau « membre » de la rédaction d’Alter Echos, par la rédactrice en chef Sandrine Warsztacki, non sans une pointe d’humour : lire ici « Un robot à la rédac ». Par ailleurs, dès sa phase de prototypage, deux journalistes ont participé activement à sa co-construction car il était essentiel que l’application réponde à leurs demandes.

Dans la rédaction d’Alter Echos, qui consacrera un dossier au sujet à partir des données récoltées au terme d’une année d’expérience, le processus journalistique est enclenché et plusieurs pistes sont d’ores et déjà à creuser. Une formation a également été organisée cet été, des journalistes passant de l’autre côté de l’application, pour effectuer des requêtes de bases en MySQL et récupérer les données dans un tableur.

Céline Gautier, journaliste indépendante, est activement intégrée à ce projet au sein d’Alter Echos. Elle collabore également au magazine Médor et c’est dans ce cadre qu’elle a réalisé un premier article, “Un air louche” dans lequel elle utilise les données du bot. C’est à lire dans le numéro de ce mois-ci.

--

--

Laurence
Laurence

Written by Laurence

Data, code... & robot journalism. Journo-dev & PhD student (ReSic)

No responses yet