Breakfast at Dalloz

Du storytelling au storytooling (la formule est de Amy Webb)

Premier billet pour rendre compte d’un premier rendez-vous.

Des mois qu’on nous sollicite (nous = la R&D ELS) parce qu’on aimerait savoir ce qui se fabrique dans notre officine/laboratoire, des mois que nous réfléchissons à la meilleure façon possible de répondre à cette curiosité légitime, dans un format aimable, et reproductible. Si bien que nous avons fini par vous proposer… un petit-déjeuner de travail ; ce n’est pas original mais ça fonctionne!

Si vous étiez présents jeudi 29 juin chez Dalloz Formation, vous pouvez ne pas lire tout ce qui suit et trouverez tout en bas de ce billet une liste de liens sans plus de commentaire.

Le sujet de cette première session est taillé assez large : il est question de donner à voir ce que l’intelligence artificielle, et particulièrement le machine learning, pourraient apporter à un environnement de rédaction et d’édition. Pour y répondre, il est toujours précieux d’aller voir ce qui se passe du côté de la presse généraliste, qui a très tôt entrepris de refonder son offre et ses modèles éditoriaux autant qu’économiques (billet à venir sur le dernier GEN Summit qui s’est tenu mi-juin). Trois pistes de réponses ci-dessous, dont deux ont été exposées lors de notre petit-déj.

Détecter, avec le New York Times

Il y a deux ans environ (autant dire une éternité dans le monde du machine learning), le NYT annonçait avoir intégré à son éditeur une solution de détection d’entités nommées (ou NER: Named-Entity Recognition, autrement dit un algorithme qui permet de détecter et typer des mots ou expressions qui ont vocation à être identifiés parce qu’ils ont du sens pour qualifier nos données).

Ainsi, peut-on tagger en temps réel, au cours de la rédaction, des noms de personnes, d’organisations, de lieux ou de notions/concepts (qui appartiennent à une taxonomie du NYT) avec lesquels on imagine un calcul facilité de métadonnées, ou bien la construction d’un graphe de connaissances qui permet de rapprocher des documents, et plein d’autres possibilités encore…

La petite vidéo démo ci-dessous donne une idée de ce que ça donne en back-office: au fur et à mesure de ce que j’écris, les mots ou expressions qui ont du sens pour mon métier sont repérés et typés; je peux prendre la main pour ajuster (si bien que le modèle d’apprentissage se réajuste en fonction) et j’envoie pour validation/édition/publication (à chacun son circuit de travail, ou workflow).

http://nytlabs.com/projects/editor.html

À quoi ça sert pour ELS?

Outre le repérage d’entités qui nous permettrait de faciliter la structuration des références juridiques (ces entités entrant dans le vocabulaire des réfs en question: une nature de texte + un organisme émetteur + un lieu + une date + un numéro d’ordre), on peut imaginer de s’appuyer sur ce taggage du contenu pour plein d’autres choses: poser des liens sur ces entités (qui pointeraient vers une notice biographique, ou une définition par exemple: la description d’un organisme, d’une juridiction), publier un nuage de mots-clés attaché à chaque article, rapprocher des articles qui présenteraient un nuage de mots-clés similaires (en réglant le “taux de similarité” comme on le souhaite), etc.

Annoter, avec Bloomberg Lens

Une autre réponse se trouve du côté de la super appli/extension imaginée par Bloomberg avec le concours de Postlight début 2017.

Détecter des entités au sein de son offre documentaire, c’est une chose. Transporter la fonctionnalité ailleurs, par exemple sur n’importe quelle page web, ça peut avoir du sens. Ainsi, Bloomberg a-t-il développé une extension (et une appli Android et iOS) qui permet de scanner une page web et d’afficher, dans un volet en marge, le cours des entreprises présentes dans la page, des news à leur sujet, une bio des personnes physiques citées.

Un exemple ici:

ou là:

À propos d’annotation

Joachim Savin, designer (son portfolio ici), est venu nous présenter son projet : Les surligneurs, mené avec des universitaires de la faculté de droit de l’Université Versailles Saint-Quentin (UVSQ). En quelque mots, il s’agit de fact-checker les déclarations de politiques sur un plan juridique, à la façon des Décodeurs du Monde.

Ici, de simples hyperliens posés à la main sur chaque élément (expression à fact-checker, ou fondements légaux, ou noms de personnes) mais l’articulation de ces différents éléments entre eux a été pensée et le format d’un article organisé de manière à rendre compte de la démarche d’explicitation-démystification.

Genius Annotation

Ceux qui voudraient s’essayer à l’annotation de n’importe quelle page du web peuvent télécharger cette extension créée par une “vieille” start-up fondée en 2009 et alors incubée par The Y Combinator.

Le principe en est simple: il s’agit en quelque sorte de permettre du méta-texte sur du texte d’une page web, à la façon de notes ancrées ou de commentaires dans un éditeur collaboratif, affichés en l’occurrence dans un volet dédié, avec identifiant, boutons de vote et signalement, comme pour tout flux social.

L’outil n’a pas forcément trouvé son public mais il connaît un usage professionnel intéressant avec The Fix, un blog du Washington Post, encore lui, qui se propose de décrypter des débats publics, des verbatims de discours, etc.

Un exemple ci-dessous à propos d’un débat chez les Républicains (GOP) en 2015:

https://www.washingtonpost.com/news/the-fix/wp/2015/09/16/annotated-transcript-september-16-gop-debate/

Écrire (ou presque), avec Associated Press

Sujet déjà banalisé, la génération automatique de dépêches ou d’infos courtes et structurées est évoquée à chaque scrutin électoral car elle permet de produire de l’info de façon massive et avec une qualité constante, en l’occurrence des résultats circonscription par circonscription; c’est a minima ce qu’on pourrait attendre d’une automatisation de process.

L’agence de presse américaine Associated Press (AP) a démarré dès 2014 des expérimentations dans le domaine de l’info financière, en partenariat avec une société spécialisée dans la génération automatique de textes: Automated Insights. Trois ans plus tard, AP est en mesure de livrer dans un copieux rapport des recettes et conseils en forme de bonnes pratiques, et entreprend de démonter quelques clichés sur le robot-journaliste. Le principe de la génération automatique échappe au machine learning et se fonde entièrement sur des règles et des dictionnaires. On a affaire à de l’info suffisamment structurée de façon native (des données chiffrées, quoi de mieux: résultats électoraux, sportifs, cours boursiers, bulletins météo, sismique, mais aussi rapports annuels d’activité tout en tableaux…) pour produire, avec un moteur de règles, des textes convenablement formés, dans lesquels on peut même introduire de la variété stylistique. D’autres acteurs bien connus comme Yseop ou Syllabs fournissent déjà des services équivalents pour des acteurs francophones du secteur de la presse ou des banques-assurances.

Outre le recours au Natural Language Generation (NLG), AP a étendu ses expériences de journalisme algorithmique à d’autres champs, puisant cette fois dans le potentiel du machine learning : ainsi, va-t-on repérer des images satellite préfigurant une possible déforestation, l’algorithme opérant une prédiction à partir d’un modèle construit sur la base d’images antérieures de déforestation. On reviendra dans un post ultérieur sur le datajournalisme, et l’intégration de data scientists dans des newsrooms (ou rédactions) au service de la production journalistique.

À noter que dans l’aventure AP l’on ne s’emploie pas seulement à optimiser des processus de production éditoriale mais aussi à étendre de façon appréciable le périmètre de ceux-ci: ainsi produire automatiquement de la dépêche d’info financière permet de le faire désormais sur un nombre infini de sociétés.

Le lien vers le rapport complet ci-dessous.

En savoir plus : des liens et quelques autres ressources

Le blog de la R&D du New York Times: http://nytlabs.com/

Le récit du projet Bloomberg Lens: Bloomberg | Postlight

le site de Joachim et de ses camarades d’UVSQ: https://lessurligneurs.eu

L’histoire du projet Genius, aux débuts prometteurs et au business model compliqué: https://www.theverge.com/2017/3/15/14924238/rap-genius-web-annotator-chrome-extension-news#annotations:11516624

Le rapport précieux d’Associated Press, “converti” depuis trois ans à la rédaction automatique de contenus, et au machine learning dans les rédactions depuis: AP Insights | Report: How artificial intelligence will impact journalism

Des sites à propos d’innovation éditoriale, de l’actu professionnelle, des innovations tech dans le secteur de la presse et des médias, il y en a pléthore et ils méritent un post à eux tout seuls; en attendant, quelques incontournables:

Nieman Lab, rattaché à Harvard

Media Shift Lab , basé à San Francisco

http://www.meta-media.fr/ (en français, par l’excellente direction de la prospective de France Télévisions)

Bonus

Des docs — accessibles ! — que nous avons produits récemment sur l’IA et le machine learning, à titre d’introduction: