Extraction du site de l’Assemblée nationale
Tokenization (découpage des propos mot par mot) et lemmatisation (noms au masc. sing. et verbes à l’inf.)

Reconnaissance optique des caractères (OCR)

https://tabula.technology/ (exemple de Camille A.-B. et de Marguerite M.)

Panama/Paradise Papers

Visualisations à gogo

Réseaux

Panama/Paradise Papers (Offshore Leaks)

Corporate America

D3

Radio-Canada -> Comment la CAQ a gagné les élections?

Cartes

Le Devoir -> Résultats des élections de 2018 avec très grande granularité (au bureau de scrutin près)

Manhattan Population Explorer

Sport

CourtVision (NBA)

Les rangs de la Liga

Culture

Hip Hop Pudding

Transparence

Les carnets de Buzzfeed sur les feux en Californie (1950–2017)

Les données qui ont servi aux reportages de FiveThirtyEight.

La reddition de comptes algorithmique (Algorithmic Accountability Reporting)

Du journalisme avec quelques bribes d’intelligence artificielle

Apprentissage machine appliqué chez Buzzfeed

Topic Modeling avec l’Assemblée nationale (LDA sur CAQ)

Exemple du moissonnage à la visualisation

Féminisation de la profession médicale

  • Moissonnage live du site du Collège des médecins avec Selenium (md.py)
  • Visualisation 1
En orange, les hommes; en bleu, les femmes
  • Visualisation 2
Visualisation publiée dans Nouveau projet 11.