L’écosystème des administrations publiques sur GitHub

Quelles institutions publiques sont présentes sur GitHub ? Le partage des rouages techniques des administrations est-il un succès ? Le constat est mitigé, en France comme ailleurs dans le monde. Petit voyage en territoire GitHub, avec des données.

En octobre 2013, GitHub, le site web de partage de code et de données, lançait government.github.com. L’idée ? Devenir l’infrastructure technique permettant une plus large collaboration entre gouvernements et citoyens. L’ouverture d’un espace dédié n’était pas une grande surprise : diverses institutions publiques américaines ainsi que des stratégies numériques émanant de la Maison Blanche avaient déjà ouvert la voie. L’un des projets les plus emblématiques en 2013, Project Open Data, était justement un dépôt et des outils associés permettant de travailler avec les données ouvertes publiées par le gouvernement américain. En bref, on pouvait forker le gouvernement américain sur GitHub.

Le fort engouement des institutions publiques pour GitHub

La liste de pays ayant une présence plus ou moins solide sur GitHub s’est progressivement étoffée. Un an après le lancement de government.github.com, il y avait déjà 10 000 utilisateurs actifs et affiliés à une institution publique inscrits sur GitHub. Par ailleurs, le nombre d’institutions présentes avoisinait les 500. Divers experts et médias n’ont pas tari d’éloges sur ce “couteau suisse de l’open government” qu’est GitHub, à mi-chemin entre l’espace geek par excellence et un réseau social :

On peut [déjà] voir l’avenir du développement de la gouvernance : [pouvoir] jeter un coup d’œil, en toute transparence, à n’importe quelle question d’intérêt public et avoir la possibilité d’y participer et de collaborer autant qu’on le souhaite. Littéralement, on pourrait regarder la technologie gouvernementale se faire et défaire sous nos yeux en temps réel.

Tout ceci est bel et bon. Un tel festin de transparence n’invite qu’à s’y donner à cœur-joie. Et qu’est-ce qu’ils y font, ces fonctionnaires, sur GitHub ? Et est-ce que les citoyens, surtout ceux avec un niveau technique suffisant, sont présents et actifs, participant et collaborant en toute transparence avec les représentants des différentes administrations publiques ?

Un état des lieux en avril 2016

Data scientist à Washington, Emanuel Feld est actif dans les communautés autour des données ouvertes. Il a créé une base de données des dépôts institutionnels sur GitHub pour disposer des données sur lesquelles s’appuyer pour répondre à ces questions. J’ai utilisé ces données-là et me suis également plus spécifiquement intéressée à la France. Euh, parce que ;-)

Au total, il y a 600 dépôts institutionnels sur GitHub. Les forks n’y sont pas inclus. Mais certains dépôts sont plus grands et actifs que d’autres.

Comme on le voit, une majorité des administrations présentes sur GitHub semble anglo-saxonnes. Si on regarde ce même top 20 par pays :

Données d’origine par Emanuel (licence MIT), augmentées par votre serviteure (licence MIT). La très grosse majorité des dépôts ont été créés par des administrations américaines et britanniques. Voir la version interactive.

Pratiquement tous les dépôts les plus importants sont créés par des administrations américaines et britanniques. Une bonne partie des dépôts concerne des standards ; des produits modulaires tels que des plugins CKAN issus de data.gov.uk figurent également parmi les ressources les plus réutilisées.

Et comme je disais plus haut, certains dépôts sont plus actifs que d’autres. Le palmarès des dépôts les plus actifs, en nombre de contributeurs, revient en grande partie aux Américains et Britanniques :

On aurait pu imaginer que plus un dépôt est important en taille (c.-à-d., on y verse beaucoup de fichiers, assez régulièrement, etc.), plus il compterait de contributeurs. Eh bien, pas exactement. Comme on le voit par le graphique ci-dessous, cette supposition ne se vérifie que partiellement :

C’est peut-être plus facile de voir la tendance générale se dégager :

Cette tendance n’est cependant que tendance : par défaut, les utilisateurs nouvellement inscrits sur GitHub ont des profils privés. Il est donc impossible d’établir le nombre de contributeurs avec certitude. Je parle également de tendance générale concernant la majorité des dépôts, car même si tous les utilisateurs étaient publiquement visibles, il est peu probable que les nombres changent significativement.

Quelles licences pour ces dépôts ?

Une question importante est le cadre légal de publication de ces informations. En effet, si la licence d’un dépôt n’autorise pas sa réutilisation, il serait plutôt normal que ledit dépôt ne bénéficie pas d’un nombre important de contributeurs (externes) et de forks.

Question méthodologique, il a fallu faire des choix. Pour avoir une bonne idée des licences les plus utilisées, seuls les endroits (pays, villes, etc) avec au moins 10 dépôts et minimum 2 administrations présentes ont été retenus.

Sont marquées avec “licence inconnue” les occurrences où aucun fichier LICENSE n’est identifié dans la racine du dépôt GitHub correspondant. Ainsi, si jamais l’administration a précisé la licence quelque part ailleurs (par ex., dans le fichier README), ce n’est pas pris en compte et la licence est “inconnue”.

Toutes les licences identifiées sont mentionnées par familles (plus facile à lire). Version interactive. Voir aussi ce graphique avec les nombres détaillés par licence plutôt que par famille.

Comme on le voit, la moitié des dépôts publics n’ont pas indiqué leurs licences de la manière standard, soit dans un fichier dédié à la racine du dépôt. Au moins 13 % des dépôts sont sous MIT et au moins 8 % sont sous une version quelconque de la GNU GPL.

Le choix de licence varie géographiquement. Bon, on ne peut pas dire grand-chose de pays tels que l’Italie et les Pays-Bas, dont une majeure partie des dépôts est sous licence “inconnue” (90 % et 85 %, respectivement). Le Royaume-Uni et la Belgique ont significativement déposé sous licence MIT (35 % et 29 % des dépôts respectivement). C’est un exercice intéressant que d’explorer cet aspect (NB : il faut parler SQLite pour explorer la base de données d’Emanuel).

Et les citoyens alors, collaborent-ils avec leurs institutions ?

Eh bien… oui et non. De manière générale, la réutilisation d’informations déposées dans “l’écosystème” institutionnel de GitHub est inégale et limitée.

Comme on le voit, le Royaume-Uni domine : “alphagov” est le dépôt générique du Government Digital Service, le service numérique du gouvernement britannique. Les États-Unis ne sont pas en reste, sans surprise : 18F, Digital Inclusion, PSRC, NGA Geoint et petsc sont tous des services américains.

Deux remarques viennent compléter cette analyse géographique du top 20. Premièrement, le plus surprenant pour moi dans ces résultats est de voir la 3ème position occupée par un dépôt de l’administration canadienne de la Colombie Britannique et la 4ème — par l’ADSIB, l’agence pour les TIC bolivienne. J’ai regardé : le dépôt canadien est très bien fourni en outils et appartient à l’Agence canadienne pour l’évaluation de l’environnement. Quant au dépôt bolivien, il s’agit de quelque chose de moins spécialisé : des présentations en reveal.js. Le dépôt est bien documenté et vous guide dans la création de présentations élégantes, ce qui explique l’intérêt qu’on y porte.

Deuxièmement, on pourrait imaginer que le nombre de forks soit une indication de taux de participation. En effet, l’idée de départ est que les outils et les informations mis à disposition par les administrations publiques soient réutilisés, que ce soit par une autre administration ou par des gens n’appartenant pas à une administration. Et comme GitHub est aussi un réseau social, on pourrait se demander si à l’inverse les institutions réutilisent du code produit par des citoyens :

  • les forks par d’autres administrations sont rares : le dépôt le plus repris est Project Open Data (7 forks par d’autres administrations). Le top 20 ici continue à être dominé par les institutions américaines et britanniques ;
  • les administrations publiques réutilisent très peu d’outils ne provenant pas d’autres administrations : ainsi, le dépôt non-institutionnel le plus repris est government.github.io (45 forks)… Ce chiffre s’explique potentiellement par le besoin d’une équipe institutionnelle d’organiser son arborescence sur la plate-forme. Suivent CKAN, le logiciel de catalogue de données ouvertes, et … Bootstrap, un outil de développement (front-end) de sites web par la société californienne Twitter.
  • les individus ayant le plus contribué sont tous des membres du Government Digital Service (Royaume-Uni), le 18F (Etats-Unis) et Consumer Financial Protection Bureau (Etats-Unis). Une majorité des utilisateurs contribue une fois seulement ; de plus, beaucoup de ces individus s’inscrivent sur GitHub au moment de la création du dépôt, c.-à-d. ne semblent pas être des utilisateurs de la plate-forme par ailleurs.

Voilà, voilà…

Et la France dans tout ça ?

Au total, 13 administrations françaises ont des dépôts publics sur GitHub. Parmi celles-ci figurent l’ANSSI, Etalab et le ministère des Affaires étrangères (MAEDI) :

Nombre de dépôts par administration. Chaque rectangle est libellé avec le nom de l’institution et le nombre de dépôts. Abréviations : MAEDI = ministère des affaires étrangères et du développement international ; DISIC = l’Etat-plateforme (par le SGMAP) ANSSI = Agence nationale de la sécurité des systèmes d’information ; AFIMB = Agence française pour l’information multimodale et la billettique ; CIMI = la communauté IT du ministère de l’intérieur.

Question licences, la France peut mieux faire. Beaucoup de dépôts n’ont pas indiqué de licence de la manière standard. Mais — cocorico ! — le seul dépôt parmi les 600 sous Do What The F*ck You Want Public License (WTFPL) est celui d’une administration française. Bon, je sais que la tension est à son comble : il s’agit de CIMI, la Communauté IT du ministère de l’Intérieur, qui a licencié un dépôt sous WTFPL. Ils sont taquins.

Sans grande surprise, le SGMAP (Service de la modernisation de l’administration publique) est de loin le plus présent sur GitHub. Comme on le voit sur l’image treemap ci-dessus, les dépôts d’Etalab, de l’incubateur SGMAP et de l’Administrateur Général des Données sont séparés. L’incubateur SGMAP a (de loin) le nombre de forks le plus élevé : 14.

J’ai été surprise de voir que le Centre Multimédia ERASME est si présent : créé en 2010, le dépôt de cette structure qui expérimente et développe les usages du numérique avec les acteurs du territoire de la Métropole de Lyon est actif et présente 10 forks. Enfin, la Ville de Nanterre semble plaire avec ses 7 forks à partir d’un seul dépôt original.

— — — — — — — — — — — — — — — — — — — — — — —

Voilà pour ce rapide tour d’horizon de la présence des institutions publiques sur GitHub. Comme on le sait, il ne suffit pas juste d’ouvrir un dépôt et de mettre des éléments à disposition pour que les gens commencent, (auto)magiquement, à les réutiliser et à participer. Peut-être que les administrations concernées trouveraient des moyens de se rendre plus attractives ?



Retrouvez toutes les éditions précédentes de Data Colada et abonnez-vous pour ne plus rien manquer.


Data Colada est la seule infolettre en français sur la vie des données. Une idée de @MaliciaRogue (Rayna Stamboliyska) et @PierreCol (Pierre Col).

Show your support

Clapping shows how much you appreciated Rogue’s story.