Open data à l’université : des trésors de données à ouvrir

Lors de la journée « open data à l’université » organisée le 29 mars 2017 à l’université Paris-Nanterre, Datactivist a animé un atelier pour aider les universités à mieux identifier les données qui pourraient être ouvertes. En effet, même si les universités constituent des producteurs de données importants, peu d’entre elles ont encore ouvert des données en France au niveau local et national. Or, comme les autres administrations, les universités sont désormais soumises à un principe « d’Open Data par défaut » imposé par la loi pour une République numérique adoptée en octobre 2016.

Open Data Census : rechercher les données ouvrables et les cas d’usage à partir du site de l’université

L’atelier a regroupé plus d’une dizaine de participant.e.s (pour moitié des agents administratifs et pour moitié des enseignants chercheurs) et a duré environ 1h15. Il avait pour objectifs principaux d’appréhender la variété des types de données existantes dans l’université, d’établir une première liste des données à ouvrir dans l’université et de définir des besoins et des publics associés à l’ouverture de chaque jeu de données.

Le déroulé de l’atelier s’appuie sur la méthodologie du Data Census proposé par la FING dans le cadre du programme Infolab qui permet à tout public d’appréhender le paysage des données pouvant être ouvertes autour d’un sujet. L’atelier proposé par Datactivist reprend l’idée de s’appuyer sur les sources et les supports familiers employés dans la communication d’une institution pour identifier les jeux de données pouvant être ouverts.

Les participant.e.s au travail lors de l’atelier

Dans un premier temps, les participant.e.s se sont partis à la recherche de données à ouvrir sur le site de l’université Paris 10 Nanterre (http://www.u-paris10.fr) en rédigeant une liste des données à ouvrir à partir des contenus du site web de l’université. Quatre groupes ont été constitués à partir des grandes rubriques du site (université, formation, recherche, vie de campus), les participant.e.s ont parcouru les pages de ces rubriques pour identifier les bases de données qui permettent à une institution de communiquer certains chiffres. Par exemple, la page de présentation de l’université se targue de « recherche maintes fois primée » : les participant.e.s réclament d’avoir accès aux « prix scientifiques attribués aux chercheurs/ses de l’université ».

Dans un deuxième temps, les participant.e.s ont appliqué la méthode dite du “spectogramme” (développée par l’Ecole des Données dans le cadre de ses expéditions de données) pour définir le niveau de priorité d’ouverture d’un jeu de données et expliquer en quoi ces données pourraient leur être utiles. Par exemple, sur le jeu de données concernant les intitulés des cours identifiés par un groupe, une participante a mis un niveau de 2/5 à l’ouverture de ce jeu de données en indiquant que ces données pourraient « encourager des dynamiques communautaires d’entraide » tandis qu’une autre participante a mis une note de priorité de 5/5 en précisant que ces données pourraient permettre d’ « identifier les contenus partageables entre les disciplines et les mentions ».

Ces deux temps ont donc permis d’obtenir d’une part une liste de données ouvrables et d’autre part d’identifier des cas d’usage pour chaque jeu de données afin d’aider les responsables de projets d’open data à lier leurs demandes à des scénarios d’usage qui faciliteront l’ouverture des données. La liste complète des jeux de données identifiés se trouve ici, nous en faisons une synthèse à partir des priorités des participant.e.s.

Groupe université : des données pour faciliter l’accessibilité du campus et améliorer la pédagogie

Le premier groupe a épluché les pages de la rubrique de présentation de l’université. Parmi les jeux de données qui pourraient être ouverts, on trouve les données géographiques sur les 32ha du campus comprenant les emplacements des bâtiments, des espaces verts, des bancs et des rampes d’accès. Pour ce groupe, ces données pourraient servir à administrer collectivement les espaces de vie et à mieux modéliser les parcours dans l’espace du campus, en particulier pour les personnes atteintes de handicaps. Par ailleurs, il est aussi demandé des données sur la nature et le degré des handicaps pour “constituer des groupes de proposition » pour améliorer l’aménagement des locaux, adapter les enseignements et les conditions d’apprentissage.

Sur des aspects plus pédagogiques, ce groupe demande d’obtenir les données sur les origines géographiques des étudiants pour favoriser les échanges linguistiques et culturels entre étudiants. Les données concernant les intitulés et les descriptions des cours sont réclamées pour encourager les dynamiques d’entraide entre les étudiant.e.s et les enseignant.e.s. Ces données pourraient aussi permettre d’identifier les contenus partageables entre disciplines et mentions et faciliter les partenariats.

Groupe formation : connaitre les taux de réussite et le calendrier universitaire

Ce groupe a parcouru les pages de la rubrique formation du site de l’université. La demande principale de ce groupe concerne les taux de réussite en licence qui peuvent servir aux enseignants-chercheurs pour faire évoluer les formations, aux services d’orientation pour aider à l’orientation avant l’inscription et pour organiser le tutorat. Ces données permettraient aussi pour les enseignants de mieux connaitre le public de leurs cours et d’éviter d’avoir à faire remplir des fiches en début d’année. L’historique de ces données permettrait aussi de connaitre l’évolution des parcours : est-ce qu’une action a permis de faire évoluer le taux de réussite des étudiants d’un parcours ? Cette demande est à rapprocher de l’initiative de l’université Paris 13, présentée pendant la conférence, qui a ouvert les données détaillées et anonymisées du parcours de ses étudiant.e.s.

Il est aussi demandé d’ouvrir les données sur le calendrier universitaire de toutes les formations afin de faciliter l’organisation des examens et des enseignements. Enfin, une demande porte sur les ressources documentaires du service d’orientation qui permettrait dans le cadre d’une communauté d’universités et établissements (COMUE) d’organiser l’information des étudiants, de favoriser les projets inter-établissements d’orientation et de mutualiser certains achats.

Groupe vie de campus : valoriser la vie associative et les partenariats

Parmi les nombreux jeux de données identifiés par le groupe vie de campus, on peut noter les données relatives aux associations de l’université souvent collectées par les services d’aide à la vie étudiante. Une autre demande porte sur les données des partenariats de la Comue Louis Lumière (communautés d’universités et établissements) dont l’ouverture pourrait permettre de mieux révéler les dynamiques déjà établies et développer de nouvelles entre les établissements. Ce groupe estime que les données concernant les domaines de recherche et les publications des laboratoires de recherche peuvent mettre en visibilité le travail des chercheurs. Enfin, ce groupe demande des données sur les pratiques de recyclage, comprenant à la fois les lieux du tri et la volumétrie, pour encourager le tri et connaitre les marges de progression pour les acteurs du campus.

Groupe recherche : mieux valoriser les publications et faire la transparence sur l’attribution des financements

Sa première demande a porté sur les publications de chaque chercheur.se rattaché.e à une unité de recherche de l’université, des données qui sont déjà transmises au Haut Conseil de l’Evaluation de la Recherche et de l’Enseignement Supérieur (HCERES) à l’occasion des évaluations quadriennales de l’enseignement et de la recherche. Pour une documentaliste participant à ce groupe, l’ouverture de ces données pourrait permettre de faciliter les évaluations et d’encourager à l’open access en réclamant que toutes les publications soient systématiquement référencées sur HAL.

Par ailleurs, les participant.e.s ont demandé d’obtenir les données sur les projets de recherche soumis/acceptés par les organismes financeurs (ANR, Europe…) qui pourraient être utiles au pilotage de la recherche et aux chercheur.se.s pour mieux comprendre les conditions d’acceptation des projets de recherche. Ces données sont particulièrement utiles si d’autres universités et si les autorités de financement (ANR) les ouvraient pour permettre des comparaisons entre établissements. Dans la même veine, les participant.e.s réclament l’ouverture des données financières de la Direction de la Recherche et des Etudes Doctorales (DRED) pour faire la transparence sur l’attribution des moyens de recherche et en faciliter le contrôle par toutes les parties prenantes. Enfin, le groupe souhaite l’ouverture de l’offre de formation professionnalisante des doctorant.e.s pour faciliter le choix des laboratoires de recherche.

Vers un socle de données essentielles des universités ?

On le voit à travers la synthèse des résultats de cet atelier qui n’a duré, rappelons-le, qu’une heure et demie, les données pouvant être ouvertes par une université sont très variées et peuvent permettre d’apporter des solutions aux problèmes éprouvés par toutes les parties prenantes de la communauté académique. L’ouverture des données à l’université est d’autant plus pertinente que les étudiant.e.s comme les enseignant.e.s ont les compétences pour analyser ces données, leur donner du sens et servir à ouvrir la gouvernance de l’université. L’absence d’étudiant.e.s parmi les participant.e.s a constitué une des limites principales de cet atelier, il est essentiel de les inclure aux démarches d’ouverture de données pour répondre à leurs nombreux besoins. Par ailleurs, la méthode de l’atelier qui est parti du site de l’institution pour identifier des données à ouvrir n’a pas mis en évidence les données de la recherche qui constituent un autre gisement de données à ouvrir.

Enfin, lorsque des ateliers similaires auront été conduits dans d’autres établissements, on pourrait travailler à la définition d’un socle commun de données définissant les jeux de données à ouvrir en priorité par chaque établissement, sur le modèle du travail en cours par l’association Open Data France pour les collectivités locales. Un tel travail permettra d’obtenir des données normalisées et interopérables facilitant les comparaisons et la montée en généralité. Il faudra toutefois s’assurer que la définition d’un tel socle soit effectivement ouverte à tous les acteurs de l’université pour que l’open data favorise l’émergence d’une gouvernance ouverte dans l’enseignement supérieur.