Peut on faire des statistiques fiables sur un juge lorsque l'on ne dispose pas de toutes les décisions émises ?

2 min readMay 29, 2016

Suite à la publication de notre article traitant de l’impartialité des juges administratifs en matière d’obligation de quitter le territoire, de nombreuses questions ont été soulevées, notamment sur les réseaux sociaux et par e-mail. Nous souhaitons les présenter une à une et y apporter nos réponses.

Précédent article de cette série :

Est-il pertinent de calculer des profils de juges dans un pays de tradition civiliste ?

1/ L’intuition

Une partie seulement des décisions des Cours administratives d’appel ont été distribuées par la DILA (Direction de l’Information Légale et Administrative) en open data.

Supra Legem applique ses algorithmes prédictifs et calcule ses statistiques sur la base des décisions en open data.

Il ne serait pas possible pour Supra Legem de présenter des statistiques fiables puisqu'il ne travaille pas sur l'ensemble des décisions émises.

2/ Notre réponse

Parmi les chiffres présentés par le Conseil d’État dans son rapport d’activité publié en 2015, les décisions en open data représentent d’un tiers à deux tiers des arrêts rendus par les Cours administratives d’appel sur la période récente.

Ces décisions sont les mêmes que celles du site Légifrance.

Les volumes, les proportions et la grandeur des écarts remontés paraissent largement suffisants pour procéder à des statistiques sur des échantillons qui soient représentatifs.

Dire d'un échantillon qu'il est représentatif, c'est s'assurer (notamment via des tests statistiques) qu'il est :

d’une taille minimum ;
sélectionné au hasard.

Le premier critère dépend de la sélection faite par l’utilisateur lorsqu'il utilise le site. Sur les centaines de milliers de décisions dont dispose Supra Legem, dans la plupart des cas, la taille critique sera facile à atteindre.

Concernant le second critère, les décisions versées en Open Data par les cours administratives d'appel sont sélectionnées directement par ces dernières.

Il est à noter que suite à nos analyses, il est apparu que les décisions antérieures à l’année 2000 sont parfois tronquées, et que beaucoup manquent à l’appel. Pour ne pas créer de statistiques erronées, nous avons retiré les décisions anciennes.

Travailler sur un échantillon est en fait l’essence même des statistiques !

Si le sujet vous intéresse n’hésitez pas à lire notre article “6 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence”.

Peut on faire des statistiques fiables sur un juge lorsque l'on ne dispose pas de toutes les décisions émises ?

1/ L’intuition

2/ Notre réponse

Written by Supra Legem (Michael Benesty)