Supra Legem utilise t-il vraiment des algorithmes prédictifs dans ses analyses de la jurisprudence ? Peut-on vérifier la qualité des résultats ?

Suite à la publication de notre article traitant de l’impartialité des juges administratifs en matière d’obligation de quitter le territoire, de nombreuses questions ont été soulevées, notamment sur les réseaux sociaux. Nous souhaitons les présenter une à une et y apporter notre réponse. Chaque article traitera d’un point particulier.

Précédent article de cette série :

1/ L’intuition

Sur Supra Legem, l’utilisateur peut faire des recherches avec des mots clés et regrouper des décisions de justice traitant une question de droit particulière. Il aussi possible d’utiliser les filtres suivants :

  • nature des parties (demandeur et défendeur) ;
  • nature du dispositif (rejet, annulation, …) ;
  • thème de la décision.

Supra Legem affiche alors des statistiques sur ces décisions. Il ne s’agit pas d’algorithme prédictif mais de simples statistiques.

2/ Notre réponse

Les statistiques affichées s’appuient sur des informations associées à chaque décision. Ces décisions sont en open data et disponibles à cette adresse.

Ces décisions comportent des champs censés contenir le nom des parties, ou la nature du dispositif. Cependant, les champs contenant les noms des parties sont vides pour l’ensemble du jeu de données et le champ contenant la solution de la décision n’est remplie que jusqu’en 2008.

Les thèmes sont fournis pour moins de 20% des décisions.

Tout le travail de l’équipe de Supra Legem a été de re-calculer le contenu de ces champs en utilisant des algorithmes prédictifs.

Le terme “prédictif” n’indique pas que nous prédisons le futur, mais que l’algorithme “prédit” des labels en lisant la décision, ici la nature du demandeur, défendeur… Il s’agit de la traduction de l’expression anglaise “Machine learning”.

Nos résultats présentent un taux d’erreur inférieur à 5%.

Nous indiquons au-dessus de chaque décision les labels que nos algorithmes lui ont affectés. Ainsi, toute personne qui souhaite vérifier un taux renvoyé par le site peut le faire manuellement, en lisant la décision et en vérifiant que les labels affectés sont corrects.

Il faut à peu près 30mn pour vérifier manuellement 100 décisions. Cela permet en général de couvrir un juge sur une année sur une question de droit particulière.

Ainsi, en ce qui concerne les statistiques, l’essentiel du travail est fait en amont.

D’autres algorithmes peuvent être mis en oeuvre en temps réel. C’est par exemple le cas de notre fonction permettant de retrouver les décisions similaires à celle sélectionnée (voir 6 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence).

Pour les plus matheux, une présentation technique du projet est disponible sous ce lien.