Data by Saegus
Published in

Data by Saegus

Les erreurs à éviter sur les axes d’un graphique.

Bien que facile à manipuler et disponible dans la plupart des outils de manipulation de données (tableurs, outils de data visualization, langages de programmation, etc.) les diagrammes en barres peuvent entièrement perdre leur vocation première de data visualization[1] si certains paramètres sur les axes ne sont pas pris en compte.

Photo by rawpixel on Unsplash

Trier les valeurs

Bien que ce premier point semble trivial, beaucoup de présentations utilisent encore des diagrammes en barre non triés ou triés selon un mauvais paramètre ! Outre le fait que les informations sont plus longues à lire, elles peuvent également être faussées par notre esprit.

L’exemple ci-dessous est d’un diagramme en barres (le plus simple possible) représentant l’âge des présidents américains lors de leur première prise de fonction.

Âge des présidents américains lors de leur première prise de fonction à la Maison Blanche : Tri par ordre alphabétique.

L’œil arrive facilement à comparer les éléments proches entre eux. Ainsi il est facile de constater que “Barack Obama a atteint la présidence plus jeune que Bill Clinton”. Quid des autres présidents ?

La loi de la continué, une des lois principales de la Gestalt[2], stipule que notre cerveau interprète les éléments dans leur ensemble et dans leur continuité. Dans le cas du graphique précédent, cela permet de prolonger les extrémités des barres pour les comparer entre elles (ce principe de perception est illustré par la flèche rouge). Cette comparaison naturelle est efficace pour les barres proches, mais beaucoup plus compliquée et moins précise pour les barres éloignées : Qui de Barack Obama, Grover Cleveland ou Ulysses S. Grant a atteint la présidence le plus jeune ? Quels ont été les 5 plus jeunes présidents à prendre leurs fonctions ?

L’intérêt du tri (par ordre croissant ou décroissant, selon le besoin) n’est donc plus à démontrer. Le graphique suivant permet de répondre aux deux questions précédentes bien plus rapidement et sans le moindre effort.

Âge des présidents américains lors de leur première prise de fonction à la Maison Blanche : tri par l’âge (ordre croissant).

En règle générale, l’analyse de la variable quantitative est la raison d’être du graphique, c’est pourquoi il est donc nécessaire de classer les données selon cette variable.

Quelques exceptions sont quand même notables : lorsque l’autre axe représente des données ordinales, il est de bon ton de classer selon cet axe. Le terme ordinal signifie que la variable qualitative peut être ordonnée, comme par exemple les catégories d’âges, catégories de salaires, les dates, etc.

Ce tri est alors pertinent car il offre au lecteur la possibilité de comparer facilement une modalité de la variable ordinale avec les autres modalités les plus proches. Ce tri permet d’analyser une évolution ou une répartition et a souvent plus de sens que le tri par les valeurs “brutes”.

Répartition d’une population d’une petite ville. A Gauche trié selon les catégories d’âge, à droite selon le nombre d’habitants.

Cet exemple montre qu’il est plus facile de se représenter la population de cette ville avec le graphique de gauche plutôt qu’avec celui de droite. La lecture du graphique de droite nécessite des allers et retours entre les barres pour reconstruire la vision globale.

Bien entendu, le choix du tri dépendra de la question à laquelle le graphique répond[3].

Couper les axes… ou pas !

Faut-il conserver l’ensemble d’un axe ou est-il possible de le tronquer de son origine (généralement le point “0”) ? Cette question n’a probablement pas de réponse puisque chacun y va de sa préférence. Cette story va cependant en toucher quelques mots !

Graphiques représentant le nombre d’unités vendues par une entreprise.

Bien que les deux graphiques précédents représentent les mêmes données, le fait de tronquer l’axe des ordonnés permet de créer visuellement une forte croissance sur la dernière année. Cependant, une fois ramenée à l’échelle complète cette croissance ne semble pas être si fulgurante (environ 8 à 10% d’augmentation).

Dans ses travaux E. Tufte a introduit le concept de « coefficient de mensonge »[3] représentant un ratio entre l’importance de l’effet visuel et l’importance de l’effet réel. Ainsi, le graphique de gauche ci-dessus aurait un très fort coefficient de mensonge car la barre de 2019 est 300% plus grande que les autres alors que la réalité démontre une augmentation de 8 à 10 % seulement.

L’exemple présenté ci-dessus, ne s’intéresse qu’à la correction du coefficient de mensonge. L’esthétisme de ces barres pleines est discutable et d’autres solutions plus agréables peuvent être utilisées (« Lollipop chart », « dot plot », etc.).

Les graphiques avec de forts coefficients de mensonge sont souvent utilisés par des médias sensationnalistes afin de piéger visuellement les spectateurs/lecteurs novices dans l’analyse de données.

Exemple de visualisations à fort coefficient de mensonge. Merci Fox News.

Faut-il pour autant toujours conserver l’ensemble de l’axe ? Non !

A défaut d’avoir des règles prédéfinies quant aux conditions permettant la coupure d’un axe, il est possible de se baser sur le concept du coefficient de mensonge : si la coupure de l’axe n’entraine pas une augmentation du coefficient de mensonge il est alors possible de le couper. Le test du candide[4] peut aider à décider de la conservation de l’axe ou non.

Divers paramètres seront à prendre en compte autant sur la forme que sur le fond du graphique.

  • Le type de graphique est fortement lié à la nécessité de conservation de l’axe. Par exemple, les diagrammes en barres présentent de grands risques d’augmentation du coefficient de mensonge lorsque l’axe est coupé.
  • Si l’intérêt du graphique se porte intégralement sur les variations alors il peut être possible de couper l’axe sans fausser l’interprétation. C’est par exemple le cas des séries temporelles.
  • Les valeurs à afficher sont dé-corrélées de la partie coupée et donc recentrer le graphique apporte une meilleure lisibilité. Par exemple, il est en général de bon ton de recentrer un nuage de point sur les données plutôt que de fixer arbitrairement les valeurs des axes.

Pour ne citer qu’un exemple de graphique pour les points précédents, voici un graphique boursier.

Évolution du CAC40 sur une journée.

Le cas des graphiques boursiers illustre parfaitement la dé-corrélation entre les données affichées et l’origine du graphique. L’axe principal n’est plus celui des ordonnés mais celui des abscisses : le graphique s’intéresse aux variations entre un point de départ (achat de parts, propre à chaque actionnaire) et le point d’arrivée (moment de la vente ou heure actuelle). Ainsi le “0” de l’axe des ordonnés n’a que peu d’intérêt pour l’auditoire.

En résumé, il faut toujours prêter une attention particulière aux axes, que l’on soit auteur ou lecteur ! Certaines mauvaises pratiques sont délibérément réalisées pour masquer la vérité ou tromper l’auditoire. Prenez garde et ne vous laissez pas voir !

Notes :

[1] A savoir, faciliter la compréhension et représenter fidèlement les données.

[2] Plus de détails sur la psychologie de la forme ici.

[3] La notion de “Lie Factor” a été introduit dans son ouvrage “The Visual Display of Quantitative Information”, 1983.

[4] Plus d’information sur cette thématique dans cet article (Medium).

--

--

Sharing vision, knowledge, experimentations, success & fails stories about data

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store