La peste graphique

Rogue
Data Colada

--

Le camembert (ou pie chart, comme disent les anglo-saxons) est partout. Discutons un peu plus de ce graphique si fréquent et pourtant si peu utile.

Malheureusement, les camemberts sont omniprésents. Je me souviens avoir eu un soupir de soulagement en lisant The Functional Art (d’Alberto Cairo) il y a quelques années ; il y parlait de ce qu’il a appelé “the bubble plague”. Il parlait assez spécifiquement de l’utilisation des bulles et autres ronds pour présenter visuellement des comparaisons exactes et des quantités précises. Approche affreusement incorrecte, s’il en est.

Je mets l’utilisation abusive du camembert dans cette même catégorie de pestes graphiques. Ce n’est pas parce qu’Excel propose la possibilité de faire des camemberts à partir de tableaux qu’on doit tous s’y mettre (ou pire encore, vendre cette “visualisation” comme prestation ou service à valeur ajoutée).

Les camemberts et les bulles sont le Comic Sans de la visualisation. Voici en quelques mots pourquoi le camembert et les bulles, c’est mal. Et comment arrêter de (se) faire du mal.

Les bulles (vous et nous) mentent

Je vais vous la faire courte : quand on regarde une bulle (un cercle, quoi), ce qu’on voit, c’est une aire. Or, pour savoir quel cercle est plus grand qu’un autre, on cherche à comparer leurs rayons.

Ce n’est pas du tout la même chose. Une pizza pour une personne (pas trop affamée) ferait, disons, 10 cm de rayon, soit 20 cm de diamètre. Si vous avez vraiment faim, vous pouvez commander une pizza double. Selon votre pizzaïolo préféré, cette taille double peut s’exprimer soit en taille de la pizza (soit 20 cm de rayon ou 40 cm de diamètre et une patte fine), soit en épaisseur de la patte et une taille qui augmente à peine (disons, 12–13 cm de rayon). La taille diffère, mais vous serez toujours plus rassasié qu’avec la petite version.

Si je vous demande de comparer par contre, une pizza enfant avec 10 cm de rayon et votre pizza épaisse de 12–13 cm de rayon, vous pouvez très bien me dire qu’elles sont pareilles. Et comme on le sait, ce sera faux. Je vous laisse découvrir cette expérience très intéressante (et avec des données à l’appui) pour mieux appréhender pourquoi les bulles mentent et pourquoi il faudrait vraiment faire attention à l’utilisation qu’on en fait.

Les camemberts peuvent provoquer une indigestion visuelle

Je ne suis pas fan des arguments d’autorité. J’ai trouvé cependant qu’Edward Tufte le résume parfaitement :

(Les gens qui utilisent les camemberts méritent le même scepticisme que ceux qui confondent “its/it’s” [“sa/ça” par ex. en français], “there/their” [“là/la” par ex. en français]. Pour bien comparer [des valeurs], utiliser un petit tableau ou une phrase, non pas des camemberts.)

La chose la plus importante à retenir à propos des camemberts est qu’ils servent à représenter la relation d’une part avec son entier. Comme quand en école primaire, on apprend aux enfants qu’en coupant une pizza en 4, chaque part représente 1/4 de la totalité de la pizza. Et c’est à peu près là que s’arrête l’utilité immédiate d’un camembert : à vous dire que 25%, c’est 1/4 de quelque chose.

Fantastique, hein. Vous me direz que ce n’est pas si mal : les graphiques en barres n’ont pas cette propriété. C’est vrai. Et c’est pourquoi on ne les utilise pas pour visualiser (comprendre : représenter visuellement) la relation entre une part et son entier. Intelligent, hein.

Alors pourquoi utiliser les camemberts pour représenter visuellement des choses qu’ils ne peuvent pas représenter correctement ? C’est une vraie question, pas un troll. Parce que quand on fait le genre de représentation que celle ci-dessous, on utilise les camemberts à visualiser ce qu’ils ne sont pas censés pouvoir (en)coder visuellement de manière correcte :

Dites-moi : quel est le parti avec le nombre de représentants le plus élevé ?

… 30 secondes plus tard, vous l’aurez probablement deviné. Peut-être même en utilisant Wikipédia…

Vous allez me dire que j’aurais pu mettre les pourcentages (i.e., parti machin représente telle proportion du Parlement) comme légende à côté de chaque part du camembert. Comme ça :

OK. Mais là, vos regards continuent l’aller-retour entre le camembert et ses pourcentages, et la légende sur le côté qui vous donne la correspondance entre la couleur et le nom du parti. Alors, oui, on peut ajouter les noms des partis à côté des pourcentages en tant que légende de chaque part du camembert :

Mais attendez un peu. Qu’est-ce qu’on vient de faire ? Parce que le camembert initial était trop compliqué à lire — et donc ne permettait pas de remplir la fonction “comparaison précise et claire” ,—on a rajouté des informations. Du coup, ça sert à quoi, le camembert ? Il devient beaucoup plus compliqué et, somme toute, inutile. On peut se dire qu’ici, avec le peu de valeurs qu’on a, une représentation de type tableau ferait l’affaire (surtout ordonné par nombres de sièges décroissants).

Un tableau, c’est quand même vite dur à lire dès que ça dépasse les 6–7 lignes. Et si vous tenez à une visualisation, utilisez les graphes en barres :

Et vous savez quoi ? Vous avez essayé de faire cette comparaison dès le début. Autrement dit, vous avez tenté de comparer chaque portion du camembert à une autre, trouver laquelle est la plus grande, puis comparer une autre paire, etc. Ce qui donne découpage de camembert en morceaux, puis tentative (plus ou moins désespérée) de comparer chaque bout à un autre…

Alors… réfléchissez-y la prochaine fois que vous dégainez l’Excel. Et comme on voit aussi beaucoup ce genre d’erreurs dans le milieu professionnel, je vous recommande la lecture de ce billet de Pierre Paperon :

30 ans de vie professionnelle. 30 ans de micro-fatigues ou lassitudes à voir des présentations contenant des graphiques inappropriés pour exploiter ou présenter des données pourtant bien intéressantes. Et l’ère du big data ne fait qu’amplifier le pathétique de ces présentations de déferlantes de chiffres que les graphiques tentent tant bien que très mal de résumer. Mais là encore, “big cata” ou “big pasta” car les “basiques” sont ignorés.

P.S. Oh, et petit rappel : je dis Excel partout, mais je vous invite vivement à plutôt utiliser LibreOffice Calc, l’équivalent libre, ouvert et gratuit du tableur Microsoft. Satisfaction garantie, comme qu’y dirait. Le logiciel libre et open source, c’est le bien :-)

Retrouvez toutes les éditions précédentes de Data Colada et abonnez-vous pour ne plus rien manquer.

Data Colada est la seule infolettre en français sur la vie des données. Une idée de @MaliciaRogue (Rayna Stamboliyska) et @PierreCol (Pierre Col).

--

--

Rogue
Data Colada

Lady Data Security. Award-winning writer. #Crisis/#risk mgment with #OSINT. #Infosec columnist @ZDNetfr. Curator @desidedata #Maker, polylingual bookworm.