AI & Society

La Data Science et la NBA

L’impact de 20 ans d’usage des données dans le basketball professionnel

--

Un sport déjà riche en données

La façon dont le basket est joué a incroyablement évolué ces dernières années. En témoigne l’usage du tir à trois points: 15 essais par équipe par match en moyenne en 2001 contre 30 en 2019. Cette révolution est en grande partie attribuable à l’utilisation de plus en plus importante de l’analyse de données. Le sport US est historiquement très friand d’analyse statistique. Les commentateurs de baseball sont capables de sortir les incroyables moyennes de Babe Ruth à la batte alors qu’il jouait dans les années 20. Cette tendance a été immortalisée dans le film Moneyball où Billy Beane et Paul DePodesta mettent sur pied une équipe compétitive grâce aux sabermetrics, des statistiques appliquées aux données de baseball au début des années 2000. Le terrain était donc très propice pour une révolution data.

Steph Curry, le symbole de l’efficacité

Objectif: la gagne!

À la même époque les équipes NBA commencent à adopter la même approche. Le but est de gagner plus de matches en optimisant le recrutement, les temps de jeu de chaque joueur, les stratégies, … Les premiers data scientists, qui n’avaient pas encore ce titre à cette époque, sont recrutés. Les données récoltées depuis plusieurs années sur le millier de matchs qui ont lieu chaque saison sont une base largement suffisante pour que les statisticiens commencent à analyser objectivement la valeur de chaque joueur. Les premières statistiques permettaient de mesurer l’efficacité des joueurs. Partant du constat que le nombre de points n’est pas une mesure suffisante pour juger de la qualité d’un joueur, les statisticiens de la NBA ont introduit des mesures objectives comme le nombre de points par shoot. Et puis, plus généralement, les data scientists ont développé une approche scientifique ayant pour seul but de faire gagner plus de matches. Plusieurs statistiques différentes ont été créées visant à mesurer la contribution d’un joueur à cet objectif clair. En voici quelques exemples:

Win shares: une estimation du nombre de victoires générées par un joueur en une saison

Plus-minus: la différence des points marqués par son équipe et par l’adversaire quand un joueur est sur le terrain.

Value over replacement: La valeur additionelle qu’apporte un joueur par rapport à un joueur moyen de la ligue

Cette approche a l’avantage de ne pas prendre en compte des données qui faussent le jugement comme la réputation du joueur ou son caractère spectaculaire, ou autres croyances sur les caractéristiques d’un bon joueur. L’avènement de ces métriques “avancées” est responsable de la fin de carrière prématurée de certaines stars dont le jeu ressortait comme manquant grandement d’efficacité sous l’œil objectif de l’analyse statistique. Nous pouvons citer les cas de Carmelo Anthony et surtout de Monta Ellis. Ce dernier est passé de statut de superstar des Warriors à retraité prématuré. En effet, le nombre très élevé de points qu’il mettait nécessitait un nombre d’essais trop grand au détriment de meilleures opportunités. Il a d’ailleurs été remplacé aux Warriors par Steph Curry, qui est l’incarnation de l’efficacité au basket et dont toutes les facettes de son jeu sont encensées par les statistiques avancées. D’un autre côté, cette approche a révélé l’importance de joueurs beaucoup moins médiatisés mais dont la contribution à la victoire était très importante. Nous pouvons citer Trevor Ariza ou Patrick Beverley dont l’impact défensif et le sens du devoir s’avère déterminant dans les résultats de leur équipe.

Monta Ellis (à gauche), James Harden (au milieu) et Patrick Beverley (à droite)

Maîtrise du risque, aide à la décision et gains marginaux

Cependant les statistiques avancées ont plus souvent confirmé des choses déjà établies et n’allaient pas au contraire de l’expertise des coachs. Les recommandations des statisticiens n’ont pas transformé des équipes médiocres en champions potentiels, mais ont permis de gagner 2 à 3 victoires de plus par an en faisant un recrutement plus judicieux, en mettant en place des plans de jeu plus étudiés, ou en muselant mieux les menaces adverses. Les changements apportés par la data science se sont faits en douceur et ce n’est qu’en comparant la façon de jouer aujourd’hui à celle d’il y a 15 ans qu’on comprend son impact. Aujourd’hui les coachs peuvent prendre plus de risques grâce à l’aval des chiffres. Par exemple, la stratégie gagnante de Houston est de faire en sorte que James Harden prenne plus de 13 tirs à 3 points par match pratiquement autant que toute une équipe il y a 15 ans.

La NBA a bien compris la valeur créée par une approche quantitative. Il y a dix ans seules certaines équipes avaient un ou deux data scientists, maintenant toutes les équipes ont des pôles data science constitués de plusieurs dizaines de data scientists chevronnés. L’accent a aussi été mis sur la récolte systématique de données de plus en plus fines. Les joueurs sont suivis en temps réel pendant les matches, leurs positions sont numérisées, chaque dribble enregistré, la distance parcourue calculée, l’angle des shoots mesuré. Ce sont des données qui sont décortiquées pour construire des stratégies qui apporteront en moyenne un demi point de plus à la fin du match. Cet impact marginal sur le score cumulé sur toute une saison permet de glaner des victoires et quelques places au classement final.

L’utilisation des données en NBA est à un niveau de maturité très élevé par rapport à d’autres domaines. Ceci est surprenant puisque ce n’est pas un domaine technologique par excellence. Le sport et le basket en particulier a l’avantage de posséder une seule métrique à optimiser: le score à la fin du match. Beaucoup de cas concrets n’ont pas de boucles de rétroactions aussi simples et l’impact d’un changement de stratégie ne se fait pas ressentir sur des métriques aussi parlantes avec des horizons de temps aussi courts. Les coachs ont complètement intégré que la data science est un outil de décision et qu’un algorithme ne les remplacera pas. Ils en ont aussi des attentes réalistes, pas de plomb qui se transforme en or mais des gains marginaux qui accumulés au fil des années construisent un réel avantage compétitif.

La NBA et la data: un mariage réussi

La NBA est un exemple très parlant de domaine qui est devenu data-driven. Depuis les années 50 ce sport a une grande appétence en données, et ce n’est pas étonnant que les équipes de la NBA se soient essayées aux méthodes d’analyse systématique très tôt. La nature évidente de l’objectif à remplir, gagner des matches, et le fait qu’il soit observable très régulièrement, 82 matches au moins par saison, a fait que les recommandations de la data science pouvaient être validées quasi instantanément. Aujourd’hui la data science est un outil central d’aide à la décision au service des coachs et des managers des équipes. Ils ont complètement intégré que ce n’est pas un outil miracle mais une source de petits gains qui accumulés créent un énorme avantage.

Pour aller plus loin:

La chaîne youtube thinking basketball: https://www.youtube.com/channel/UC3HPbvB6f58X_7SMIp6OPYw

Le classement des joueurs en fonction du real plus minus:http://www.espn.com/nba/statistics/rpm/_/sort/RPM

La MIT Sloan sports analytics conference:http://www.sloansportsconference.com/

--

--