Par Félix Chrétien

L’acquisition de données massives se répand rapidement dans toutes les sphères d’activité. Dans le sport professionnel, de grands moyens sont déployés afin de remplir de plus en plus de lignes de données pour chaque événement. La Ligue nationale de hockey (LNH) ne fait pas exception : dès la saison 2020-2021, elle déploiera un système de suivi des déplacements des joueurs en temps réel. Comme c’est le cas dans la NFL, des capteurs de position seront insérés dans l’équipement des joueurs (à l’arrière des épaulettes) et dans la rondelle (la NFL suit le déplacement du ballon). Chaque capteur émettra 200 signaux par secondes, 2000 pour celui situé dans la rondelle. Cela fera donc pas moins de 720 000 points de données par joueur par match, dix fois plus pour la rondelle, pour les matchs se terminant en temps règlementaire!

J’estime que chaque match pèsera donc environ un gig (non compressé). La complexité de ces données donne beaucoup de potentiel à des techniques poussées d’intelligence artificielle comme les réseaux neuronaux. Les équipes devront donc s’assurer d’avoir des infrastructures conséquentes pour stocker et organiser ces nouveaux flux de données entrants, de même que pour réaliser des calculs exigeants. L’embauche récente d’une docteure en neurosciences par les Hurricanes de la Caroline n’est par ailleurs pas anodine.

On a dans les dernières années fait grand cas de la « révolution » des statistiques avancées. L’utilisation des données d’événements et de shifts pour dériver des statistiques comme les revirements provoqués, le temps de glace par joueur et les tirs alloués ou générés lorsqu’un joueur est sur la glace. Bien qu’utiles, ces statistiques sont généralement utilisées de façon « naïve », c’est-à-dire sans tenir en compte d’autres facteurs pour évaluer la performance des joueurs, comme notamment les autres forces en présence. Un joueur de talent étant systématiquement confronté aux meilleurs éléments adverses se voit ainsi sous-estimé par ces mesures de performances. L’utilisation des mesures avancées de façon naïve a attiré des doutes de la part de certains professionnels sur l’utilité réelle des statistiques pour les prises de décisions sportives.

Toujours est-il que lorsqu’elles sont bien utilisées, les données actuellement disponibles peuvent être révélatrices. Cela s’est vu dans les mesures de performances des gardiens corrigées pour la dangerosité des tirs reçus. Nous montrons par ailleurs dans un « notebook » comment appliquer la méthode où on compare les buts alloués par un gardien au nombre qui aurait été alloué par le gardien moyen de la LNH en pareilles circonstances. De façon générale, les mesures plus détaillées des événements d’un match sont utiles lorsqu’elles permettent de comparer des joueurs à armes égales ou encore de révéler des processus générateurs de données, c’est-à-dire les « lois naturelles » qui déterminent les performances sportives observées. Or, du moins dans les médias et les communautés d’analystes amateurs, les tâches d’inférences sont toujours marginales, même en cette ère des données massives et de l’intelligence artificielle. Résultat des courses : on sait désormais par exemple très bien combien de mises en échec sont données par match, mais peu si elles sont utiles, ou dans quelles situations elles peuvent l’être.

Soyons clairs : l’utilisation de capteurs dans la LNH créé un potentiel immense d’étude du sport. Il permettra de révéler les contextes optimaux de performance et de développement des joueurs, d’identifier avec précision les comportements les plus favorables aux blessures, de mesurer l’effet de certaines stratégies, la rigueur de leur application, etc. Seulement, exploiter le potentiel de ces données nécessitera des investissements conséquents notamment en embauche de personnel scientifique. Les organisations qui feront preuve d’initiative et de patience dans le développement de nouvelles méthodologies en tireront un avantage compétitif déterminant.

English EN French FR