Par Félix Chrétien

La plus grande force de l’apprentissage machine et plus largement de l’intelligence artificielle (IA) est de prédire avec précision. On prend autant de variables que possible et on choisit les algorithmes et procédures qui permettent d’atteindre les meilleurs résultats prédictifs. Mesurer la réussite prédictive des modèles est si simple (précision des prédictions sur de nouvelles données) qu’elle permet de s’améliorer rapidement et d’identifier les stratégies payantes. Cette facilité de classification des méthodes explique en très grande partie la croissance rapide de ce champ de la statistique.

Ainsi, le développement de l’apprentissage machine, allié à la présence accrue de données massives, rend abordable la prédiction pour les entreprises de toutes les tailles. Les principes économiques élémentaires de l’offre et de la demande font en sorte que la prédiction devenue commodité est utilisée pour résoudre une panoplie de problèmes : on recommande des produits en prédisant les chances de consommer, conduit des automobiles en prédisant le comportement d’un automobiliste, classe un courriel comme indésirable en prédisant qu’un humain fasse de même, etc. (sur les principes économiques de l’IA, voir l’excellent bouquin Predictions Machines).

C’est toutefois là où une grande partie de la valeur ajoutée se cache que le bât de l’apprentissage machine blesse généralement : la compréhension. Le pari de l’empirisme est que derrière les prédictions se cachent des processus « naturels » qu’on peut retracer par l’observation. Or, ce n’est pas parce qu’un modèle utilise des variables pour prédire une occurrence qu’un lien causal est implicite à cette relation. C’est le vieux problème de corrélation c. causalité que l’on vous a enseigné dans votre cours de méthode à l’université. Malheureusement, l’apprentissage-machine semble si sophistiquée de l’extérieur qu’on peut avoir tendance à négliger ces aspects.

Évidemment, ces enjeux ne sont pas nouveaux pour les scientifiques des données. L’interprétabilité des modèles d’intelligence artificielle, dont le raisonnement est généralement trop complexe pour être lisible, est assurément l’enjeu le plus discuté de la discipline en ce moment. Présentement, la compréhension des modèles est surtout faite en analysant de manière ex post le comportement des prédictions du modèle. Des joueurs d’échecs analysent des parties jouées par l’IA de google, AlphaZero. De façon analogue, les modèles de prédictions quantitatives (par exemple la valeur d’un actif) sont désormais soumis presque systématiquement à une procédure d’analyse de poids des variables (pour les amateurs du jeu League of Legends, voici comment un modèle d’arbres aléatoires avec « gradient boosting » analyse vos chances de gagner la partie). Ces modèles sont certes nécessaires, notamment pour détecter des régularités dans les erreurs prédictives, mais incomplets. Ils ne permettent pas de tirer de conclusion scientifique fiable quant aux relations causales.

Or, on n’a toujours rien trouvé de mieux qu’une bonne stratégie empirique pour identifier des liens causaux. Et c’est généralement là que se distinguent les excellents scientifiques des données. Ceux-ci sauront sélectionner les variables entrantes et les algorithmes afin de tirer des conclusions scientifiques valides. Ils pourront identifier des variations quasi-aléatoires qui génèrent des expériences naturelles ou carrément organiser des expériences randomisées avec groupe contrôle. Ces expériences sont pratique courante dans les boutiques en ligne où plusieurs versions du site sont mises en ligne en même temps afin de mesurer les différences de performance entres les versions. Je crois fermement à l’ouverture de la connaissance et évidemment le diplôme ne fait pas foi de tout, mais force est de constater que les formations scientifiques axées sur la recherche donnent une longueur d’avance considérable en la matière.

L’apprentissage-machine excelle en prédictions. Et, sincèrement, qui ne bénéficierait pas à révéler une information inconnue? Il est néanmoins important de garder à l’esprit qu’aucun algorithme (existant) ne saurait remplacer la méthode scientifique pour comprendre un phénomène. Parfois une régression linéaire ou une différence de moyennes sont les meilleures façons de comprendre la relation entre deux variables. Il ne faut pas négliger non plus l’importance de bien connaître la réalité qui génère les données et d’entretenir une bonne dose d’intuition et de créativité scientifique. Comme quoi la théorie finit toujours par nous rattraper.

English EN French FR