Les limites de Kaggle pour former votre équipe

Par Félix Chrétien

E

n cette ère du télétravail et de l’apprentissage continu, de plus en plus de firmes encouragent leurs scientifiques des données se former sur le web. De même, la participation à des concours ou la réalisation de projets sur la plateforme Kaggle est généralement vue d’un très bon œil par les employeurs. Cette dernière peut être salutaire, mais comporte des risques pour la formation de scientifiques. Voici les plus importants.

  • 1. Des objectifs clairs, trop clairs

L’avantage de Kaggle est qu’on y trouve de nombreux jeux de données nettoyés. Dans les concours, la variable cible est bien définie, de même que l’objectif à atteindre (minimiser un score d’erreur). Tout est en place pour se concentrer sur la sélection de l’algorithme qui permettra d’atteindre les prédictions les plus précises possible.

Le problème est que c’est presque trop beau pour être vrai et absolument pas représentatif du quotidien des scientifiques des données. Dans notre travail, nous nous butons généralement sur des données peu documentées, issues de nombreux jeux de données disparates ou prises de façon irrégulière. Le plus gros de nos efforts sera donc d’organiser les données afin de les rendre digestes pour un modèle d’intelligence artificielle (IA). Par ailleurs, de nombreuses entreprises ont surtout besoin d’une bonne stratégie d’acquisition de données en premier lieu. Le choix du modèle est bien évidemment important, mais généralement pas là où se trouve le plus clair du défi.

  • 2. La réalité n’est pas un concours de prédiction

Lorsqu’on établit avec notre client les priorités pour un projet, la précision n’est généralement pas en tête de liste. Bien souvent, on essaie plutôt de s’assurer de pouvoir prendre des décisions d’affaires éclairées sur la base des données et de l’IA. Pour cela, les métriques d’erreur de prédiction ne constituent pas un bon indicateur de réussite (voir notre billet prédit qui veut infère qui peut).

Par ailleurs, atteindre un taux d’erreur acceptable ne prend généralement pas beaucoup de temps. À partir de là, réduire son taux d’erreur sans changer les données entrantes prend des ressources en temps de développement et de calculs exponentiels, de sorte que passer de 7% d’erreur moyenne de prédiction à 6% peut être très couteux. Dans un concours Kaggle, cela peut avoir un impact significatif sur votre classement. Dans la vraie vie, cela ne risque pas d’enchanter votre client (ou votre employeur).

  • 3. Des mauvais plis en programmation

Kaggle, je l’ai dit, est simple d’utilisation. C’est un nid douillet pour le scientifique pantouflard. L’environnement est pris en charge et la grande majorité des modules dont il aura besoin sont déjà installés. L’infrastructure physique est elle aussi fournie. C’est un bon environnement pour débuter, mais peut mal préparer à intégrer son travail à un logiciel opérationnel. On peine à dénombrer les enquêtes relevant des difficultés majeures d’opérationnaliser et de pérenniser des projets en IA (par exemple). Encore une fois, Kaggle s’arrête à la frontière des véritables défis.

De plus, le cadre des notebooks Jupyters utilisé sur Kaggle est intéressant pour réaliser des analyses exploratoires, mais peut faire prendre de vilains plis. Il encourage un style de programmation impératif, plutôt qu’orienté objet. D’autant plus que la grande majorité des scientifiques des données ne sont pas issus des formations en programmation. Après un premier projet notebook, nous conseillons plutôt aux nouveaux scientifiques des données de consulter les meilleures pratiques sur GitHub. On y trouve notamment les codes rédigés par des programmeurs aguerris de toutes les industries.