Achim Zeileis, professeur de statistiques à l'université d'Innsbruck, et son équipe ont simulé 100 000 fois la Coupe du monde pour en déterminer le vainqueur. Il nous explique comment.
Prévisions probabilistes et dés pipés
L'algorithme conçu fonctionne en deux étapes. D'abord, des modèles statistiques sophistiqués sont combinés aux analyses des bookmakers et aux données du marché des transferts pour évaluer la force de toutes les équipes et de leurs joueurs. Ensuite, un algorithme d'apprentissage automatique détermine la meilleure façon de combiner ces estimations avec d'autres informations concernant les équipes.
Cette approche permet de produire une prévision probabiliste pour chaque match du tournoi. On peut l'imaginer comme une paire de dés pipés : au lieu de présenter les chiffres de 1 à 6 avec une probabilité identique, ces dés attribuent des probabilités différentes au nombre de buts que chaque équipe est susceptible de marquer.
Par exemple, selon nos prévisions, le dé du Mexique produit en moyenne 1,9 but lors du match d'ouverture, tandis que celui de son adversaire, l'Afrique du Sud, n'en produit que 0,7. Cela ne signifie pas que le Mexique gagnera à coup sûr. Une victoire mexicaine constitue l'issue la plus probable, avec une probabilité de 65 %. Un match nul est moins probable (21 %), tandis qu'une victoire de l'Afrique du Sud représente le scénario le moins probable (14 %).
"¡Vuelve a casa, el fútbol vuelve a casa!"
En utilisant différentes paires de dés pipés, il est possible de simuler le résultat de chaque match de la Coupe du monde. Nous avons pris en compte le tirage au sort officiel du tournoi ainsi que l'ensemble des règles de la FIFA, y compris les prolongations et les tirs au but. Nous avons ensuite effectué 100 000 simulations pour déterminer le scénario le plus probable.
Les résultats montrent que l'Espagne est la favorite pour le titre, avec une probabilité de victoire de 14,5 %. Elle est suivie de près par l'Angleterre et la France, toutes deux à 12,4 %, puis par l'Allemagne avec 11,2 %. En raison de l'élargissement du tournoi – cette Coupe du monde réunit 48 équipes et cinq tours à élimination directe –, les écarts entre les favoris restent faibles. Le Portugal et l'Argentine disposent aussi de solides chances, avec respectivement 8,9 % et 8,2 % de probabilité de victoire finale.
Les États-Unis ont de bonnes chances d'atteindre les seizièmes de finale : 78 %. Il s'agit de la probabilité la plus élevée de leur groupe. En revanche, lors de la phase à élimination directe, leurs chances diminuent rapidement. La probabilité de voir le pays hôte soulever le trophée le 19 juillet au MetLife Stadium n'est que de 1 %.
Les coulisses du modèle
Notre algorithme d'apprentissage automatique repose sur un mélange de données, d'expertise et de modèles statistiques. Tout d'abord, l'ensemble des matchs internationaux des huit dernières années sert de base à une estimation rétrospective du niveau des équipes. Ensuite, une estimation prospective est établie à partir des cotes des bookmakers. Troisièmement, des évaluations individuelles des joueurs sont établies à partir de leur contribution aux buts marqués en club et en sélection. Enfin, la qualité actuelle et le potentiel futur des joueurs sont appréhendés via leur valeur marchande estimée par Transfermarkt.
Ces quatre variables sont combinées à d'autres indicateurs comme le classement FIFA, le nombre de joueurs ayant atteint les demi-finales de la Ligue des champions, ou le PIB par habitant. Pour déterminer l'influence de ces variables, nous avons utilisé une forêt aléatoire, un modèle composé de nombreux arbres de décision entraînés sur des sous-ensembles de données. L'algorithme a été entraîné sur tous les matchs des grandes compétitions internationales depuis 2006.
Quelle fiabilité ?
Ce n'est pas la première fois que notre équipe collabore pour prédire une Coupe du monde. Lors de la Coupe du monde féminine 2019, nous avions correctement désigné les États-Unis comme vainqueurs. En 2023 et 2022, les équipes sacrées – l'Espagne et l'Argentine – n'étaient pas nos favorites, mais notre modèle les identifiait comme de sérieuses prétendantes.
La principale leçon est qu'une prévision repose sur des probabilités. Notre programme ne prétend pas prédire le vainqueur avec certitude, mais il a peut-être davantage de chances de succès qu'un mollusque à huit bras. Cet article est réalisé par The Conversation et hébergé par 20 Minutes.



