FIFA World Cup 2018

À l’occasion de l’Euro 2008 et du Mondial 2010, l’oracle d’Oberhausen (plus communément connu sous le nom de « Paul le poulpe ») a défrayé la chronique. Ses prévisions exactes concernant les résultats de l’équipe allemande lors de l’Euro 2008 et la désignation de l’équipe victorieuse du Mondial 2010 (l’Espagne) sont encore ancrées dans les mémoires. Avec quelques collègues (Enora Belz, Romain Gaté, Vincent Malardé et Jimmy Merlet) nous avons tenté de poursuivre le travail de feu Paul le poulpe pour prédire l’issue des rencontres à venir du Mondial 2018. Pour ce faire, nous nous appuyons sur les résultats des rencontres passées de coupe du Monde et de coupes Continentales1.

Note : l’affichage est optimisé pour une lecture sur ordinateur ; certains graphiques ne sont pas accessibles sur mobile.

Comment ça marche ?

Avant toute chose, pour les plus curieux, nous proposons une version bien plus détaillée de la démarche que nous avons adoptée pour réaliser ces prévisions, dans un document de travail disponible à cette adresse :

http://egallic.fr/Recherche/Worldcup_2018/worldcup.html.

Neuf modèles pour effectuer des prévisions sur les résultats

Pour faire simple, huit méthodes d’apprentissage supervisé sont utilisées afin de prédire les résultats des rencontres à venir. Ces méthodes ont des noms qui vous sont peut-être familiers : les k plus proches voisins, la classification naïve bayésienne, les arbres de classification, les forêts aléatoires, le gradient boosting stochastique, la régression logistique par boosting, les machines à vecteurs de support, les réseaux de neurones artificiels. Nous avons également un neuvième modèle que nous avons nommé “combination”. Ce dernier se sert des huit précédents modèles pour améliorer les prévisions. Comme il propose des performances légèrement supérieures aux autres, c’est celui que nous préférons.

Des simulations lancées pour prévoir les résultats de la Coupe du Monde

Deux dés rouges

Pour prévoir les résultats possibles de la Coupe du Monde, nous simulons la compétition un grand nombre de fois, en avançant match par match. La raison est la suivante. Lorsque nous effectuons une prévision pour un match entre une équipe 1 et une équipe 2, nos modèles nous indiquent une probabilité pour chaque issue possible. Voici un exemple :

  • l’équipe 1 gagne avec une probabilité de 50% ;
  • le match se termine par un nul à la fin du temps réglementaire avec une probabilité de 17% ;
  • l’équipe 2 gagne avec une probabilité de 33%.

Même si le modèle nous indique que l’issue la plus probable est la victoire de l’équipe 1, cela ne veut pas dire que dans la réalité l’équipe 1 gagnera forcément. Elle a simplement plus de chances de gagner d’après nos estimations.

Dans nos simulations, pour considérer les cas de figure possibles (mais plus rares) dans lesquels l’équipe 2 gagne, nous tirons au sort le résultat de la rencontre, en donnant plus de chances à l’événement dans lequel l’équipe 1 gagne. En d’autres termes, dans cet exemple, cela revient à lancer un dé à six faces et à observer le résultat. La victoire de l’équipe 1 disposant d’une probabilité de 50% nous lui attribuons 50% des faces (3/6 faces). Si la face du dessus du dé montre par exemple un 1, un 2 ou un 3, nous concluons que l’équipe 1 gagne le match. Le match nul dispose d’une probabilité de 17%, soit pour l’exemple des dés, 1 seul face sur les 6 possibles. Si la face du dessus du dé montre un 4 par exemple, nous concluons que la recontre se solde par un nul. Enfin, il nous reste 33% de probabilité pour la victoire de 2. Ce chiffre correspond à 2 faces sur 6, si la face du dessus du dé montre un 5 ou un 6, nous concluons que l’équipe 2 gagne. En lançant de nombreuses fois le dé, nous aurons à peu près 50% de lancers qui donneront l’équipe 1 gagnante, 17% un match nul et 33% une victoire de l’équipe 2. Chaque lancer correspond à une simulation dans notre exercice, et nous en effectuons 50 000. Nous avançons match par match dans chaque simulation, pour arriver au vainqueur de la compétition, puis nous passons à la simulation suivante, jusqu’à arriver à la 50 000e.

Sur quoi se basent les prévisions données par les modèles ?

Les ingrédients du Pudding à l'Arsenic... Et un peu de sucre en poudre !

Les prévisions s’appuient sur des données réelles de rencontres de football internationales de compétition (nous excluons les matchs amicaux) depuis août 1993. L’ensemble des variables utilisées est décrit dans notre document de travail. Nous utilisons les résultats des matchs précédents, le rang de l’équipe 1 dans le classement mondial de la FIFA, la différence qui la sépare du rang de l’équipe 2, la forme offensive/défensive de chaque équipe (le nombre de buts inscrits/concédés sur les trois derniers matchs, en moyenne), le type de rencontre (s’il s’agit d’une compétition mondiale comme la Coupe du Monde ou continentale comme la Coupe d’Europe des nations), la phase de la compétition (préliminaire ou finale), le mois, l’année, le continent.

Génial, je vais pouvoir utiliser ces prévisions pour faire des paris en ligne alors ?

À vos risques et périls : prévoir n’est pas synonyme de savoir. Même si les résultats des rencontres passées peuvent avoir une certaine capacité prédictive, le résultat d’une rencontre reste évidemment déterminé par le talent des joueurs, mais est aussi associé à une part de chance.

Roulette de casino

Lorsque l’on soumet nos modèles à de nouveaux matchs, qui n’ont pas servi à l’estimation, ils prédisent le bon résultat dans environ 60% des cas. Ils se trompent donc dans les 40% des cas restants. En comparaison, le hasard concernant trois issues (1/ Nul /2) ne donne qu’un tier de bonne prédiction, soit 33%.

Mais alors, elles sont mauvaises ces prévisions ?

Prévoir les résultats d’un match de football avec si peu de variables dans nos modèles est un exercice ardu. Cela dit, même en ajoutant de nombreuses variables, à l’instar de ce que peuvent faire les opérateurs de paris en ligne, la qualité prédictive des modèles serait loin d’être parfaite. C’est en tout cas ce que l’on peut lire dans la littérature académique à ce sujet.

Pour faire simple, les résultats de nos prévisions sont basés sur des probabilités. Le résultat réel de la Coupe du Monde 2018 sera sans doute différent de ce que nous vous proposons ici. L’idée est juste de considérer que nos prévisions seraient meilleures si l’on répétait cet exercice un très grand nombre de fois par rapport au hasard total pour déterminer le vainqueur.

Et où sont-elles, ces prévisions ?

Elles arrivent ! Nous vous en proposons plusieurs types :

  1. des prévisions sur les matchs de groupe, qui donnent pour chaque rencontre les probabilités de chaque issue ;
  2. des probabilités de gagner la coupe du monde pour chaque équipe ;
  3. des probabilités de se faire éliminer à chaque tour, en fonction de l’avancement dans la compétition ;
  4. des parcours probables.

Matchs de groupes : quelles probabilités pour chaque issue ?

Pour les matchs de groupes, nous connaissons déjà les équipes qui vont se rencontrer. Il suffit de demander à nos modèles les résultats de chaque match. Il y a juste un petit bémol : pour faire une prévision, nos modèles se nourrissent des résultats passés, notamment pour les variables de forme offensive et forme défensive, ainsi que sur les issues des trois derniers matchs. Pour les variables de forme offensive et défensive, nous bloquons les valeurs aux dernières observées, qui resteront identiques tout au long de la compétition. Pour les issues des trois derniers matchs, nous les mettons à jour après chaque rencontre. Sans plus tarder, voici les résultats. Le graphique ci-dessous, indique pour un match donné, les probabilités d’observer une victoire de l’équipe 1 (à gauche), un nul (au milieu) ou bien une victoire de l’équipe 2 (à droite). Par défaut, le graphique propose les résultats relatifs au match d’ouverture de la compétition opposant la Russie à l’Arabie Saoudite ; pour changer de match, il suffit de cliquer sur le menu en haut à gauche du graphique pour en sélectionner un autre. On y lit que notre modèle favori (le menu déroulant de droite permet de voir les résultats proposés par d’autres modèles) donne la Russie vainqueur delà rencontre avec une probabilité de 53,38%. La probabilité d’observer un match nul est plus faible (27,03%) et celle d’observer une victoire de l’Arabie Saoudite l’est encore plus (19,59%).

Figure 1. Résultats de chaque rencontre de groupe, pour chaque modèle.

Qui va gagner la coupe du monde ?

Après que chaque équipe ait joué ses trois matchs, les classements de groupes sont calculés. Des points sont attribués à chaque équipe à l’issue de chaque rencontre : 3 points en cas de victoire, 1 pour un nul, 0 pour une défaite. À l’issue des prévisions pour l’ensemble des matchs de groupes, le classement dans chaque groupe est effectué, en comptant le nombre de points obtenus sur les trois rencontres que chaque équipe a disputées. En cas d’égalité, le règlement de la FIFA indique que la différence de buts après tous les matchs de groupes fait foi. En cas de nouvelle égalité, le plus grand nombre de buts marqués sert alors à discriminer. S’il persiste encore une égalité, d’autres critères s’appuyant sur les nombres de buts sont utilisés. En dernier ressort, la FIFA prévoir un tirage au sort. Comme les modèles de cette étude ne prévoient pas le nombre de buts, il est impossible d’utiliser les critères normalement applicables, à l’exception du tirage au sort. Aussi, en cas d’égalité au classement pour chaque groupe, un tirage au sort est effectué pour départager les équipes.

Pour les phases suivantes de la compétition, il suffit de suivre le calendrier d’avancement proposé par la FIFA en faisant se rencontrer en huitièmes de finale les premiers de poules et les seconds : le premier du groupe A contre le second du B, le premier du C contre le second du D, etc. Les vainqueurs poursuivent en quart de finale, puis en demi-finale et enfin en finale.

Le tableau ci-dessous reporte les probabilités de victoire de chaque équipe. Notre modèle favori nous donne le Brésil comme étant l’équipe ayant la plus forte probabilité (19%) de remporter la Coupe du Monde 2018. Viennent ensuite l’Allemagne (14%) et l’Espagne (11%).

Attention ! Cela ne veut pas dire que le premier sera le Brésil, le second l’Allemagne et le troisième l’Espagne. Ces probabilités sont calculées en comptant le nombre de simulations dans lesquelles chaque pays arrive premier à la fin de la compétition, et en le divisant par le nombre total de simulations. Toutefois, il y a fort à parier que le gagnant figure parmi les 5 premiers.

Equipe Probabilité de Victoire (%)
Brazil 19.124
Germany 14.522
Spain 10.644
France 9.708
Portugal 8.248
Switzerland 6.936
Belgium 6.708
England 5.386
Poland 3.702
Peru 3.072
Denmark 2.472
Argentina 2.252
Croatia 1.718
Uruguay 1.632
Mexico 1.396
Colombia 0.632
Tunisia 0.402
Sweden 0.230
Egypt 0.208
Iceland 0.160
Costa Rica 0.136
Russia 0.102
IR Iran 0.100
Senegal 0.076
Morocco 0.074
Nigeria 0.064
Japan 0.058
Australia 0.056
Saudi Arabia 0.056
Serbia 0.050
Korea Republic 0.040
Panama 0.036

Tableau 1. Estimation de la probabilité de remporter la Coupe du Monde 2018.

Jusqu’où ira mon équipe favorite ?

Concentrons-nous sur une seule équipe à la fois. Quels sont ses risques de perdre en phase de groupe ? De perdre en huitième ? En quart ? En finale ? Pour répondre à cette question nous regardons à nouveau les résultats de nos simulations. Pour chaque équipe, nous comptons le nombre de cas dans lesquels elle perd dans chacune des phases. Ensuite, nous divisons ce nombre par le nombre total de tirages. Cela permet d’obtenir la proportion de simulations dans lesquelles chaque équipe perd en phase de groupes, en huitièmes, en quarts, etc.

Le graphique ci-dessous donne par défaut le cas de l’Argentine. Parmi nos 50 000 simulations, 20,8% d’entre elles ont vu l’Argentine se classer 3e ou 4e de son groupe et donc s’arrêter après ses trois premiers matchs ; 37,65% ont indiqué une fin de parcours en huitièmes de finale pour l’Argentine, 23,64% en quarts, 12% en demi-finale et 3,65% en finale. Dans le tableau précédent, on retrouve la valeur de 2,25% de simulations donnant l’Argentine vainqueur de la Coupe du Monde.

Pour regarder ce qu’il se passe pour une autre équipe, comme précédemment, il suffit de dérouler le menu en haut à gauche du présent graphique.

Que se passe-t-il maintenant si l’on veut regarder la répartition des différentes issues dans la compétition conditionnellement au fait qu’une équipe donnée a déjà réussi à passer une étape ? Pour répondre à cette question, nous vous proposons de choisir une phase déjà passée sur le menu déroulant en haut à droite du graphique. Prenons à nouveau l’exemple de l’Argentine, et regardons ce qu’il se passe dans le cas où elle a réussi à passer les huitièmes de finale (sélectionnez la valeur Round of 16 dans le menu de droite). Les résultats sont les suivants : dans nos simulations, lorsque l’Argentine a réussi à se qualifier en quarts de finale, dans 57% des cas, elle s’est ensuite inclinée face à son adversaire dès le quart de finale. Dans 29% des cas, elle a pu accéder à la demi-finale, mais a immédiatement essuyé une défaite. Elle a remporté la coupe dans 5% des simulations parmi lesquelles elle a réussi à passer l’étape des huitièmes de finale.

Figure 2. Pourcentage de simulations dans lesquelles l’équipe choisie termine la compétition dans la phase indiquée en abscisse, conditionnellement à la phase de la compétition déjà atteinte (début du tournoi par défaut).

Quels sont les parcours les plus probables pour mon équipe ?

C’est bien beau d’avoir les probabilités de remporter la Coupe du Monde, ou de perdre en quart ou en finale, mais cela ne nous dit pas quels sont les parcours probables de chaque équipe au sein de la compétition.

Attention, la compréhension des graphiques qui vont suivre peut s’avérer un peu délicate. Les raccourcis sont très faciles à faire, et l’interprétation faite est alors complètement fausse.

Pour connaître les adversaires potentiels auxquels une équipe fait face, nous nous appuyons sur les simulations effectuées, pour suivre des parcours possibles pour chaque équipe. La Figure 3 montre sous la forme d’un arbre, l’ensemble des parcours ayant été obtenus lors des 50 000 simulations pour chacune des 5 équipes arrivées en tête. L’arbre d’une équipe est composé d’une racine (le nom de l’équipe), de feuilles (les phases de jeu et les adversaires potentiels) liées entre elles par des branches. La taille d’une feuille est proportionnelle au nombre de simulations dans lesquelles l’événement décrit par la feuille a été observé. Ce nombre est indiqué sur la seconde ligne de l’étiquette apparaissant au survol d’une feuille. Ainsi, pour l’arbre de la France (affiché par défaut, utilisez le menu au-dessus du graphique pour afficher l’arbre d’un autre pays) la racine indique que l’arbre fait référence à 50 000 simulations. Les feuilles suivantes indiquent le classement obtenu dans les simulations à l’issue de la phase de groupes : 27 526 cas dans lesquels la France a terminé première de son groupe, 12 755 dans lesquels elle s’est hissée à la seconde place, et 9 735 cas dans lesquels elle n’a pas passé les phases de groupe (7109 troisième et 2626 dernière). En cliquant sur une feuille dont la légende indique le classement à l’issue des matchs de groupe (First, Second, Third ou Fourth), la suite de la compétition s’affiche. Par exemple, en cliquant sur la feuille First pour la France, quatre adversaires potentiels apparaissent pour le huitième de finale : Argentine, Croatie, Islande et Nigeria. La taille de la feuille de la Croatie étant la plus grande, cela traduit le fait que si la France se qualifie pour les huitièmes de finale, son adversaire le plus probable serait la Croatie. En cliquant de feuille en feuille, les différentes possibilités de parcours de la France se révèlent (il est possible d’utiliser le zoom avec la molette de la souris ou du pavé tactile).

Figure 3. Arbres de rencontres simulés pour chacune des 5 premières équipes.

Nous proposons une autre manière de représenter les possibilités de parcours pour chaque équipe, cette fois-ci pour l’ensemble des compétiteurs (et non plus les 5 équipes avec les probabilités les plus élevées de remporter la coupe). Cette autre représentation, appelée “Rayons de soleil” (ou sunburst) est peut-être un peu moins compréhensible au premier coup d’oeil. Voici le fonctionnement. Le raisonnement est identique à celui adopté lors de la lecture du graphique précédent. Après avoir sélectionné une équipe (par défaut, la France est affichée), les différentes phases de la compétition pour cette première sont affichées, sous la forme d’anneaux. Chaque anneau est fractionné proportionnellement au nombre de simulations dans lesquelles l’issue correspondante (qui s’affiche au survol de la souris) s’observe. Lorsque l’on clique sur une portion d’anneau, les portions restantes sont alors masquées pour faciliter la vue et la navigation. Pour afficher à nouveau les anneaux masqués précédemment, il suffit de cliquer sur le cercle central du graphique. À tout instant, il est possible de savoir le chemin parcouru pour aboutir à l’affichage proposé, en suivant les flèches situées en haut du graphique.

Figure 4. Séquences de rencontres simulées par équipe.

Nous tenons à préciser que le raisonnement adopté pour lire les deux précédents graphiques ne traduit pas nécessairement l’issue la plus probable : le parcours s’effectue petit à petit, et de nombreuses issues possibles ne sont donc pas prises en compte une fois qu’un choix a été réalisé. Prenons un exemple pour éclaircir ce point. Considérons une compétition en trois étapes : des matchs de groupe, une demi-finale et une finale. Considérons pour simplifier que 100 simulations ont été effectuées et que les résultats obtenus sont tel qu’indiqué sur l’arbre de probabilités ci-dessous. Si l’on suit le raisonnement adopté précédemment pour décrire le chemin d’une équipe au cours de la compétition, il faudra procéder comme suit : l’équipe termine première de son groupe et accède donc à la demi-finale. Sachant cela, elle remportera son match dans 20 simulations et s’inclinera dans 15. On considèrera alors qu’elle accède à la finale, et qu’elle gagnera dans 15 simulations. Aussi, ce parcours le plus probable annoncera cette équipe comme vainqueur du tournoi. Toutefois, il ne s’agit pas de l’issue la plus probable. En effet, si on regarde bien l’arbre, cette équipe perd la compétition dans 83 cas sur 100. Sa probabilité de perdre est bien plus élevée que sa probabilité de gagner. En résumé, le chemin le plus probable n’égale pas nécessairement l’issue de la compétition la plus probable.

Arbre de probabilités

Figure 5. Exemple fictif d’une compétition en trois phases.


Qui sommes nous ?

Nous sommes des chercheurs juniors en économie, membres du Centre de Recherche en Économie et Management. Nous faisons également partie d’une association, nommée PROJECT (PROmotion des Jeunes ÉConomistes en Thèse).

Par ordre alphabétique :

Pourquoi avoir travaillé sur un tel projet ?

Les techniques d’apprentissage statistique sont pour l’instant assez peu utilisées dans la discipline économique au sein du monde académique. Certains chercheurs tentent de convaincre que l’économie pourrait bénéficier des recherches florissantes menées dans d’autres disciplines faisant appel aux outils statistiques liés aux big data. Pour accroître nos connaissances liées à ces techniques, nous avons décidé de profiter de cette année de Coupe du Monde de football pour tester différentes méthodes avec des données réelles. Les résultats obtenus nous ont laissés penser qu’il pourrait être intéressant de les partager.


  1. Coupe d’Europe des nations, coupe d’Afrique des nations, Copa América, etc.

6 thoughts on “Coupe du Monde 2018: Paul the octopus is back

  1. Bonjour,

    Vraiment un bon travail, je suis Data Miner pour l’entreprise Golden eyes ( un cabinet d’études). J’ai une question assez bête, comment vous intégrer vos graphique dynamique. Pour faire simple, dans le monde des data malheureusement powert point reste la façon la plus courante de partager des résultats ( souvent trop statistiques) votre manière de faire est exactement ce que je recherche.

    J’espere avoir une réponse de votre part. Bon travail Cordialement Valentin MAes

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Time limit is exhausted. Please reload CAPTCHA.