Résumé

À l’occasion de l’Euro 2008 et de la Coupe du Monde 2010, un poulpe nommé Paul a défrayé la chronique pour ses prévisions exactes des résultats des matchs de l’équipe allemande pour le championnat européen et pour la désignation de l’Espagne comme vainqueur de la compétition mondiale. En utilisant des données sur les résultats de rencontres de Coupe du Monde, compétitions intercontinentales et coupes mondiales, cet article propose de poursuivre le travail de feu Paul le poulpe et de prédire les issues probables des rencontres à venir lors de la Coupe du Monde de football 2018. Huit méthodes d’apprentissage supervisé sont utilisées afin de prédire les résultats des rencontres à venir : les k plus proches voisins, la classification naïve bayésienne, les arbres de classification, les forêts aléatoires, le gradient boosting stochastique, la régression logistique par boosting, les machines à vecteurs de support, les réseaux de neurones artificiels. Les performances relatives de ces méthodes sont présentées, et sont également comparées aux cotes d’un opérateur de paris en ligne. Les résultats sont ensuite utilisés afin de proposer, au moyen de simulations, les trajectoires à venir des équipes nationales au sein de cette compétition.

Mots-clés: Football ; Apprentissage statistique ; Prévisions

1 Introduction

Le football est un sport populaire à travers le monde. On compte, en France, 2,2 millions de licenciés1. Au-delà des aspects ludiques de ce sport, le football occupe une place majeure dans l’industrie du sport et du divertissement. En France, les 43 clubs professionnels ont généré 35000 emplois et plus de 7,5 milliards d’euros de chiffre d’affaires, pour la saison 2015-2016. Ce succès populaire a permis le développement d’une autre activité économique, celle des paris sportifs. Le football représente près de 60% des montants engagés dans l’ensemble des paris sportifs en ligne2.

Histoire des paris sportifs

Bien qu’il soit impossible d’établir l’origine des paris sportifs, les premières preuves remontent à l’Antiquité. Si les paris et jeux d’argent se répandent dans toute l’Europe, la France et l’Angleterre apparaissent comme des terrains particulièrement propices au développement de ces activités. Au 19e siècle, les paris sportifs hippiques remportent un succès considérable. Au 20e siècle, avec l’apparition de la télévision de nouveaux sports commencent à gagner du terrain sur le quasi-monopole du monde hippique. Un nouveau tournant s’est amorcé avec l’apparition d’Internet, début des années 2000. À partir de 2010, les paris en lignes ont été légalement autorisés. Depuis cette période, l’activité est en croissance[^45pctFrancais]. Le chiffre d’affaires total des opérateurs n’a cessé de croître ces dernières années. L’autorité de régulation des jeux en ligne (ARJEL) reporte une augmentation des mises enregistrées au cours du premier trimestre 2018 de 34% relativement au premier trimestre de 20173.

Fonctionnement des paris sportifs

La cote d’un événement sportif est un nombre qui définit à la fois le gain potentiel du parieur et les chances de l’emporter. Il y a donc une relation négative entre la chance de gagner et le gain potentiel, plus il est probable de gagner et plus le gain potentiel est faible. La cote est calculée par l’opérateur de pari en ligne en intégrant les informations disponibles sur un événement sportif. Il est crucial pour un opérateur de pari d’estimer au mieux les probabilités de l’issue d’un événement, afin d’être rentable. Dans le cas du football, la palette des paris sportifs proposés par les opérateurs est large; dans ses formes les plus simples, il s’agit de parier sur l’une des trois issues possibles (victoire, nul, défaite) ou sur le nombre de buts marqués par chaque équipe (le score final). La littérature s’est penchée sur ces deux types de paris, en développant deux approches statistiques distinctes afin de prédire les probabilités associées aux issues possibles, en utilisant les résultats des rencontres précédentes. La première approche consiste à estimer le nombre de buts qui devrait être marqué par chaque équipe, et donc le score final. Cette branche de la littérature se base sur des méthodes de régression. La deuxième approche consiste à estimer directement les probabilités associées à chaque issue possible, ces méthodes sont dites de classification. Récemment, ces dernières ont connu un développement considérable.

Objectif

L’objectif de cet article est d’explorer plusieurs méthodes statistiques afin de prévoir les issues des rencontres sportives, dans le cas de la Coupe du Monde 2018. Nous nous intéressons à la comparaison des performances relatives de ces méthodes, et les combinons pour les confronter aux prévisions des opérateurs de paris en ligne.

Cet exercice permet de faire des prédictions sur l’issue la plus probable, pour chaque rencontre. Au moyen de simulations l’exploitation des résultats permet également de retracer les trajectoires les plus probables, pour chaque équipe nationale en compétition. Les simulations permettent également pour chaque équipe de prédire sa probabilité d’aller en finale et de gagner la Coupe du Monde.


Le reste de cet article est organisé de la façon suivante. La section 2 propose une revue de la littérature relative à la prédiction résultats de matchs. La section 3 décrit les données utilisées par les modèles présentés dans la section 4. La section 5 s’attache à mesurer la qualité prédictive des modèles. Enfin, la section 6 présente les résultats des prévisions.

2 Revue de littérature prédiction et paris sportifs

Historiquement, la littérature relative à la prédiction des résultats de matchs s’est penchée sur la modélisation des scores des rencontres, au moyen de modèles de comptage. Une approche «directe», consistant à modéliser non plus le nombre de buts inscrits lors d’un match par chacune des deux équipes, mais le résultat final de la rencontre (victoire, nul ou défaite) a été adoptée plus récemment par un pan de la littérature. Des modèles statistiques dits «classiques», de type probit ont d’abord été employés à cet effet ; puis, plus récemment, en lien avec la remise au goût du jour et le développement des techniques liées au big data, par des méthodes d’apprentissage statistiques. Que la prédiction porte sur le nombre de buts ou sur l’issue d’un match, elle est à l’origine d’une activité économique importante, celle des paris sportifs.

Cette section donne dans un premier temps un aperçu des techniques de modélisation des scores à l’aide de modèles de comptages, puis des méthodes plus récentes visant à classifier l’issue des rencontres. Une revue de littérature de l’utilisation de ces prévisions sur les marchés de paris sportifs et sur son efficience est ensuite proposée.

2.1 Prédiction des scores - modèles de comptage

Moroney (1956) and Reep, Pollard, & Benjamin (1971) utilisent les distributions Poisson et Binomiale Négtive pour modéliser la distribution du nombre total de buts marqués au cours d’un match. Maher (1982) développe quant à lui un modèle dans lequel les scores des deux équipes suivent des processus de Poisson indépendants. Le modèle intègre des mesures des capacités de défense et d’attaque des deux équipes. Dans un deuxième temps, afin de corriger la tendance à sous-estimer le nombre de buts l’auteur utilise un modèle Poisson bivarié afin de tenir compte de l’interdépendance des scores des deux équipes. La sous-estimation des nombres de buts se retrouve particulièrement dans la littérature lorsqu’il s’agit de matchs nuls. M. J. Dixon & Coles (1997) proposent une méthodologie pour y remédier. Ils modélisent les scores au moyen de lois de Poisson indépendantes, mais, pour les matchs présentant de faibles scores, les auteurs ajustent les probabilités de façon ad hoc de façon à augmenter les probabilités de matchs nuls (0–0 et 1–1). Les auteurs introduisent également une fonction de pondération pour diminuer la contribution des matchs les plus anciens.

Des modèles de Poisson bivariés améliorés peuvent permettre d’augmenter les probabilités d’obtenir des matchs nuls, c’est notamment l’objet des modèles Poisson bivariés «diagonal inflated», utilisés par Karlis & Ntzoufras (2003).

L’aspect temporel est pris en compte par certaines études, soit en s’intéressant à l’évolution des scores dans une même rencontre, soit en se penchant sur la dynamique des scores de rencontres en rencontres. Ainsi, M. Dixon & Robinson (1998) s’intéressent à la dynamique du score au sein d’un match. Le taux de buts marqués change avec le score, le temps qu’il reste à jouer et l’équipe qui mène (si une des deux équipes mène). Koopman & Lit (2015) utilisent un Poisson bivarié dynamique afin de permettre aux coefficients d’évoluer dans le temps. Enfin, Angelini & Angelis (2017b) proposent un modèle Poisson autoregressif afin de prendre en compte les résultats des derniers matchs et améliorer l’estimation.

2.2 Prédiction des résultats

Une branche de la littérature utilise des modèles de choix discrets (probit ordonné) pour modéliser directement les résultats des matchs sans passer par l’estimation des scores. Cette approche a l’avantage de ne pas être impactée par le problème de l’interdépendance des scores.

Goddard & Asimakopoulos (2004) utilisent un modèle probit ordonné. Le résultat du match entre les équipes \(i\) et \(j\) noté \(y_{ij}\) peut prendre trois valeurs: 0 si l’équipe à l’extérieur gagne, \(\frac{1}{2}\) s’il y a match nul, \(1\) si l’équipe à domicile gagne. L’approche a été utilisée dans plusieurs autres études (Kuypers_2000; Audas, Dobson, & Goddard, 2002 ; Forrest & Simmons, 2000 ; Graham & Stott, 2008 ; Koning, 2000).

Récemment, la littérature s’est penchée sur des méthodes d’apprentissage statistique pour prédire les issues des rencontres. Constantinou, Fenton, & Neil (2013) développent un réseau de neurones bayésien (Bayesian Neural Networks) pour prédire les résultats de matchs. Odachowski & Grekow (2013) prédisent les résultats de matchs à partir des évolutions (dans le temps) des cotes. Les auteurs testent un ensemble d’algorithmes de classification (BayesNet, VotedPerception, Ibk, Bagging, Decision Table, LADTree…). Les auteurs font de la classification sur des résultats binaires (victoire de l’équipe à domicile contre nul ou victoire de l’équipe à l’extérieur; victoire équipe à domicile contre victoire équipe à l’extérieur) et obtiennent une qualité de prédiction de 70%. Tax & Joustra (2015) combinent une analyse en composantes principales (ACP) avec des méthodes de classification “Naive Bayes” et “Multilayer Perceptron”. La qualité de prédiction obtenue est de 54,7%.

Godin, Zuallaert, Vandersmissen, De Neve, & Van de Walle (2014) utilisent des posts twitter et les combinent à de l’information statistique pour améliorer les prédictions de leur modèle.

2.3 Efficience des marchés de paris sportifs

Par analogie avec la littérature sur les marchés financiers, la littérature définit une forme faible de l’hypothèse d’efficience des marchés de paris. Si le modèle de prévision produit de l’information sur les probabilités de résultat d’un match qui n’est pas déjà reflétée dans les cotes établies par les bookmakers, alors les cotes échouent à satisfaire le critère standard d’efficience de forme faible: toute l’information historique pertinente pour l’évaluation des probabilités de résultat d’un match devrait être reflétée dans les cotes établies (Goddard & Asimakopoulos, 2004).

Pankoff (1968) est le premier à mettre en place un test d’efficience des marchés de paris. Le test consiste à régresser les résultats des matchs (mesurés par la différence de buts marqués) sur les cotes des bookmakers. Pope & Peel (1989) testent l’hypothèse d’efficience faible des marchés de paris sur le football anglais, en régressant les résultats des matchs sur les probabilités implicites (calculés à partir des cotes définies par les bookmakers). Leurs résultats semblent indiquer que l’hypothèse d’efficience n’est pas toujours vérifiée.

Une autre approche pour tester l’hypothèse d’efficience des marchés consiste à générer des prédictions pour obtenir des probabilités associées à chaque résultat, et identifier les meilleures opportunités de paris (M. J. Dixon & Coles, 1997 ; Goddard & Asimakopoulos, 2004 ; Koopman & Lit, 2015 ; Rue & Salvesen, 2000). Les résultats de ces études suggèrent des formes d’inefficiences faibles.

Spann & Skiera (2009) montrent qu’une qualité de prédiction de 53.98% peut être suffisante pour mettre en place une stratégie de paris profitable. Angelini & Angelis (2017a) étudient l’efficience des marchés sur un ensemble de 11 championnats européens, et trouvent que 4 championnats apparaissent inefficients, suggérant la possibilité de paris rentables.

3 Les données

Pour prévoir les résultats de la Coupe du Monde de Football 2018, il est nécessaire de rassembler des données sur les rencontres footballistiques passées, à la fois sur les rencontres elles-mêmes, mais également sur des caractéristiques propres à chaque équipe. Pour savoir comment s’inscrivent nos prévisions relativement à celles issues des marchés de paris sportifs, il convient également de récupérer des informations au sujet des cotes. Cette section s’attache à présenter succinctement les sources et quelques statistiques descriptives des données utilisées dans cette étude.

3.1 Rencontres internationales

La Fédération Internationale de Football Association (FIFA) communique les résultats, mois par mois, des rencontres passées4. Pour chaque rencontre, les informations suivantes sont disponibles : le lieu, la date, les équipes qui s’affrontent, le type de match (amical, coupes diverses) et le résultat final.

Nous récupérons les données des rencontres masculines allant d’août 1993 à avril 2018, c’est-à-dire juste avant la coupe du Monde 2018 en Russie. Bien que les données des rencontres amicales soient proposées par la FIFA, seules celles de compétitions (phases de qualifications et phases finales) entre les nations composent l’échantillon utilisé dans cette étude. En effet, les enjeux lors des matchs amicaux ne sont pas les mêmes que lors de tournois entre les nations. Les informations des rencontres amicales servent uniquement lors du calcul de la forme d’une équipe (présentée plus loin). L’échantillon concerne 205 équipes et contient 11584 rencontres uniques, dont 6479 provenant de compétitions intercontinentales et 5105 issues des coupes mondiales (Coupes du Monde, Coupes des Confédérations). La Figure 1 montre la répartition du nombre de matchs par année, pour les coupes intercontinentales et pour les coupes mondiales.

Figure 1. Nombre de rencontres par année par type de compétition.

3.2 Caractéristiques des équipes

Chaque observation correspond à une rencontre entre deux équipes. Les informations propres à chacune de ces rencontres concernent les résultats, le classement des équipes ainsi que leur forme.

3.2.1 Classement

Lors d’un match de football, l’issue de la rencontre est fonction de la différence de classement existant entre les deux équipes qui s’affrontent. Une manière de tenir compte de la différence entre les forces des deux équipes est de se fier au Classement mondial de la FIFA, publié depuis août 1993. Ce classement permet de comparer les équipes entre elles, en prenant en compte, entre autres, les résultats passés de chaque équipe ainsi que la valeur des adversaires rencontrés5. La Figure 2 reporte l’historique du classement, par équipes (par défaut, toutes les équipes sont présentes sur l’affichage, il suffit de cliquer dans la barre de recherche pour sélectionner une ou plusieurs équipes à afficher).