15nov./18

Meetup Machine Learning Aix-Marseille S04E02

Meetup Machine Learning Aix-Marseille
Ce soir je participe au Meetup Machine Learning Aix-Marseille, pour la deuxième session de cette quatrième édition. J’interviens après Leonardo Noleto, data scientist senior chez Bleckwen FinTech qui développe une solution de lutte contre la fraude financière avec du machine learning. Je vais présenter le projet sur lequel Enora Belz, Romain Gaté, Vincent Malardé, Jimmy Merlet, Arthur Charpentier et moi avons travaillé l’été dernier à l’occasion de la Coupe du Monde de Football 2018 (c.f. billet précédent). L’idée était d’utiliser des techniques d’apprentissage automatique pour faire de la prévision de l’issue des matchs de football (victoire, match nul ou défaite).

Les slides sont disponibles à l’adresse suivante : http://www.egallic.fr/Recherche/Worldcup_2018/2018_meetup_ML/egallic_meetup.html

06juin/18

Coupe du Monde 2018: Paul the octopus is back

Fifa World Cup 2018

À l’occasion de l’Euro 2008 et du Mondial 2010, l’oracle d’Oberhausen (plus communément connu sous le nom de « Paul le poulpe ») a défrayé la chronique. Ses prévisions exactes concernant les résultats de l’équipe allemande lors de l’Euro 2008 et la désignation de l’équipe victorieuse du Mondial 2010 (l’Espagne) sont encore ancrées dans les mémoires. Avec quelques collègues (Enora Belz, Romain Gaté, Vincent Malardé et Jimmy Merlet) nous avons tenté de poursuivre le travail de feu Paul le poulpe pour prédire l’issue des rencontres à venir du Mondial 2018. Pour ce faire, nous nous appuyons sur les résultats des rencontres passées de coupe du Monde et de coupes Continentales1.

07mars/18

Démographie historique et données collaboratives

Généalogie de Victor Hugo

Il y a quelques mois, j’indiquais dans un billet du blog que j’avais présenté les débuts des travaux engagés avec Arthur Charpentier au sujet de la démographie historique à partir de données collaboratives issues du site geneanet.org. J’avais également fait part de l’avancée des recherches lors d’une matinée d’exposés avec les membres de la chaire Actinfo (c.f. billet). Aujourd’hui, Arthur et moi avons déposé un document de travail intitulé « Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie » sur HAL.

Dans ce papier, nous explorons un jeu de données de 2,45 millions d’individus, correspondant à des personnes nées entre 1800 et 1804 en France ainsi qu’à leurs descendants sur 3 générations. Les données brutes étaient gigantesques : plus de 700 000 000 de lignes. Chaque ligne représente un événement (naissance, mariage ou décès) pour un individu dans l’arbre d’un utilisateur de geneanet.org. Or, comme chaque utilisateur créé son propre arbre (il faut noter que nous n’avons pas accès aux arbres des utilisateurs n’ayant pas souhaité le rendre public), les individus se retrouvent dupliqués dans la base. Un gros travail d’appariement et de nettoyage des arbres a donc été réalisé et a conduit à ce nombre de 2,45 millions d’individus.