06juin/18

Coupe du Monde 2018: Paul the octopus is back

Fifa World Cup 2018

À l’occasion de l’Euro 2008 et du Mondial 2010, l’oracle d’Oberhausen (plus communément connu sous le nom de « Paul le poulpe ») a défrayé la chronique. Ses prévisions exactes concernant les résultats de l’équipe allemande lors de l’Euro 2008 et la désignation de l’équipe victorieuse du Mondial 2010 (l’Espagne) sont encore ancrées dans les mémoires. Avec quelques collègues (Enora Belz, Romain Gaté, Vincent Malardé et Jimmy Merlet) nous avons tenté de poursuivre le travail de feu Paul le poulpe pour prédire l’issue des rencontres à venir du Mondial 2018. Pour ce faire, nous nous appuyons sur les résultats des rencontres passées de coupe du Monde et de coupes Continentales1.

07mars/18

Démographie historique et données collaboratives

Généalogie de Victor Hugo

Il y a quelques mois, j’indiquais dans un billet du blog que j’avais présenté les débuts des travaux engagés avec Arthur Charpentier au sujet de la démographie historique à partir de données collaboratives issues du site geneanet.org. J’avais également fait part de l’avancée des recherches lors d’une matinée d’exposés avec les membres de la chaire Actinfo (c.f. billet). Aujourd’hui, Arthur et moi avons déposé un document de travail intitulé « Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie » sur HAL.

Dans ce papier, nous explorons un jeu de données de 2,45 millions d’individus, correspondant à des personnes nées entre 1800 et 1804 en France ainsi qu’à leurs descendants sur 3 générations. Les données brutes étaient gigantesques : plus de 700 000 000 de lignes. Chaque ligne représente un événement (naissance, mariage ou décès) pour un individu dans l’arbre d’un utilisateur de geneanet.org. Or, comme chaque utilisateur créé son propre arbre (il faut noter que nous n’avons pas accès aux arbres des utilisateurs n’ayant pas souhaité le rendre public), les individus se retrouvent dupliqués dans la base. Un gros travail d’appariement et de nettoyage des arbres a donc été réalisé et a conduit à ce nombre de 2,45 millions d’individus.

17nov./16

Mais où est Charlie ?


Hier, j’ai parcouru un article amusant de Randal S. Olson, intitulé « Here’s Waldo: Computing the optimal search strategy for finding Waldo« . Bon, ce n’est rien de nouveau, je sais, j’arrive un peu en retard, ça date de 2015. Quoi qu’il en soit, j’ai voulu apporter mon petit grain de sable au contenu proposé par Randal. Dans son billet, il explique qu’il a passé son week-end à chercher une stratégie optimale pour trouver Charlie. Vous savez, ce petit personnage en pull rayé rouge et blanc, avec un bonnet à pompom sur la tête. Pour ce faire, Randal a utilisé des techniques de machine learning. Il s’appuie sur une image publiée par Slate (Here’s Waldo, 2013, par Ben Blatt), qui répertorie la position de Charlie dans 68 double pages des albums. Randal extrait les coordonnées de l’image (et les partage gentiment).

[…]

10mars/14

[L3 Eco-Gestion] Régression linéaire avec R : sélection de modèle

Après avoir présenté rapidement la régression linéaire multiple avec R, et parlé un peu des problèmes de multicolinéarité, on va se pencher sur différentes techniques qu’il est possible d’employer pour sélectionner un modèle. Bien sûr, il en existe beaucoup d’autres. Le but est ici de donner un rapide aperçu.

18févr./14

[L3 Eco-Gestion] Régression linéaire simple avec R


Avec les L3 Éco-Gestion, on commence à mettre les mains dans le cambouis pour effectuer les premières régressions, avec Excel.
Je souhaite proposer de revenir sur les exercices des TP, en fournissant une alternative à l’utilisation d’Excel, à savoir R. Pourquoi ? J’admets qu’utiliser un tableur puisse aider dans la compréhension des calculs effectués pour faire une régression par moindres carrés ordinaires, mais je ne pense pas que ce soit la seule façon de le faire, et à mon sens, R offre également la possibilité de manier les données, et de voir comment fonctionnent les différents mécanismes de la régression.

24nov./13

Lumières !

L’autre jour, en quittant la salle de reprographie de la Fac, j’ai eu droit à une petite remontrance. Une personne m’indique qu’il est agaçant de devoir se lever à chaque fois que je passe pour rallumer les lumières (cette personne travaille dans le bureau à côté). Je trouve la remarque étrange, ayant toujours été convaincu qu’il était normal d’éteindre l’interrupteur lorsque l’on quitte une pièce.

27août/13

Deuxièmes Rencontres R à Lyon

Le 27 et 28 juin 2013, se déroulaient les 2e Rencontres R, à Lyon. J’aimerais faire un petit bilan de ce que j’ai pu voir pendant ces deux journées.

En premier lieu, j’aimerais souligner la qualité de l’organisation. Tout était millimétré, l’accueil était très agréable et les membres de l’équipe organisatrice étaient très sympathiques. Dès l’arrivée, une malette (biodégradable) est remise à chaque participant, contenant un programme relié et en couleur, ainsi que quelques goodies provenant de Revolution Analytics.