Il y a quelques mois, j’indiquais dans un billet du blog que j’avais présenté les débuts des travaux engagés avec Arthur Charpentier au sujet de la démographie historique à partir de données collaboratives issues du site geneanet.org, à Porto. J’avais également fait part de l’avancée des recherches lors d’une matinée d’exposés avec les membres de la chaire Actinfo (c.f. billet). Aujourd’hui, Arthur et moi avons déposé un document de travail intitulé « Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie » sur HAL.

Dans ce papier, nous explorons un jeu de données de 2,45 millions d’individus, correspondant à des personnes nées entre 1800 et 1804 en France ainsi qu’à leurs descendants sur 3 générations. Les données brutes étaient gigantesques : plus de 700 000 000 de lignes. Chaque ligne représente un événement (naissance, mariage ou décès) pour un individu dans l’arbre d’un utilisateur de geneanet.org. Or, comme chaque utilisateur créé son propre arbre (il faut noter que nous n’avons pas accès aux arbres des utilisateurs n’ayant pas souhaité le rendre public), les individus se retrouvent dupliqués dans la base. Un gros travail d’appariement et de nettoyage des arbres a donc été réalisé et a conduit à ce nombre de 2,45 millions d’individus.

Distribution des années de naissances

Distribution des années de naissance de l’échantillon par génération.

Dans le papier, on s’est intéressé à deux aspects : un premier d’ordre temporel, la mortalité des individus ; un second d’ordre spatial, leurs mouvements migratoires de génération en génération.

Un petit aperçu de ce que l’on a fait est proposé sur la figure ci-après, pour laquelle nous avons tracé des estimations de fonction de survie (à gauche) et de force de mortalité (à droite). Nous avons comparé nos estimations avec celles de Vallin et Meslé (2001).

Fonctions de survie et force de mortalité

Comparaison des fonctions de survie (gauche) de force de mortalité (droite) estimées pour les femmes et les hommes avec les estimations historiques réalisées à partir de tables de mortalité.

Pour ce qui est de la migration, on a par exemple regardé les distances entre les lieux de naissance des aïeux nés entre 1800 et 1804 et ceux de leurs descendants. On peut voir sur la figure ci-après la distribution de ces distances, avec une échelle logarithmique en abscisse.

Migration entre les générations.

Migration entre les générations.

La suite sur le papier disponible sur HAL et sur l’annexe méthodologique publiée sur Github.

Références

Vallin, J. et Meslé, F. (2001). Tables de mortalité françaises pour les XIXe et XXe siècles et projections pour le XXIe siècle. Éditions de l’Institut national d’études démographiques.

2 thoughts on “Démographie historique et données collaboratives

    1. Merci pour le lien Fr. ! Ca fait pas mal de buzz l’étude de Kaplanis et co-auteurs dans Nature. Ils ont des résultats très intéressants et semblent avoir une représentativité spatiale assez dingue !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Time limit is exhausted. Please reload CAPTCHA.