Dépôts publics du programme ANR SoDUCo (2019-2023)

De Geohistoricaldata Wiki

Productions du programme ANR SoDUCo


Données et codes produits dans le cadre du programme de recherche SoDUCo (Dynamiques Sociales en contexte urbain: outils , modèles et données libres -- Paris et ses banlieues, 1789-1950).

Site officiel du programme SoDUCo - Page SoDUCo sur le site du LADéHiS

➢ Entrepôt du groupe SoDUCo sur la plateforme Nakala (Huma-Num) :

Collection SoDUCo sur le dépôt public Nakala-Huma-num : https://nakala.fr/collection/10.34847/nkl.abe0gxah

Annuaires historiques parisiens, 1798-1914

Près de 23 Millions d'entrées d'annuaires structurées et géolocalisées extraites des répertoires du Commerce Parisien du XIXe siècle (1797-1914) et proposées au format CSV et QGIS (144 annuaires, 300 listes et 23 000 pages traitées). L'équipe réunie autour du programme SoDUCo poursuit le travail autour de ce jeu de données (production de nouvelles version, analyse, évaluation) dans le cadre d'un séminaire annuel "Les annuaires, source et matrice pour une histoire socio-spatiale" ouvert à tous.

[Données] N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2023). Annuaires historiques parisiens, 1798-1914. Extraction structurée et géolocalisée à l'adresse des listes nominatives par ordre alphabétique et par activité dans les volumes numérisés (Version 4) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). [1]

[Données] N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2022). Annuaires historiques parisiens, 1798-1914, V2-juin 2022 : [2]

Accès aux Plans historiques Parisiens :

Inventaire des sources de données spatiales pour le programme SoDUCo

Serveur de Tuiles SoDUCo-Geohistoricaldata:

[Visualisation avec Allmaps Viewer des plans géoréférencés dans le cadre des programmes SoDUCo-Geohistoricaldata]:

Accès alternatifs aux données Annuaires historiques parisiens, 1798-1914 :

[Site] Viewer IIIF des annotations des annuaires (en lien avec le Site BnF-Gallica) (2023) : https://directory.geohistoricaldata.org/

[Site] API REST annuaires (2023) : https://api.geohistoricaldata.org/directories

[Site] Datahub annuaires & atlas Ontop SPARQL endpoint for directories and professions (2023) : https://dir.geohistoricaldata.org/

[site] Site de Géo-visualisation (2023) : https://preview.geohistoricaldata.org/

[Site] Outil d’exploration visuelle des données du projet (2023, prototype) https://soduco.geohistoricaldata.org/soduco_webmap

Catalogage & diffusion sur le Web de données :

[site] Géo-Catalogue SoDUCo (2021) : https://catalog.geohistoricaldata.org/

[site] Sparql Endpoint du catalogue (2022) : https://ontop.geohistoricaldata.org

[logiciel] Plateforme logicielle du catalogue SoDUCo (2023) : https://github.com/soduco/catalog

[logiciel] Bibliothèque Python d’intégration de fiches de métadonnées (2023) : https://github.com/soduco/catalog-python-client

[Données+code] Fiches de métadonnées du catalogue (2023) : https://github.com/soduco/catalog-resources

[Code] Créations d’annotations IIIF - annuaires : https://github.com/soduco/directory_annotation

[Code] Des cartes géoréférencées en annotations IIIF : https://github.com/soduco/allmaps_annotations

[Code] Joseph Chazalon, Edwin Carlinet, Bertrand Duménieu, Nathalie Abadie, Julien Perret. [Code] Code source de la webapp pour la visualisation et l'édition des annotations des annuaires du projet SoDuCo.. 2024. 〈hal-04478595〉 . Licences : CeCILL-B Free Software License Agreement, GNU General Public License v3.0 only - Code Repository : https://github.com/soduco/directory-annotator-viz

Géocodeur historique Geohistoricaldata-SoDUCo :

Le Géocodeur Historique : un outil pour géolocaliser les adresses anciennes. Le géocodeur historique est une des applications produites dans le cadre des travaux qui ont initié le programme SoDUCo et il a été considérablement mis à jour depuis 2018. Il permet de localiser les adresses (datées) présentes dans les sources anciennes en tenant compte de l'évolution et des transformations de l'espace parisien. Il est notamment accessible via une API dédiée.

[Données] Dumenieu, B. (2024). Dictionnaire géo-historique du géocodeur historique SoDUCo, structuré au format d'import CSV Pelias (Version 1) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.8C2C27TN

[Article] Cura, Rémi, Bertrand Dumenieu, Nathalie Abadie, Benoît Costes, Julien Perret et Maurizio Gribaudi. 2018. « Historical Collaborative Geocoding ». ISPRS International Journal of Geo-Information 7 (7) : 262. https://doi.org/10.3390/ijgi7070262 Codes informatiques associés : https://github.com/soduco/geocoder-front

Géoréférencement de Plans Parisiens du XIXe:

[Données] Perret, J. (2023). Géoréférencement de l'Atlas du plan général de la ville de Paris par Edme Verniquet (Version 2) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.024EABPY

Paris au XIXe - Population par quartiers et limites des quartiers :

[Données] Gravier, J. (2023). Districts of Paris (1860-1919) (Version 1) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.A57506S3

[Données] Cristofoli, P., & Gravier, J. (2023). Populations of Paris districts (1801-1911) (Version 1) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.E173C93P

➢ Entrepôt du groupe SoDUCo sur la plateforme Zenodo

Lien vers les dêpots du groupe SoDUCo sur la plateforme Zenodo : https://zenodo.org/search?q=SODUCO&l=list&p=1&s=10&sort=bestmatch .

(2025) - Évaluer et comprendre le géocodage des annuaires commerciaux de la ville de Paris (1797-1914)

[Article] Julie Gravier, S. Baciocchi, P. Cristofoli, B. Dumenieu (EHESS), E. Carlinet, J. Chazalon (EPITA), N. Abadie, J. Perret S. Tual (IGN), Evaluating and Understanding the Geocoding of City Directories of Paris (1787-1914): Data-Driven Geography of Urban Sprawl and Densification, Digital Humanities Quarterly journal, 2025.

[Données + Code + Résultats] : Gravier, J., Duménieu, B., & Cristofoli, P. (2025). Datasets and code of Evaluating and Understanding the Geocoding of City Directories of Paris (1787-1914). In Digital Humanities Quarterly (1.0.1). Zenodo. https://doi.org/10.5281/zenodo.16994482

All the material (code, dataset, results) of the paper Evaluating and Understanding the Geocoding of City Directories of Paris (1787-1914): Data-Driven Geography of Urban Sprawl and Densification accepted in Digital Humanities Quarterly journal.

(2024) Une typologie des activités sur un siècle de croissance urbaine

[Article] Gravier, J. & Barthelemy, M. 'A typology of activities over a century of urban growth.' Nature Cities, Vol. 1, 567–575 (2024). https://doi.org/10.1038/s44284-024-00108-7

[Données + Code] Gravier, J. (2023). Dataset and data analysis of activities of Paris between 1829 and 1907 (2.0.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.10156836 - Description : Dataset construction and data analysis of 'A typology of activities over a century of urban growth', Nature Cities.

The dataset of the population censuses of Paris at the scale of districts between 1801 and 1911 is openly accessible with the documentation on the Nakala platform of the CNRS Research Infrastructure Huma-Num at https://doi.org/10.34847/nkl.e173c93p.

The dataset of Paris directories entries with NAICS-inspired categories between 1829 and 1907 specifically constructed and used for this paper is openly accessible on the Zenodo platform https://doi.org/10.5281/zenodo.8388101.

[Code] : The open repository https://doi.org/10.5281/zenodo.8388101 contains the code to create the figures and tables of both the main text and the Supplementary Information.

(2023) - Création d’un graphe de connaissances géohistorique à partir d’annuaires du commerce parisien du 19 ème siècle

[Article] S. Tual, N. Abadie, B. Duménieu, J. Chazalon et E. Carlinet. « Création d’un graphe de connaissances géohistorique à partir d’annuaires du commerce parisien du 19 ème siècle : application aux métiers de la photographie ». In : IC 2023, 34es journées francophones d’Ingénierie des connaissances. Strasbourg, France, juill. 2023. hal : hal-04121643.

[Code] Solenn Tual, Nathalie Abadie, Bertrand Dumenieu, Joseph Chazalon, Edwin Carlinet. [Code] Construction d'un graphe géohistorique à partir des annuaires du commerce parisien du 19e siècle : application aux photographes. 2023. 〈hal-04390522〉

    • Autres ressources concernant le Liage des données annuaire:**

[code] Démonstrateurs sur le cas des photographes parisiens, 2023 : https://soduco.geohistoricaldata.org/ic_2023_photographes_parisiens/

[code] Démonstrateur v2 comprenant plusieurs datasets mis en place lors de l’atelier de liage, 2023 : https://soduco.geohistoricaldata.org/atelier_graphes_geohistoriques_annuaires/

[données] Graphes de connaissances de groupes professionnels parisiens : https://dir.geohistoricaldata.org/

(2023) - Article - Comparaison d’approches de reconnaissance d’entités nommées imbriquées dans des documents historiques structurés.

[Article final] Tual, S., Abadie, N., Chazalon, J., Duménieu, B., Carlinet, E. (2023). “A Benchmark of Nested Named Entity Recognition Approaches in Historical Structured Documents.” In: Fink, G.A., Jain, R., Kise, K., Zanibbi, R. (eds) Document Analysis and Recognition - ICDAR 2023. ICDAR 2023. Lecture Notes in Computer Science, vol 14189. Springer, Cham. https://doi.org/10.1007/978-3-031-41682-8_8 - Preprint : https://hal.science/hal-03994759 et https://arxiv.org/abs/2302.10204 -

[Communication] Tual, S., Abadie, N., Chazalon, J., Duménieu, B., & Carlinet, E. (2023). “A Benchmark of Nested NER Approaches in Historical Structured Documents.” Proceedings of the 17th International Conference on Document Analysis and Recognition, San José, California, USA. 2023. Springer. https://hal.science/hal-03994759v2 -

[Données] : Solenn Tual, Nathalie Abadie, Joseph Chazalon, Bertrand Duménieu, & Edwin Carlinet. (2023). A Dataset of French Trade Directories from the 19th Century for Nested NER task [Data set]. Zenodo. https://doi.org/10.5281/zenodo.8167628

[Code] : Tual, S., Abadie, N., Chazalon, J., Duménieu, B., & Carlinet, E. (2023). A Benchmark of Nested NER Approaches in Historical Structured Documents (v0_1_review_version). Zenodo. https://doi.org/10.5281/zenodo.7997437

Voir aussi : https://github.com/soduco/paper-nestedner-icdar23-code?tab=readme-ov-file

(2022) - Article - Une analyse comparative des approches de reconnaissance des entités nommées dans les documents historiques Application aux annuaires français du XIXe siècle

[Article] Nathalie Abadie, Edwin Carlinet, Joseph Chazalon, and Bertrand Dumenieu. “A Benchmark of Named Entity Recognition Approaches in Historical Documents Application to 19 Century French Directories”. In: Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. DAS 2022. Lecture Notes in Computer Science, vol 13237. Springer, Cham. Proceedings of the Document Analysis Systems international workshop, held in La Rochelle, France, 22-25 may 2022. https://doi.org/10.1007/978-3-031-06555-2_30 - Hal : hal-03698609

[Données 1]  : Abadie, N., Bacciochi, S., Carlinet, E., Chazalon, J., Cristofoli, P., Duménieu, B., & Perret, J. (2022). A Dataset of French Trade Directories from the 19th Century (FTD) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.6394464 - hal : hal-04421578

Un jeu de données d’annuaires du commerce français de 19ème siècle. This dataset is composed of pages and entries extracted from French directories published between 1798 and 1861.The purpose of this dataset is to evaluate the performance of Optical Character Recognition (OCR) and Named Entity Recognition (NER) on 19th century French documents. This dataset is divided into two parts : A labeled dataset, which contains 8765 manually corrected entries from 78 pages (18 different directories), and which is designed for supervised training.An unlabeled dataset, containing 1058196 raw entries from 6887 pages (13 different directories), and which is designed for self-supervised pre-training

[Données 2] : Abadie, N., Carlinet, E., Chazalon, J., & Duménieu, B. (2022). Modèles de NER produits pour l’article « A Benchmark of Named Entity Recognition Approaches in Historical Documents Application to 19th Century French Directories », DAS22 workshop on document analysis systems. Zenodo. https://doi.org/10.5281/zenodo.6576008 - Hal : hal-04421586

[Code] J. Chazalon, N. Abadie, E. Carlinet et B. Duménieu, A Benchmark of Named Entity Recognition Approaches in Historical Documents : Application to 19th Century French Directories, mai 2022. EHESS (École des Hautes Études en Sciences Sociales ; EPITA ; IGN (Institut National de l’Information Géographique et Forestière). HAL : 〈hal-04421228〉 ; GNU General Public License v3.0 or later, Langage de programmation : Python 3, Code Repository : https://github.com/soduco/paper-ner-bench-das22/