« Soduco DataSet Annuaire V3 » : différence entre les versions
Aucun résumé des modifications |
|||
| (22 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 5 : | Ligne 5 : | ||
| | | | ||
[[Fichier:Soduco logo.png||100px]] | [[Fichier:Soduco logo.png||100px]] | ||
|| <div><div style="padding: 0 1.5em; text-align: justify; width:100%;float:left;margin-left:40px;"><div style="text-align:center;margin-bottom:20px;font-variant:small-caps;">''' <big>DataSet Annuaires historiques parisiens, 1798-1914 V3</big>'''</div> | || <div><div style="padding: 0 1.5em; text-align: justify; width:100%;float:left;margin-left:40px;"><div style="text-align:center;margin-bottom:20px;font-variant:small-caps;">''' <big>DataSet ''Annuaires historiques parisiens, 1798-1914'' - V3 - 2023</big>'''</div> | ||
|} | |} | ||
''Près de 23 Millions d'entrées d'annuaires structurées et géolocalisées extraites des répertoires du Commerce Parisien du XIXe siècle (1797-1914) et proposées au format CSV et QGIS (144 annuaires, 300 listes et 23 000 pages traitées). L'équipe réunie autour du programme SoDUCo poursuit le travail autour de ce jeu de données (production de nouvelles version, analyse, évaluation) dans le cadre d'un séminaire annuel "Les annuaires, source et matrice pour une histoire socio-spatiale" ouvert à tous.'' | |||
[Données V3] Groupe SoDUCo, N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2023). ''Annuaires historiques parisiens, 1798-1914. Extraction structurée et géolocalisée à l'adresse des listes nominatives par ordre alphabétique et par activité dans les volumes numérisés'' (Version 4) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.98EEM49T | |||
[Données V2] Groupe SoDUCo, N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2022). Annuaires historiques parisiens, 1798-1914, V2-juin 2022 : https://nakala.fr/10.34847/nkl.98eem49t.v2 | |||
=== Accès aux données === | |||
{| class="wikitable sortable" | {| class="wikitable sortable" | ||
|+ Données | |+ Données Annuaires XIXe - SoDUCo - [https://doi.org/10.34847/NKL.98EEM49T V3 (sept 2023) proposées en libre-accès sur Nakala] | ||
|- | |- | ||
! Fichier !! Format !! Taille !! Commentaire | ! Fichier !! Format !! Taille !! Commentaire | ||
|- | |||
| '''Documentation''' || - || - || ''Voir plus bas dans la page'' | |||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/0931d1df7750633c2eeec05bd6567e9ffcef029b README_fr.md] || Texte-md || 6 ko || Présentation du corpus (fr) | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/0931d1df7750633c2eeec05bd6567e9ffcef029b README_fr.md] || Texte-md || 6 ko || Présentation du corpus (fr) | ||
| Ligne 31 : | Ligne 31 : | ||
| '''Index des listes d'adresses''' || - || - || - | | '''Index des listes d'adresses''' || - || - || - | ||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/5a735666070d91df44447eaaa9b54563b831da1c directories_sources.csv] || csv || 298 Ko || | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/5a735666070d91df44447eaaa9b54563b831da1c directories_sources.csv] || csv || 298 Ko || Tableau général d'indexation des listes d'adresses | ||
|- | |- | ||
| | | || || || Page Wiki-Geohistoricaldata [[soduco_index_listes_adresses]] | ||
|- | |- | ||
| | | || || || Page Wiki-Geohistoricaldata [[soduco_index_listes_adresses_annees]] | ||
|- | |- | ||
| '''Données globales''' || - || - || - | | '''Données globales''' || - || - || - | ||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/f443e5e02bffd124f4a78867bc2b2d094ec3ec87 directories-ListNoms.gpkg.zip] || zip : gpkg || 1.26 Go || Listes par noms - Base globale au format QGIS - 6.59 Go | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/f443e5e02bffd124f4a78867bc2b2d094ec3ec87 directories-ListNoms.gpkg.zip] || zip : gpkg || 1.26 Go || Listes par noms - Base globale au format gpkg (QGIS) - 6.59 Go | ||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/73bd526d3b2851530b2c6edfd3c6433b1e1a1d27 directories-ListProfs.gpkg.zip] || zip : gpkg || 1.68 Go || Listes par professions - Base globale au format QGIS - | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/73bd526d3b2851530b2c6edfd3c6433b1e1a1d27 directories-ListProfs.gpkg.zip] || zip : gpkg || 1.68 Go || Listes par professions - Base globale au format gpkg (QGIS) - 10.07 Go | ||
|- | |- | ||
| '''Données présentées annuellement ''' || - || - || - | | '''Données présentées annuellement ''' || - || - || - | ||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/edd55aa542a6a47cc07a0e3f705939919cf2c284 directories-ListNoms.zip] || zip : csv, gpkg || 2.03 Go || Listes par noms - données présentées annuellement CSV et | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/edd55aa542a6a47cc07a0e3f705939919cf2c284 directories-ListNoms.zip] || zip : csv, gpkg || 2.03 Go || Listes par noms - données présentées annuellement CSV et gpkg (QGIS) | ||
|- | |- | ||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/d5b0cd8e30f8aa7ad11fac51d2e24fbf901fb5d1 directories-ListProfs.zip] || zip : csv, gpkg || 2.74 Go || Listes par professions - données présentées annuellement CSV et | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/d5b0cd8e30f8aa7ad11fac51d2e24fbf901fb5d1 directories-ListProfs.zip] || zip : csv, gpkg || 2.74 Go || Listes par professions - données présentées annuellement CSV et gpkg (QGIS) | ||
|} | |} | ||
=== Documentation === | |||
''Avertissement'' : dans les présent dépôt, les extractions sont organisées par type de liste puis par année de publication des annuaires. Lorsque plusieurs annuaires ont été publiés la même année ils se trouvent rassemblés, mais peuvent être distingués dans la table à l'aide du champ `source.book` (voir `directories_sources`). | |||
'''Schéma des tableaux de données''' | |||
Les exports au format GPKG ou CVS sont structurés similairement. La liste des colonnes et attributs sont donnés ci-dessous. Dans les tables de données exportée, '''chaque ligne correspond à une adresse dans une entrée'''. Une entrée d'annuaire est donc décrite par une ligne seulement lorsqu'elle ne contient qu'une seule adresse. Lorsqu'elle en contient plusieurs elle est alors dupliquée autant de fois qu'elle contient d'adresses différentes, et seule l'information de l'adresse et son géocodage changent. Par exemple "Abrahams (J.), transports-maritimes, r. Richer 10 et 12" est représenté par deux lignes, l'une pour le "10 rue Richer" et l'autre pour le "12 rue Richer". Cette représentation permet d'avoir des tables associant chaque ligne à une localisation ponctuelle dans l'espace et est par conséquent directement cartographiable dans un logiciel SIG. Il est toujours possible de regrouper les lignes correspondant à la même entrée d'annuaire en groupant les lignes par l'identifiant de l'entrée `uuid`. | |||
=== Liste des champs === | |||
<small> | |||
{| class="wikitable sortable" | {| class="wikitable sortable" | ||
|+ Présentations | |+ Liste des champs | ||
|- | |||
! Code_champs !! type !! Description | |||
|- | |||
| uuid || TEXT || Identifiant unique de l'entrée dans le corpus de données global. | |||
|- | |||
| text_ocr || TEXT || Texte brut recueilli à partir de la phase d'OCR automatique de l'image de l'entrée identifiée ou, le cas échéant, à partir d'une saisie manuelle de. Contenu: Texte océrisé. | |||
|- | |||
| per || TEXT || Entités nommées correspondant aux personne(s) ou raison(s) sociale(s) reconnues dans le texte (tex_ocr) des entrées. Contenu: Mentions de personnes dans l'entrée, entre guillemets et séparées par une virgule. | |||
|- | |||
| titre || TEXT || Titre(s) de la (des) personne(s) ou raison(s) sociale(s) détectées. Contenu: Mentions des titres dans l'entrée, entre guillemets et séparées par une virgule. | |||
|- | |||
| act || TEXT || Activité(es) de la (des) personne(s) ou raison(s) sociale(s) reconnues. Contenu: Mentions des activités dans l'entrée (états ou professions), entre guillemets et séparées par une virgule. | |||
|- | |||
| address.number || TEXT || Numéro d'adresse. | |||
|- | |||
| address.name || TEXT || Nom de rue ou de ville. | |||
|- | |||
| geocoding.query.time || INTEGER || Temps valide soumis au géocodeur pour localiser l'adresse. | |||
|- | |||
| geocoding.query.layer || TEXT || Niveau de granularité soumis au géocodeur pour la recherche. | |||
|- | |||
| geocoding.response.number || TEXT || Numéro d'adresse retourné par le géocodeur lorsque la géolocalisation a été faite à cette granularité. | |||
|- | |||
| geocoding.response.name || TEXT || Nom de rue retournée par le géocodeur. | |||
|- | |||
| geocoding.response.locality || TEXT || Nom de la ville dans laquelle se trouve l'adresse géocodée. | |||
|- | |||
| geocoding.response.score_levenshtein || REAL || Similarité (entre 0 et 1), au sens de la distance de Levenshtein, entre l'adresse requêtée address.number et address.name, et la réponse geocoding.response.number et geocoding.response.name. Un score de 1.0 indique une correspondance exacte entre les chaînes de caractères. | |||
|- | |||
| geocoding.response.score_temporal || REAL || "Proximité" temporelle, entre 0 et 1, entre le temps valide requêté et le temps valide du résultat retourné. Un score de 1 indique que l'année demandée est à l'intérieur de l'intervalle de temps valide de l'adresse géocodée. | |||
|- | |||
| geocoding.response.source || TEXT || Source cartographique historique du résultat renvoyé par le géocodeur. Corresponde à l'identifiant des lignes du fichier geocoder_sources.csv. | |||
|- | |||
| geocoding.response.geom || POINT(4326) || Géométrie ponctuelle, en coordonnées géographiques WGS84, du résultat retourné par le géocodeur. En format binaire dans les exports GPKG, elle est formatée en WKT dans les exports CSV. | |||
|- | |||
| source.pdf_id || TEXT || Identifiant du document PDF numérisé d'où a été extraite l'entrée. Correspond à la colonne "code_fichier" de la table directories_sources.csv. | |||
|- | |||
| source.book || TEXT || Identifiant de l'annuaire d'où a été extraite l'entrée. Correspond à la colonne "code_ouvrage" de la table directories_sources.csv. | |||
|- | |||
| source.collection || TEXT || Identifiant de la collection d'annuaires d'où a été extraite l'entrée. Correspond à la colonne "code_collection" de la table directories_sources.csv. | |||
|- | |||
| source.list_category || TEXT || Code du type de liste d'annuaire. "ListNoms" désigne une liste générale alphabétique, "ListProfs" une liste particulière par professions et états. | |||
|- | |||
| source.publication_year || INTEGER || Année de publication de l'annuaire d'où a été extraite l'entrée. | |||
|- | |||
| source.pdf_view || INTEGER || Numéro de la vue où se trouve l'entrée dans le fichier PDF numérisé (voir source.pdf_id). | |||
|- | |||
| source.view_link || TEXT || URL vers la ressource numérisée. Lorsque le document PDF provient de Gallica, l'URL pointe vers la page contenant l'entrée. Dans les autres cas, elle pointe vers le document entier. | |||
|} | |||
</small> | |||
=== Présentations === | |||
{| class="wikitable sortable" | |||
|+ Présentations et descriptions du processus de traitement utilisé dans le cadre du programme SoDUCo | |||
|- | |- | ||
! Fichier !! Format !! Taille !! Commentaire !! Texte de l’en-tête | ! Fichier !! Format !! Taille !! Commentaire !! Texte de l’en-tête | ||
|- | |- | ||
| '''Présentations associées''' || - || - || - || - | | '''Présentations associées proposées sur NAKALA''' || - || - || - || - | ||
|- | |||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/c78ea95001abc28894e1ec6d386ee34618ec6f23 2eJourneeSoDUCoBNF_01_Inventaire_annuaires_Cristofoli.pdf] || pdf|| 7.6 Mo || Exemple || Exemple | |||
|- | |||
| [https://api.nakala.fr/data/10.34847/nkl.98eem49t/656b7a7ab3d8da5696d290ce5cabd6ab85e5ba25 2eJourneeSoDUCoBNF_02_Extraction_Chazalon_Carlinet_Dumenieu_Abadie.pdf] || pdf || 9.2 Mo|| Exemple || Exemple | |||
|- | |- | ||
| | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/f429b8617a94afa4b619ec18f745ee795b563152 2eJourneeSoDUCoBNF_03_Localisation_adresses_Baciocchi_Dumenieu_Perret.pdf] || pdf || 18.4 Mo || Exemple || Exemple | ||
|- | |- | ||
| | | [https://api.nakala.fr/data/10.34847/nkl.98eem49t/b9ca7f786f374a2bd5fe493bc5568aa3683e4181 2eJourneeSoDUCoBNF_04_Eploitation_donnees_SoDUCo_Gravier_Barthelemy.pdf] || pdf || 4.4 Mo || Exemple || Exemple | ||
|- | |- | ||
| | | '''Présentations complémentaires''' || - || - || - || - | ||
|- | |- | ||
| | | [https://soduco.geohistoricaldata.org/public/images/seminaire4/20231106-1_1_SoDUCo_presentation_seminaire_cloture_Perret.pdf Présentation Bilan SoDUCo - nov 2023] || pdf || Exemple || Exemple || Exemple | ||
|- | |- | ||
| | | [https://soduco.geohistoricaldata.org/public/images/seminaire4/20231106-1_2_SoDUCo_Catalogage_diffusion_Dumenieu_Hersent.pdf Présentation catalogage SoDUCo - nov 2023] || pdf || Exemple || Exemple || Exemple | ||
|- | |- | ||
| | | [https://soduco.geohistoricaldata.org/public/images/seminaire4/20231106-2_2_SoDUCo_Extraction_et_structuration_donnees_Chazalon_Dumenieu_Abadie.pdf Présentation Extraction SoDUCo - nov 2023] || pdf || Exemple || Exemple || Exemple | ||
|- | |- | ||
| | | [https://soduco.geohistoricaldata.org/public/images/seminaire4/20231107-3_1_SoDUCo_Evaluation_Gavier_Cristofoli.pdf Présentation Source Numérique Annuaires SoDUCo - nov 2023] || pdf || Exemple || Exemple || Exemple | ||
|- | |- | ||
| | | [https://soduco.geohistoricaldata.org/public/images/seminaire4/20231106-2_1_SoDUCo_Dynamique_activites_urbaines_Barthelemy_Gravier.pdf Analyses données : Dynamique activités urbaines SoDUCo - nov 2023] || pdf || Exemple || Exemple || Exemple | ||
|} | |} | ||
Dernière version du 4 décembre 2025 à 09:53
DataSet Annuaires historiques parisiens, 1798-1914 - V3 - 2023
|
Près de 23 Millions d'entrées d'annuaires structurées et géolocalisées extraites des répertoires du Commerce Parisien du XIXe siècle (1797-1914) et proposées au format CSV et QGIS (144 annuaires, 300 listes et 23 000 pages traitées). L'équipe réunie autour du programme SoDUCo poursuit le travail autour de ce jeu de données (production de nouvelles version, analyse, évaluation) dans le cadre d'un séminaire annuel "Les annuaires, source et matrice pour une histoire socio-spatiale" ouvert à tous.
[Données V3] Groupe SoDUCo, N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2023). Annuaires historiques parisiens, 1798-1914. Extraction structurée et géolocalisée à l'adresse des listes nominatives par ordre alphabétique et par activité dans les volumes numérisés (Version 4) [Data set]. NAKALA - https://nakala.fr (Huma-Num - CNRS). https://doi.org/10.34847/NKL.98EEM49T
[Données V2] Groupe SoDUCo, N. Abadie, S. Bacciochi, E. Carlinet, J. Chazalon, P. Cristofoli, B. Duménieu et J. Perret (2022). Annuaires historiques parisiens, 1798-1914, V2-juin 2022 : https://nakala.fr/10.34847/nkl.98eem49t.v2
Accès aux données
| Fichier | Format | Taille | Commentaire |
|---|---|---|---|
| Documentation | - | - | Voir plus bas dans la page |
| README_fr.md | Texte-md | 6 ko | Présentation du corpus (fr) |
| README_en.md | Texte-md | 5 Ko | Présentation du corpus (en) |
| documentation.pdf | 514 Ko | Description du corpus | |
| Index des listes d'adresses | - | - | - |
| directories_sources.csv | csv | 298 Ko | Tableau général d'indexation des listes d'adresses |
| Page Wiki-Geohistoricaldata soduco_index_listes_adresses | |||
| Page Wiki-Geohistoricaldata soduco_index_listes_adresses_annees | |||
| Données globales | - | - | - |
| directories-ListNoms.gpkg.zip | zip : gpkg | 1.26 Go | Listes par noms - Base globale au format gpkg (QGIS) - 6.59 Go |
| directories-ListProfs.gpkg.zip | zip : gpkg | 1.68 Go | Listes par professions - Base globale au format gpkg (QGIS) - 10.07 Go |
| Données présentées annuellement | - | - | - |
| directories-ListNoms.zip | zip : csv, gpkg | 2.03 Go | Listes par noms - données présentées annuellement CSV et gpkg (QGIS) |
| directories-ListProfs.zip | zip : csv, gpkg | 2.74 Go | Listes par professions - données présentées annuellement CSV et gpkg (QGIS) |
Documentation
Avertissement : dans les présent dépôt, les extractions sont organisées par type de liste puis par année de publication des annuaires. Lorsque plusieurs annuaires ont été publiés la même année ils se trouvent rassemblés, mais peuvent être distingués dans la table à l'aide du champ `source.book` (voir `directories_sources`).
Schéma des tableaux de données
Les exports au format GPKG ou CVS sont structurés similairement. La liste des colonnes et attributs sont donnés ci-dessous. Dans les tables de données exportée, chaque ligne correspond à une adresse dans une entrée. Une entrée d'annuaire est donc décrite par une ligne seulement lorsqu'elle ne contient qu'une seule adresse. Lorsqu'elle en contient plusieurs elle est alors dupliquée autant de fois qu'elle contient d'adresses différentes, et seule l'information de l'adresse et son géocodage changent. Par exemple "Abrahams (J.), transports-maritimes, r. Richer 10 et 12" est représenté par deux lignes, l'une pour le "10 rue Richer" et l'autre pour le "12 rue Richer". Cette représentation permet d'avoir des tables associant chaque ligne à une localisation ponctuelle dans l'espace et est par conséquent directement cartographiable dans un logiciel SIG. Il est toujours possible de regrouper les lignes correspondant à la même entrée d'annuaire en groupant les lignes par l'identifiant de l'entrée `uuid`.
Liste des champs
| Code_champs | type | Description |
|---|---|---|
| uuid | TEXT | Identifiant unique de l'entrée dans le corpus de données global. |
| text_ocr | TEXT | Texte brut recueilli à partir de la phase d'OCR automatique de l'image de l'entrée identifiée ou, le cas échéant, à partir d'une saisie manuelle de. Contenu: Texte océrisé. |
| per | TEXT | Entités nommées correspondant aux personne(s) ou raison(s) sociale(s) reconnues dans le texte (tex_ocr) des entrées. Contenu: Mentions de personnes dans l'entrée, entre guillemets et séparées par une virgule. |
| titre | TEXT | Titre(s) de la (des) personne(s) ou raison(s) sociale(s) détectées. Contenu: Mentions des titres dans l'entrée, entre guillemets et séparées par une virgule. |
| act | TEXT | Activité(es) de la (des) personne(s) ou raison(s) sociale(s) reconnues. Contenu: Mentions des activités dans l'entrée (états ou professions), entre guillemets et séparées par une virgule. |
| address.number | TEXT | Numéro d'adresse. |
| address.name | TEXT | Nom de rue ou de ville. |
| geocoding.query.time | INTEGER | Temps valide soumis au géocodeur pour localiser l'adresse. |
| geocoding.query.layer | TEXT | Niveau de granularité soumis au géocodeur pour la recherche. |
| geocoding.response.number | TEXT | Numéro d'adresse retourné par le géocodeur lorsque la géolocalisation a été faite à cette granularité. |
| geocoding.response.name | TEXT | Nom de rue retournée par le géocodeur. |
| geocoding.response.locality | TEXT | Nom de la ville dans laquelle se trouve l'adresse géocodée. |
| geocoding.response.score_levenshtein | REAL | Similarité (entre 0 et 1), au sens de la distance de Levenshtein, entre l'adresse requêtée address.number et address.name, et la réponse geocoding.response.number et geocoding.response.name. Un score de 1.0 indique une correspondance exacte entre les chaînes de caractères. |
| geocoding.response.score_temporal | REAL | "Proximité" temporelle, entre 0 et 1, entre le temps valide requêté et le temps valide du résultat retourné. Un score de 1 indique que l'année demandée est à l'intérieur de l'intervalle de temps valide de l'adresse géocodée. |
| geocoding.response.source | TEXT | Source cartographique historique du résultat renvoyé par le géocodeur. Corresponde à l'identifiant des lignes du fichier geocoder_sources.csv. |
| geocoding.response.geom | POINT(4326) | Géométrie ponctuelle, en coordonnées géographiques WGS84, du résultat retourné par le géocodeur. En format binaire dans les exports GPKG, elle est formatée en WKT dans les exports CSV. |
| source.pdf_id | TEXT | Identifiant du document PDF numérisé d'où a été extraite l'entrée. Correspond à la colonne "code_fichier" de la table directories_sources.csv. |
| source.book | TEXT | Identifiant de l'annuaire d'où a été extraite l'entrée. Correspond à la colonne "code_ouvrage" de la table directories_sources.csv. |
| source.collection | TEXT | Identifiant de la collection d'annuaires d'où a été extraite l'entrée. Correspond à la colonne "code_collection" de la table directories_sources.csv. |
| source.list_category | TEXT | Code du type de liste d'annuaire. "ListNoms" désigne une liste générale alphabétique, "ListProfs" une liste particulière par professions et états. |
| source.publication_year | INTEGER | Année de publication de l'annuaire d'où a été extraite l'entrée. |
| source.pdf_view | INTEGER | Numéro de la vue où se trouve l'entrée dans le fichier PDF numérisé (voir source.pdf_id). |
| source.view_link | TEXT | URL vers la ressource numérisée. Lorsque le document PDF provient de Gallica, l'URL pointe vers la page contenant l'entrée. Dans les autres cas, elle pointe vers le document entier. |