Mezanno

De Geohistoricaldata Wiki

Mezanno : un écosystème libre pour l’annotation assistée d’un corpus personnalisé

Mezanno est un programme de recherche soutenu par le plan quadrienal de la recherche de la Bibliothèque nationale de France (BnF) 2024-2027 (*). Il prolonge une partie des travaux engagé au cours du programme de recherche Soduco.

Consulter https://mezanno.xyz/, le site dédié au programme Mezanno, l'entrepôt du projet (https://github.com/mezanno/mezanno.github.io/) et l'interface Corpusense qui donne accès aux production groupe (version en cours de développement: https://mezanno.xyz/corpusense/).

Les nombreuses ruptures technologiques récentes, dans les domaines de l’intelligence artificielle, de la création d’interfaces utilisateur multiplateformes, ou encore dans la facilité à déployer des services, offrent de nouvelles perspectives aux travaux de recherche en sciences sociales. Les grands corpus de sources historiques sérielles tels que recensements, annuaires, dictionnaires, cadastres ou publications officielles peuvent à présent être traités semi-automatiquement pour produire des données quantitatives fines et massives, d’une qualité suffisante pour une utilisation en recherche. Cependant, alors que la méthodologie scientifique associée se précise, les outils manquent pour assister efficacement les chercheurs à interroger, organiser et construire leurs objets de recherche à partir des fonds d’archives numérisés. C’est d’autant plus vrai pour les corpus massifs, impossibles à exploiter sans outillage adéquat.

Mezanno, se compose d’un ensemble d’outils libres et interopérables pour l’annotation assistée d’un corpus personnalisé, porté par une communauté d’utilisateurs et de contributeurs. Ces outils sont de nature à couvrir trois étapes clés : la constitution d’un corpus, l’extraction des données brutes, et leur structuration selon un modèle pertinent pour l'analyse, tout en permettant un export interopérable des données produites. Mezanno s’appuie fortement sur le standard IIIF afin de constituer facilement des corpus à partir de ressources publiques, et intègre des modules d’intelligence artificielle via des API publiques (en particulier OCR, HTR, détection de contenus) pour assister l’utilisateur dans l’extraction ou la transcription des contenus bruts des documents qui l’intéressent. La possibilité de publier et partager des modules d'intelligence artificielle au sein de Mezanno offrira aux chercheurs en sciences sociales une collection d'outils semi-automatiques ayant le potentiel de faciliter et d’accélérer la production de corpus riches et densément connectés.Les aspects techniques de ces outils visent à maximiser leur utilisabilité et à faciliter leur maintenance grâce à une séparation claire des expertises nécessaires pour les faire évoluer.

(*) Partenaires:

Bibliothèque nationale de France (BnF) : BnF/DSR/Cellule IA (R&D numérique, IA et patrimoine, IIIF), BnF/DCO/Datalab (cas d’usage pour la recherche, animation scientifique, dissémination des résultats), BnF/DSR/DSI/SED (études et développements) ; Resp. Projet Jean-Philippe Moreux ;

École pour l’Informatique et les Techniques Avancées (EPITA) : Laboratoire de Recherche de l’EPITA (LRE) (expertise développement logiciel et extraction de données) ; Resp. Joseph Chazalon.

École des hautes études en sciences sociales (EHESS) : Centre de Recherches Historiques (CRH UMR8558) : expertise usages pour la recherche en histoire ; Resp. Bertrand Dumenieu.

Institut national de l’information géographique et forestière (IGN) : Laboratoire en Sciences et Technologies de l'Information Géographique (LASTIG) : expertise en liage d’entités géohistoriques, animation de communauté open-source. Resp. Nathalie Abadie.