Du catalogue papier au numérique : Une chaîne de traitement ouverte pour l’extraction d’informations issues de documents structurés
Ce mémoire a été réalisé à la suite d’un stage de quatre mois (de mars à juillet 2021) à Artl@s, projet en histoire de l’art et humanités numériques dirigé par Béatrice Joyeux-Prunel et financé par l’École Normale Supérieure et le centre IMAGO. Ce projet a pour but de rassembler des catalogues d’exposition du XIXème et XXème siècle issus du monde entier au sein de la base de données Basart. Un premier travail, réalisé par Caroline Corbières, a permis d’établir une chaîne de traitement permettant d’automatiser la production de ces catalogues, de leur version numérisée à leur versement dans la base. L’objectif de ce stage a été de tester une alternative libre, ouverte et gratuite à ce travail.
Ce mémoire s’attache donc à décrire les différentes briques permettant l’élaboration de cette chaîne de traitement. Il s’intéresse à la problématique de la récupération puis l’annotation d’informations depuis des documents semi-structurés, en ciblant son proposautour des catalogues. Il développe tout au long de ce travail une réflexion autour de la Science Ouverte, l’application de ses principes et son intérêt pour les projets de recherche,en prenant appui sur l’exemple d’Artl@s.
Le dépôt contient des livrables techniques réalisés au cours du stage:
1_Jeux_de_donnees
correspond au dépôt réalisé dans le cadre de l'élaboration d'un corpus d'entraînement de modèles d'HTR.2_Extraction_Python
correspond au dépôt contenant le programme python d'extraction de données de fichiers ALTO et d'encodage automatique en XML-TEI3_Catalogues_Encodés
contient les catalogues encodés par la chaîne de traitement réalisée au cours de ce stage. (Un détail plus poussé de ce travail est disponible ici.)
Les images des catalogues publiées avant 1920, les transcriptions et le code sont CC-BY.
Les autres images sont extraites de catalogues publiées après 1920 et sont la propriété intellectuelle de leur producteur.
Juliette Janès, Du catalogue papier au numérique : Une chaîne de traitement ouverte pour l’extraction d’informations issues de documents structurés, mémoire de master « Technologies numériques appliquées à l’histoire »,dir. Thibault Clérice et Béatrice Joyeux-Prunel, École nationale des chartes, 2021, https://github.com/Juliettejns/Memoire_TNAH.