De la transcription manuelle participative des textes à la reconnaissance automatique de texte (ATR/HTR): outils, théorie, pratiques

    

JOURNÉE d’ÉTUDE

10 septembre 2024
Nancy,
Maison de la Recherche, 23 rue Baron-Louis, salle de séminaire

À l’occasion du lancement de la plateforme nationale TACTEO, la MSH Lorraine organise une journée d’étude explorant les enjeux de la transcription participative et ses liens avec les technologies de reconnaissance automatique de texte (ATR/HTR).

Les outils de transcription participatifs permettent de mobiliser largement les spécialistes comme le grand public pour rendre accessible des documents parfois difficilement lisibles ou en danger de conservation. Ainsi, le projet précurseur « Papers of the War Department 1784-1800 » a mobilisé outre-atlantique, une immense communauté d’inconnus pour reconstituer un fonds d’archives perdu à partir de fragments éparpillés dans plus de 200 lieux. Le développement récent des technologies connues sous les noms d’HTR (Handwritten Text Recognition) ou ATR (Automatic Text Recognition) ouvre de nouvelles portes à la reconnaissance massive de textes. L’écriture manuscrite, jusqu’alors impossible à reconnaître automatiquement, est maintenant à la portée d’un traitement automatisé.

Loin de s’opposer, les deux approches sont complémentaires. Les outils de reconnaissance automatique nécessitent en effet des données d’apprentissage de grande qualité, c’est-à-dire des transcriptions manuelles. Les projets de transcription participative peuvent de leur côté s’appuyer sur une reconnaissance automatisée comme point de départ à l’expertise humaine et à une éventuelle structuration du corpus.

Cette journée présentera plusieurs outils de transcription participative et automatique en interrogeant leurs potentielles relations. Une nouvelle plateforme nationale de transcription sera lancée, portée par la MSH Lorraine en collaboration avec le laboratoire Litt&Art (Grenoble). Celle-ci, appelée TACTEO (pour Transcription et Annotation de Corpus Textuels Et Oraux) permet une structuration des transcriptions en XML-TEI afin de constituer des éditions numériques de référence adaptées pour la préservation, la fouille et l’analyse de texte.

PROGRAMME

8h30 :
Accueil des participants

Modératrice de session : Christelle Balouzat-Loubet
9h00 :
De la transcription à l’édition. Et retour

  • Elena Pierazzo (Centre d’Études Supérieures de la Renaissance, Tours) [en visio]

1- Regards croisés : les autres outils de transcription

 
9h45 :
Transcrire, une plateforme Omeka de transcription participative pour la recherche
  • Alyx Taounza-Jeminet (Humathèque Condorcet, Aubervilliers)
10h15 :
Joies et peines des manuscrits mathématiques sur Transcript
  • Emmylou Haffner (ITEM, Paris)

10h45 :
 Pause (15 min)

2- TACT et Palamède : vers une plateforme nationale (TACTEO)

Modératrice de session : Melissa Melo
11h :
TACT, un outil ouvert pour la transcription collaborative

  • Anne Garcia-Fernandez et Arnaud Bey (Litt&Arts, Grenoble)
11h30 :
Transcriptions de corpus et sciences participatives : retour d’expérience sur l’usage de la plate-forme Tacteo
  • Samuel Ferey et Isabelle Pignone (Beta & MSH Lorraine, Nancy)

12h :
Lancement officiel de TACTEO

  • Discours  :
    Nicolas Brucker, Directeur MSHL
    Hélène Boulanger, Présidente Université de Lorraine
    Edwige Helmer – Laurent, Déléguée regionale centre-est CNRS
    Olivier Baude, Directeur IR* Huma-Num
    Sébastien Descotes-Genon, Délégué Régional Académique à la Recherche et à l’Innovation – Région Grand Est

12h30 :
Buffet

3- LATR/HTR : théorie et pratique

Modérateur de session : Pierre Willaime
14h00 :
Les logiciels kraken/eScriptorium pour l’ATR

  • Benjamin Kiessling (EPHE, Paris)
14h45 :
De la donnée avant toute chose. Retour d’expérience de l’utilisation de l’HTR dans des projets d’édition et d’étude des textes médiévaux »
  • Matthias Gilles-Levenson (École nationale des chartes, Paris)

15h15 :
 Pause (15 min)


4- De la numérisation à l’édition en ligne

Modératrice de session : Catherine Angevelle-Mocellin
15h30 :
Réflexions et retours d’expérience sur l’intégration de l’ATR dans le cadre la plateforme d’appui à la recherche Estrades

  • Guillaume Porte & Titouan Brisset Saboureau(ARCHE & MISHA, Strasbourg)
16h15 :
HTRiser la littérature populaire levantine : le défi des cahiers de conteurs du Roman de Baybars
  • Claire Cialone-Grégoire (MMSH,  Aix-en-Provence)
16h45 :
Le projet GIROPHARES : transcrire et indexer les sources des Archives nationales
  • Zoé Navarrete (Archives nationales, Pierrefitte-sur-Seine)

→ contact : pierre.willaime@univ-lorraine.fr