De vieux ouvrages mis à la page

N° 348 - Publié le 13 janvier 2017
DR
Geoffrey Williams vérifie la fidélité de la numérisation (ci-dessus) avant d'insérer les balises qui permettent de coder les contenus (ci-dessous).

À Lorient, deux chercheurs font passer des ouvrages des 17e et 18e siècles à l’ère numérique pour mieux les questionner.

Dans le monde entier, des chercheurs codent patiemment des ouvrages anciens. Comme d’autres, des siècles avant eux, ont retranscrit manuellement des textes, notamment sacrés, ces passionnés font passer les vieux documents dans une nouvelle ère. À Lorient, dans un bureau de l’UBS(1), Geoffrey Williams travaille sur un dictionnaire datant du 17e siècle. Cela représente plus de deux années de travail à temps plein. A côté de lui, Ioana Galleron fait de même avec des pièces de théâtre du 18e siècle.

 

« On voyage dans le dictionnaire »

Pourquoi et comment cette évolution ? La numérisation permet de conserver des ouvrages fragilisés par le temps, vieux de plusieurs siècles parfois. Cela offre également l’avantage de les rendre consultables de partout. Enfin, à notre époque, il est bien pratique de pouvoir lancer une requête, sémantique ou autre, dans un livre sans avoir à le parcourir en entier, surligneur en main. D’autant que surligner un ouvrage ancien est interdit ! « En travaillant manuellement, vous n’avez que votre mémoire pour vous aider dans vos recherches. Grâce au numérique, on peut voyager dans le dictionnaire de façon rapide et systématique », se réjouit Geoffrey Williams.

Pour commencer, Geoffrey Williams et Ioana Galleron(2), comme leurs homologues, utilisent une reconnaissance optique des caractères, pas toujours efficace sur les textes anciens. Ils doivent alors vérifier la fidélité de la numérisation avec leurs supports de travail (de l’image au fichier pdf) avant d’insérer patiemment des balises, selon un langage universel spécifique : le XML TEI(3).

« En travaillant manuellement, vous n’avez que votre mémoire pour vous aider dans vos recherches. Grâce au numérique, on peut voyager dans le dictionnaire de façon rapide et systématique. »

Coder ainsi les divers contenus permet de les éditer en ligne (conversion HTML), mais aussi de les modéliser (identifier les structures du texte) et surtout de pouvoir interroger les contenus par des requêtes informatiques.

 

Il est ainsi possible à Ioana Galleron d’extraire une cartographie des villes et des rues citées dans les pièces de théâtre. Geoffrey Williams, quant à lui, en croisant son travail avec celui de ses homologues qui travaillent sur d’autres dictionnaires du 17e siècle, peut rendre compte de l’état de la connaissance à cette période, sur la navigation par exemple : bateaux, techniques de construction, manœuvres...

 

Changer la perception des objets

Les requêtes sont multiples et les rendus également : textes, cartographies, arbres... « Cela ne change pas l’objet de base mais la perception de ces objets. Nous pensons que ces formes vont faire apparaître d’autres régularités qui seront interprétables », commente Ioana Galleron. Et Geoffrey Williams de préciser que « cela permet d’étudier les contenus sous un autre angle et de se poser de nouvelles questions. » Ainsi, en croisant les mentions de différents ouvrages, il peut, par exemple, établir le réseau de connaissances des intellectuels du 17e siècle.

 

« On peut même encoder les hiéroglyphes »

Le numérique dépasse les barrières du temps et de la langue. « La technique de balisage s’applique à toute production écrite, quelle que soit la période, souligne Geoffrey Williams. On peut même encoder les hiéroglyphes ! » Grâce aux requêtes rendues possibles par l’insertion de balises TEI, les chercheurs lorientais peuvent interroger et donc comparer des ouvrages de différentes langues. 

L’universalité et le partage sont au cœur de cette approche de codage des ouvrages et plus largement des humanités numériques selon Geoffrey Williams. Lui et sa collègue font d’ailleurs partie de différents réseaux européens et mondiaux(4).

Michèle Le Goff

(1) Université Bretagne Sud.
(2) Les deux chercheurs sont membres de l’UMR 5316 Littérature & Arts de l’Université Grenoble Alpes, associés au Centre d’étude des correspondances et journaux intimes (Cecji) de l’Université de Bretagne Occidentale (UBO) et affiliés à l’UBS.
(3) Text Encoding Initiative. 
(4) Membres de : European Network for electronic Lexicography ; Digital Research Infrastructure for the Arts and Humanities (Dariah), European Association for Digital Humanities.

Geoffrey Williams, tél. 02 97 87 29 10, geoffrey.williams@univ-ubs.fr
Ioana Galleron, galleron@evalhum.eu

TOUT LE DOSSIER

Abonnez-vous à la newsletter
du magazine Sciences Ouest

Suivez Sciences Ouest