Communication dans le cadre des Ateliers du GRHis / axe 6
Université de Rouen Normandie
le 25 avril 2022
par Patrick Rebollar (Université Nanzan)
communication en ligne
Le Projet Mazarinades a été conçu par l’équipe des RIM (pour Recherches Internationales sur les Mazarinades), équipe basée à Tokyo et dirigée par Mme Tadako ICHIMARU et moi-même. Il consiste en une mise en ligne intégrale et publique d’une collection de plus de 2700 mazarinades qui se trouve à l’Université de Tokyo. La programmation et le design du site ont été réalisés en 2010-2011 avec le financement de la JSPS.
L’interface est un blog WordPress assez simple, avec des pages de documents historiques et des billets d’actualité, blog dans lequel les outils d’interrogation et de présentation du corpus ont été intégrés.
Dès 2010, nous avons largement informé la communauté scientifique dix-septiémiste et certaines bibliothèques dépositaires d’importants fonds de mazarinades. Ce qui a mené à un important colloque à Paris en 2015, à la Bibliothèque Mazarine et à l’Arsenal, Mazarinades, nouvelles approches. C’est d’ailleurs ainsi que nous sommes entrés en contact avec Stéphane Haffemayer, avec qui nous avons beaucoup travaillé depuis 10 ans, y compris pour un colloque qui aura lieu en septembre 2022 à l’Université de Rouen sous le titre Mazarinades et territoires.
Pour ce qui est du corpus lui-même, voici comment il a été constitué. La collection de Tokyo a d’abord numérisée puis intégralement transcrite par une entreprise spécialisée. Ensuite chaque mazarinade, qu’elle soit de 8 pages ou de 60 pages, c’est très variable, a été encodée en XML-TEI. Chacune est donc un document indépendant des autres, contenant son texte, ses métadonnées et des liens hypertextuels vers les images des pages, qui sont, elles, rangées dans un silo voisin.
Après la mise en ligne en 2011, l’enrichissement en métadonnées a continué avec des commentaires bibliographiques. En effet, à partir de l’interface du blog, une personne autorisée à éditer une pièce peut la corriger ou l’enrichir, pièce qui sera ensuite réindexée pour que les modifications soient prises en compte. Il nous importait que ce corpus soit aussi un work-in-progress pour une communauté qui y travaille et qui s’en sert, sur le modèle intellectuel de Wikipédia par exemple, en très simplifié.
Le corpus du Projet Mazarinades est ainsi devenu le plus gros corpus textuel en ligne du XVIIe siècle français. Et nous sommes quelques-uns chaque jour et chaque semaine à continuer de corriger et d’enrichir ce volume total de plus de 7 millions de mots, rattachés à une banque d’environ 35.000 images de pages. Cela représente près de 50 % de la totalité des mazarinades recensées par Célestin Moreau dans sa Bibliographie des Mazarinades parue en 1850-51 qui fait encore autorité aujourd’hui.
L’interrogation du corpus passe par Philologic, qui est un logiciel de lexicométrie de l’Université de Chicago, avec l’autorisation de son concepteur.
Il y a trois principales modalités de consultation, disponibles ici-même, dans la colonne de gauche du site, et dont je vais maintenant donner quelques exemples :
- La recherche lexicale, la fonction la plus importante à nos yeux
- La recherche dans le catalogue, déterminante pour les spécialistes
- La consultation dans l’ordre de la collection physique (nommée « chariot »)
Je vais commencer par ce dernier choix parce que c’est celui qui vous donnera un contact visuel avec la collection physique telle qu’elle est, sur son chariot depuis la fin des années 1970, dans la réserve de la bibliothèque de l’Université de Tokyo. Comme on le voit par la diversité des reliures, cette collection est en fait un assemblage de 5 sous-collections de provenances différentes, d’où une proportion de 10 à 15 % de pièces en double ou triple exemplaire. Mais ces exemplaires présentent parfois des différences notables, ou bien ils portent des mentions manuscrites qui peuvent être intéressantes, de sorte qu’il n’est pas envisageable de les écarter.
Il y avait eu une doctrine, fin XIXe – début XXe siècle, de faire des collections de pièces indépendantes en dépeçant des recueils, par exemple à Chantilly, par le duc d’Aumale, ainsi qu’à la Mazarine, jusqu’à ce qu’on s’aperçoive que ce n’était pas une bonne idée…
La photo du chariot permet de choisir l’une ou l’autre des 5 sous-collections : A, B, C, D et E. Cliquer sur l’une permet d’ouvrir la page qui décrit la sous-collection et liste les pièces dans l’ordre de chaque volume.
Chaque titre est un lien vers sa notice.
Chaque notice, une fois ouverte, contient, outre les informations bibliographiques de base et l’image de la page de titre, les commentaires de Célestin Moreau ou d’autres intervenants autorisés depuis l’ouverture du site ; ainsi qu’un lien, en haut à droite, vers l’intégralité de la pièce, avec le texte et l’image de chaque page, réservée aux membres inscrits ; actuellement une centaine de personnes formant la communauté des chercheurs et chercheuses du Projet Mazarinades (la création de profil se fait sur simple demande).
Entrons alors dans l’affichage intégral d’une pièce.
Pour chaque pièce du corpus, la fenêtre propose 3 colonnes :
- à gauche, la version originale, quasi diplomatique ;
- au milieu, une version modernisée par modification automatique d’un millier de formes communes ;
- enfin, à droite, une colonne accueillant soit les commentaires, soit les images des pages originales.
Sur autorisation du webmestre, chaque pièce peut donc être attribuée à un éditeur ou une éditrice qui peut en corriger les dernières scories, éditer et signer la version moderne, ou ajouter des commentaires d’édition scientifique.
Laissons de côté la consultation du catalogue (qui ressemble à beaucoup de consultations de catalogues) pour présenter l’outil public et pluridisciplinaire qui a le plus d’importance à nos yeux et qui a motivé tout le Projet Mazarinades : la recherche lexicale.
Le moteur de recherche d’occurrences et de co-occurrences respecte la graphie originelle non lemmatisée des pièces dans les recueils. La syntaxe des requêtes permet en revanche de grouper ou lemmatiser à la demande, comme l’exemple de « déborder » proposé en rouge pour préparer les utilisateurs en haut de la page « recherche ».
On cherchera donc successivement :
- « déborder » pour les 3 occurrences de la forme déborder…
- puis « débord.* » pour obtenir déborde, déborda, débordemens, débordée, etc. (70 occ.).
- puis « dEbord.* » avec E majuscule = avec ou sans accent (135 occ.),
- puis avec l’orthographe « desbord.* » (51 occ.).
- enfin en groupant toutes ces requêtes « desbord.*|dEbord.* » pour obtenir 186 occurrences
On le voit bien, qu’ils soient spécialistes des mazarinades ou simplement à la recherche d’informations sur la Fronde, sur des lieux ou des personnalités (le petit Louis XIV, le grand Condé, le cardinal de Retz – ou Mazarin, bien évidemment), les utilisateurs ne sont pas tous avertis des particularités orthographiques du XVIIe siècle…
Jules Michelet avait signalé que cette liberté éditoriale de la Fronde avait été une étape importante dans l’évolution de la langue et le corpus sert actuellement à des linguistes qui étudient les formes concurrentes. Il peut également servir à des recherches sur le fonctionnement des institutions, les mouvements de troupes, la médecine, la météo, l’astrologie, ou encore l’économie grâce au vocabulaire de l’argent, ou les représentations mentales par l’étude des proverbes.
Pour chacune de mes communications depuis une dizaine d’années, j’ai choisi de présenter un type de recherche en associant la méthodologie et les résultats :
- par exemple, pour Bordeaux, avec les connotations associées au nom la ville à partir de ses différentes graphies d’époque ;
- pour Mazarin, les connotations liées à la co-occurrencce avec l’Italie ;
- ou encore, à partir des emplois monétaires et financiers du mot « million(s) », pour qualifier les discours de corruption liés à la détestation de Mazarin, très souvent exagérés – mais parfois vrais et confirmés depuis par les historiens…
Enfin – ce sera ma dernière partie – j’ai créé il y a deux ans un autre outil d’enrichissement des recherches ou de facilitation de la fouille textuelle. Il s’agit d’un lexique dont tous les liens mènent directement aux résultats de la recherche lexicale dans le corpus, variantes orthographiques incluses.
Disponible en haut à gauche de la page d’accueil, au n° 9 des Pages RIM, il s’appelle le LETSAJ, pour « Lexique territorial, social, administratif et juridictionnel ».
J’étais parti de certains mots, tantôt banals, tantôt flous, que ce soit dans un roman d’Alexandre Dumas ou dans un livre d’histoire, et je m’étais demandé quel sens ces mots pouvaient avoir – précisément – au milieu du 17e siècle.
LETSAJ permet, dans de nombreux cas, de répondre à ce questionnement.
Par la suite et par sérendipité, j’ai rencontré beaucoup d’autres termes que j’ai ajoutés dans le lexique, comme « cinquantenier », « présidial » ou « tabouret », dont je n’avais aucune idée (je sais ce qu’est un tabouret mais il y a aussi un sens très spécial…).
Le LETSAJ contient également des noms de lieux ayant une importance particulière dans le contexte de la Fronde, comme Rouen, bien sûr, mais aussi Gonesse, pour le pain, ou Pont de L’Arche, pour des mouvements de troupe…
Vous avez maintenant toute liberté d’explorer le corpus du Projet Mazarinades à votre gré. Pour celles et ceux qui souhaiteraient un accès intégral, vous pouvez m’écrire pour la création d’un profil d’utilisateur.