[retour à un affichage normal]

Patrick REBOLLAR, « À propos de l’étude des mazarinades : peut-on parler d’un exemple de fiasco de la pensée ? »


À PROPOS DE L’ÉTUDE DES MAZARINADES :
PEUT-ON PARLER D’UN EXEMPLE DE FIASCO DE LA PENSÉE ?

Patrick Rebollar, juin 2019 (MàJ 23/12/2019).

*

« on ne peut pas démontrer qu’il existe une différence
essentielle entre une compétence authentique et une
vaste simulation de la même compétence »
(Peter Sloterdijk, 2012)

*

En regardant de près un large extrait de l’article de Karine Abiven et Gaël Lejeune intitulé « Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité » (Ridows, ISTE Open Science, 2019), nous voudrions nous interroger sur ce qui pourrait être l’échec radical d’une pensée – « nous », exprimant ici le point de vue de l’équipe des RIM qui anime le Projet Mazarinades depuis sa fondation en 2008.

Malgré le respect que nous devons à nos collègues Abiven & Lejeune, soudainement entrés en 2018 dans l’étude des mazarinades, nous jugeons nécessaire d’exposer publiquement notre questionnement sur un possible fiasco intellectuel, et ce pour trois raisons importantes :

  1. du fait que les données et métadonnées du Projet Mazarinades sont la matière première de l’étude en question d’Abiven & Lejeune (communiquées à leur équipe, Antonomaz, dans le cadre d’une convention signée en avril 2018) ;
  2. du fait que la diffusion de cette étude d’Abiven & Lejeune pourrait porter préjudice au Projet Mazarinades en accréditant les contre-vérités que contient cette étude ;
  3. du fait que la communauté des chercheurs ainsi que les tutelles institutionnelles d’Abiven & Lejeune méritent d’être informées des anomalies éthiques et méthodologiques que nous allons exposer.

L’étude d’Abiven & Lejeune se compose d’un diptyque dont les deux volets sont bien distincts : le premier, plutôt descriptif du corpus étudié (les quelque 2700 pièces du Projet Mazarinades, publiquement accessibles depuis 2011, cf. colonne de gauche ci-contre) et argumentatif quant au projet de recherche du duo de chercheurs (ses parties 1 et 2) ; et le second volet, proprement exploratoire et analytique, appuyé sur des résultats statistiques et graphiques portant sur des chaînes de caractères (ses parties 3 à 5), et selon les propres termes d’Abiven & Lejeune : « à la lisière entre l’algorithmique du texte et la fouille de données » (p. 8). Cette succession d’une approche philologique et d’une étude de TAL permet-elle d’inscrire ce travail dans le domaine très convoité des humanités numériques ? La question posée est celle de la légitimité scientifique de l’articulation de ces deux volets.

Souhaitant focaliser notre commentaire sur la première moitié de l’étude, celle qui conditionne l’usage des données et métadonnées du Projet Mazarinades, nous nous déclarons incompétents pour juger des conclusions de la seconde partie. Nous tenons toutefois à remarquer que, selon les auteurs eux-mêmes, les procédures algorithmiques mises en œuvre sont normalement destinées à l’étude de corpus « océrisés » (obtenus par reconnaissance optique de caractères) mais qu’elles sont ici employées sur un corpus obtenu par transcription manuelle, pourtant traité par Abiven & Lejeune comme s’il avait été obtenu par OCR : « les principales caractéristiques que nous avons identifiées sur ce corpus : scories d’OCR » (dans l’article en ligne, partie 3, p. 7).
Est-ce méthodologiquement valide lorsqu’on veut travailler sur le repérage automatique de chaînes de caractères ? Est-ce un détail négligeable dans le cas d’un corpus de 30 millions de caractères ? Précisons que le taux d’erreur (optique) dans les imprimés de la Fronde par OCR est souvent supérieur à 4 % tandis que le taux d’erreur (humaine) vérifié dans le corpus du Projet Mazarinades est de l’ordre de 0,02 % – soit au minimum 200 fois plus d’erreurs par OCR… Par ailleurs, les erreurs de l’océrisation sont sérielles (un même caractère optiquement fautif sera le plus souvent mal reconnu de la même façon) tandis que les erreurs humaines de différents opérateurs de saisie sont aléatoires. Les spécialistes jugeront de l’effet de ce différentiel sur la recherche automatisée de chaînes de caractères, même dans un contexte d’amélioration de cette technologie.

Mais revenons à la première partie. Pour ce faire, nous livrons tout d’abord ci-dessous un extrait important de l’étude d’Abiven & Lejeune (p. 6-7) afin de donner à voir à la fois la nature du projet, la façon d’exposer une méthode de travail et la conception épistémique [1] des documents étudiés et des mazarinades en général. À la suite de cet extrait, nous résumerons notre compréhension du projet exposé puis interrogerons le discours et la méthode.

À partir de 1650, les pièces s’allongent et peuvent aller jusqu’à 32 voire 64 pages (Carrier, 1989, p. 86-87). Toutefois, certaines des « mazarinades » les plus connues (le Mascurat de G. Naudé, le Recueil de maximes véritables de C. Joly) comptent plusieurs centaines de pages. Elles ont certes un rapport étroit avec le reste du corpus : par exemple, le Mascurat est une réflexion sur les mazarinades elles mêmes et donne, dès 1649, un premier aperçu bibliographique des libelles parus au début de la Fronde. Mais au plan de la bibliographie matérielle, on est loin du petit livret rédigé et imprimé dans l’urgence. Quant au type documentaire, les documents officiels (actes royaux, arrêts du Parlement, etc.) sont traditionnellement inclus dans cet ensemble. Ces pièces n’ont pourtant rien de pamphlétaire et ne sont pas spécifiques, comme genres, à la Fronde. Mais les instances gouvernementales à l’origine de ces documents sont parties prenantes dans le conflit, et ces actes d’écriture participent donc à la polémique ; en outre, exclure ces textes reviendrait à se priver d’une part importante de l’interdiscours du temps. En effet, le contenu des différents arrêts et déclarations du Parlement ou du roi est amplement glosé dans les pamphlets. Il peut être vu comme raisonnable de garder dans le corpus les pièces officielles ayant trait à la Fronde et d’en exclure ceux qui traitent des affaires courantes du royaume, quoi que cette tâche est coûteuse s’il faut l’accomplir manuellement.
Aussi, pouvoir regrouper de manière semi-automatique les documents selon les genres textuels ou encore à partir de segments de textes communs apparait d’un grand intérêt pour l’expert. Le traitement automatique s’avère précieux pour alléger ces tâches, comme le montre un test effectué pour tenter d’exclure les textes administratifs n’ayant apparemment pas de rapport avec les événements exceptionnels de la Fronde mais traitant des affaires ordinaires. Nous avons pu extraire automatiquement les titres de textes a priori issus des instances officielles (roi et Parlement) : 194 (sur les 1996 pièces uniques numérisées du corpus « Projet Mazarinades »), à partir des mots du titre suivants : arrest, arrests, articles, ordonnances, ordonnance, declaration, codicille, codicile, registres.
Nous avons ensuite effectué manuellement le tri suivant :
— 164 titres correspondraient a priori à des textes émis par le roi ou le Parlement en lien avec la Fronde,
— 12 titres relèvent d’affaires a priori sans lien direct avec celle-ci (telle traduction d’une ordonnance du roi du Portugal sur ses terres au Brésil, qui se trouve avoir été imprimée dans ces années-là) ; ces 12 textes seraient donc à exclure, après examen rigoureux de leur contenu,
— 18 titres sont à reverser dans le corpus des pièces non officielles, car leur titre comprend les mots ci-dessus sans que ceux-ci en constituent le noyau sémantique (par exemple pour le mot articles : La Relation extraordinaire, contenant le traicté de Mazarin avec le Parlement d’Angleterre. Ensemble les Articles de Composition pour le lieu de sa retraicte dans la Ville de Londres), ou encore imitent manifestement la structure de titres officiels tout en annonçant un contenu satirique, trahissant un contenu pamphlétaire (par exemple, pour le mot articles : Les Articles des crimes capitaux, dont est accusé le Cardinal Mazarin, & desquels il se doit iustifier).
Même si cette catégorie de « pièces officielles » demanderait à être mieux définie, ce test vise à montrer les ressources du tri automatique quant à la constitution de corpus, ainsi que la plus-value que l’outillage offre à l’expert, à qui le tri manuel revient in fine, mais dans des proportions bien moindres.
Cette opération démontre deux avancées possibles pour la définition de ce corpus grâce au traitement automatique : en premier lieu, elle permet de trier des textes qui devraient être exclus d’un corpus défini comme les « pièces ayant trait aux événements politiques de la Fronde ». Ici, on a pu sélectionner automatiquement les 9,7 % de textes potentiellement officiels, dont on a ensuite éliminé manuellement 15,5 % d’items non pertinents. En second lieu, il serait idéalement possible de constituer des sous-corpus qui résoudraient l’impossible délimitation stricte d’un tel volume de textes qui englobe de nombreuses dimensions de l’écrit public (par exemple la question de l’inclusion ou non des pièces officielles dans un corpus essentiellement pamphlétaire) : dans une base de données qui permettrait de sélectionner les métadonnées relatives au type documentaire, on pourrait choisir de sortir les pièces officielles pour constituer un corpus exclusivement pamphlétaire ; si on contraire on cherche à repérer des segments répétés ou à opérer des datations relatives, on pourra constituer un corpus extensif, incluant toutes les pièces relatives à la Fronde. On pourrait aussi par exemple résoudre les difficultés induites par l’hétérogénéité volumétrique, en rendant possible le choix d’un sous-corpus de textes de longueur inférieure ou égale à 16 pages, ce qui représente le gros des « mazarinades » au sens de pamphlets.
Les « mazarinades » de la tradition apparaissent ainsi moins comme un corpus stricto sensu que comme une matière dans laquelle on pourra tailler des corpus plus cohérents (signifiants, représentatifs, homogènes), à condition de doter cette masse de textes de métadonnées les plus complètes possible.

En résumé, il y a donc :

  1. un projet de programmer une opération de sélection semi-automatique de pièces dites officielles pour exclure du corpus celles qui ne seraient pas des mazarinades… ;
  2. un projet de constituer automatiquement des sous-corpus à la demande, en fonction des métadonnées disponibles.

Or il nous semble qu’aucun de ces deux projets ne soit viable pour ce groupe de recherche : le premier parce qu’il nous paraît illogiquement construit (comme nous allons essayer de le montrer), le second parce qu’il existe déjà dans le Projet Mazarinades (ce dont nous sommes certains puisque c’est le résultat de notre travail depuis une dizaine d’années).
Le premier, donc, ne serait pas viable parce que, selon Abiven et Lejeune eux-mêmes, il est in fine impossible de laisser un programme décider si une pièce du corpus serait officielle, d’une part, et si, d’autre part, elle serait officielle sans avoir joué un rôle quelconque dans les débats des contemporains de la Fronde (pour peu qu’elle ait été publiée durant la Fronde). Les auteurs de l’étude arrivent ainsi à « 12 textes [qui] seraient donc à exclure, après examen rigoureux de leur contenu » – sur 194 sélectionnés [2]. Bien entendu, l’examen « rigoureux » de leur contenu est une lecture humaine, ce qui invalide le principe d’une sélection automatique. Par ailleurs, la soi-disant « sélection » de « pièces officielles » à partir de mots du titre est une opération douteuse (critère de mots du titre très peu objectif, ou pour le moins insuffisant, pour repérer des pièces officielles). Pour – peut-être – rendre (empiriquement) viable ce projet, il conviendrait de concevoir un algorithme de sélection dans lequel interviendraient à la fois mots du titre (une sélection plus large que celle ici envisagée) ET existence de signature + nom de signataire officiel + localisation & datation (données qui sont le plus souvent en fin de pièce), ainsi que, dans le corps du texte, certains vocables de type administratif, juridique ou jussif (comme « ordonne » et « ordonnons », 609 occurrences).

Le second projet n’est pas viable pour Abiven & Lejeune parce que ce qu’ils proposent existe déjà dans le Projet Mazarinades, donc. Le mettre en œuvre une nouvelle fois ne constituerait-il pas au minimum un plagiat ? Voire un vol de données ou de technologie ? En effet, lorsqu’Abiven & Lejeune écrivent qu’il « serait idéalement possible de constituer des sous-corpus », ils s’imaginent déjà en train de créer des métadonnées (qui existent déjà) puis de créer un programme permettant de sélectionner et restituer ces métadonnées (ce qui existe déjà). Car, répétons-le, les métadonnées nativement présentes dans le corpus du Projet Mazarinades permettent déjà de constituer des sous-corpus par mots du titre, auteur ou année (critères combinables), tandis qu’une liste de genres et des catégories est à l’étude et doit bientôt devenir un critère accessible au public. Il faudrait certes ajouter des fonctions permettant aux utilisateurs en ligne d’exploiter par eux-mêmes ces sous-corpus, par exemple nommer et conserver un sous-corpus en vue d’une fouille lexicale ou d’une exploitation statistique (objectifs prévus dans l’exercice budgétaire 2019-2021). Mais nul besoin pour cela de tout recommencer sous un autre nom que celui de Projet Mazarinades – sauf à avoir un autre corpus que celui issu de la collection de l’Université de Tokyo… Nous serons donc attentifs à tout éventuel plagiat, à toute possible contrefaçon et, le cas échéant, introduirions un recours juridique.

Voyons maintenant les contenus discursifs et la rhétorique d’Abiven & Lejeune (nous mettons en gras les termes discutés).
Tout d’abord, l’exposé d’un des objectifs, la définition des « mazarinades », aussi nommée « délimitation du corpus » :

« […] deux avancées possibles pour la définition de ce corpus grâce au traitement automatique : en premier lieu, elle permet de trier des textes qui devraient être exclus d’un corpus défini comme les ‘pièces ayant trait aux événements politiques de la Fronde' » (p. 3).

Donc, selon la logique des propres termes d’Abiven & Lejeune, la définition d’un corpus commence par l’exclusion de certains de ses contenus ?
Tout d’abord, le sens de « ce corpus » reste ambigu (ou subtil ?) : s’agit-il de l’ensemble des mazarinades (« corpus défini comme… », soit 5000 à 6000 pièces) ou du corpus en ligne du Projet Mazarinades et ici objet du « traitement automatique », soit 2709 pièces, d’ailleurs réduit d’un coup de baguette magique, semble-t-il, par Abiven & Lejeune : « il s’avère que ce corpus en ligne contient en fait 1996 pièces uniques, le reste étant des émissions diverses, ou des états différents d’une même édition » (p. 5) – la « baguette magique » a agi par compilation des titres uniques et suppression des redondances, en négligeant le fait que parmi ces « émissions diverses » et ces « états différents », c’est-à-dire sous un même titre, se trouvent parfois des pièces de longueur et de contenu fort différents…
N’y a-t-il pas quelque tromperie à prétendre travailler « pour la définition de ce corpus », faisant ainsi accroire (avec désinvolture ?) que cette définition n’existerait pas, et que, de Célestin Moreau à Christian Jouhaud et Hubert Carrier, on aurait systématiquement manqué la cible ? Il est possible qu’une telle affirmation soit sans risque si elle est diffusée auprès d’un public de non spécialistes d’histoire ou du XVIIe siècle – comme l’est peut-être le lectorat de la revue Ridows. Mais passons…
Car le plus grave, toujours selon nous, reste l’exclusion de pièces « pour la définition de ce corpus » grâce à « un corpus défini comme les ‘pièces ayant trait aux événements politiques de la Fronde’… » : tautologie qui s’appuie sur une définition préalable pour ensuite la proposer comme une définition nouvelle. L’artifice rhétorique devient alors, si l’on ne s’en rend pas compte, la base intellectuelle d’un projet d’exclusion de pièces. Car, outre le fait que l’exclusion de certaines pièces d’un ensemble afin de pouvoir en proposer une définition est une contradiction dans les termes, un illogisme, elle présuppose surtout une définition préalable (conditionnant l’exclusion et) à laquelle on veut parvenir en faisant mine de la chercher… Le but implicite (caché) ne serait-il pas l’exclusion de certaines pièces, déjà idéologiquement décidée ? Ce serait un peu comme de vouloir définir l’identité d’un pays (questionnement identitaire hélas bien actuel) en commençant par en exclure des groupes – en vue d’arriver à une définition prévue d’avance ou constitutive d’une idéologie.
Ce qui pouvait paraître comme le coup d’éclat de chercheurs tout juste entrés dans le domaine de l’étude des mazarinades – pensez-vous ! redéfinir les mazarinades ! – ne se transforme-t-il pas sous nos yeux en un fiasco intellectuel ? Fiasco amené, dirait-on, par un paradigme épistémique à la fois réductionniste (réduire le corpus par exclusion) et prédateur (conquérir un domaine de recherche), au moyen d’une méthodologie dont l’ostensible rhétorique (sérieux argumentatif apparent, technicité logicielle, calculs et graphes) cacherait cependant très mal les failles logiques.

L’illogisme étant posé, il devrait logiquement avoir des conséquences sur l’exposé détaillé des opérations.

« Quant au type documentaire, les documents officiels (actes royaux, arrêts du Parlement, etc.) sont traditionnellement inclus dans cet ensemble. Ces pièces n’ont pourtant rien de pamphlétaire et ne sont pas spécifiques, comme genres, à la Fronde. Mais les instances gouvernementales à l’origine de ces documents sont parties prenantes dans le conflit, et ces actes d’écriture participent donc à la polémique ; en outre, exclure ces textes reviendrait à se priver d’une part importante de l’interdiscours du temps. En effet, le contenu des différents arrêts et déclarations du Parlement ou du roi est amplement glosé dans les pamphlets. Il peut être vu comme raisonnable de garder dans le corpus les pièces officielles ayant trait à la Fronde et d’en exclure ceux (sic) qui traitent des affaires courantes du royaume, quoi que cette tâche est coûteuse s’il faut l’accomplir manuellement. »

La définition a priori des mazarinades – « pièces ayant trait aux événements politiques de la Fronde » [et ayant circulé durant la Fronde, nous devons-nous d’ajouter] – entraîne que, « traditionnellement », des pièces officielles font partie du corpus général (et virtuel) des mazarinades. Pour en exclure certaines, il faut donc discuter de l’appartenance ou de la non appartenance de telle ou telle pièce officielle au corpus des mazarinades – merci à M. de La Palice. L’extrait d’Abiven et Lejeune que nous citons, porte les traces d’hésitations, d’atermoiements et presque de renoncement : « quoi que (sic) cette tâche est (sic) coûteuse s’il faut l’accomplir manuellement ». Ce dernier membre de phrase n’existait d’ailleurs pas dans la version d’Abiven & Lejeune reçue en décembre 2018, version alors présentée comme définitive et sur laquelle l’équipe du Projet Mazarinades avait, dans un courrier privé, donné à Abiven & Lejeune un avis très réservé, notamment sur la tromperie en lien avec l’océrisation (vue ci-dessus) et sur l’intention d’exclure des pièces pour redéfinir la notion de mazarinade.
Plus sérieusement : qui voudrait nous faire croire que « des pièces [officielles] qui traitent des affaires courantes du royaume » durant la Fronde n’auraient pas du tout « trait à la Fronde » ? Alors que même des occasionnels font partie du corpus… Comme cette pièce faisant état d’une enfant née avec deux têtes, accueillie parmi les mazarinades parce qu’il existe un possible lien emblématique avec la France bicéphale – ou polycéphale – du temps de la minorité du roi [3].

La solution – qui nous semblait raisonnable – proposée ensuite par Abiven & Lejeune sera donc d’effectuer une sélection automatique à partir de mots du titre sans rien exclure (le tropisme exclusionniste reviendra par la suite…). C’est un groupement de pièces virtuel et temporaire, un sous-corpus qui peut être discutable (quels mots des titres sont considérés ? sont-ils pertinents ?) mais qui permet en effet d’étudier empiriquement un secteur du corpus sans affecter ce dernier. Or, on voudra bien nous excuser ce distinguo sémantique, ce groupement n’est pas « envisageable », au sens de ce qui n’existe pas encore et que l’on projette de réaliser (p. 13), puisqu’il peut déjà actuellement se faire dans le corpus en ligne du Projet Mazarinades via le menu Catalogue, et même être lexicalement exploré à partir du menu Recherche. N’est-ce pas – là encore – abuser le lectorat de la revue Ridows ? Abiven & Lejeune restent d’ailleurs très pudiques sur la méthode qu’ils ont employée pour grouper ces textes : ont-ils utilisé leurs propres moyens logiciels pour trier l’ensemble des métadonnées qui leur avaient été transmises (dans le cadre de l’échange scientifique déjà évoqué) ou ont-ils utilisé précisément les fonctions en ligne du Projet Mazarinades ? Ce qui serait un comble ! Mais peu importe, les deux sont valides.
Nous ferons toutefois une importante différence entre une sélection « selon les genres textuels » (métadonnées pas encore implémentées) et une sélection selon les mots des titres tels que l’on croit qu’ils assignent les pièces à des genres… D’où la nécessité, pour Abiven & Lejeune, de déroger aux méthodes de distant reading pour finaliser la catégorisation par une lecture humaine (close reading). Non pas parce que la lecture à distance, recourant aux métadonnées en masse, serait mauvaise ou fautive (ce qu’il serait stupide d’affirmer et dont nous nous gardons bien), mais parce que le paramètre choisi par un humain pour sélectionner des données, ici en tout cas, est mauvais ou incomplet.

Nous parlions d’atermoiements parce que les propos d’Abiven & Lejeune contiennent aussi de très justes éléments : « ces documents sont parties prenantes dans le conflit », « participent à la polémique » et donc à « l’interdiscours du temps ». Nous ne saurions rien dire de plus exact !
Et malgré cela, trois lignes plus bas, il est de nouveau question « d’en exclure ceux qui traitent des affaires courantes du royaume », point déjà évoqué et raison pour laquelle nous pourrions parler d’un tropisme réductionniste. Nous avouons ne pas comprendre quelle motivation, consciente ou non, est ici sous-jacente.
Brouillages volontaires ou hésitations involontaires reposent sur la nuance déjà signalée entre « les événements exceptionnels de la Fronde » et les « affaires ordinaires » (nouvelle expression des « affaires courantes du royaume »). Le résultat du « test » portant sur cette nuance est criant d’incertitude : sur une liste de 194 titres obtenus par des critères discutables, 164 seraient « a priori » des titres de pièces officielles à garder car en lien avec la Fronde (ce n’est donc pas sûr ?), 18 d’abord écartés seraient à reverser dans les mazarinades parce qu’appartenant à des « pièces non officielles » (après vérification humaine) et seuls 12 titres « relèvent d’affaires a priori sans lien direct » avec la Fronde, une certitude d’exclusion, selon Derrida, ou (in)certitude d’exclusion, selon nous, qui ne pourrait être acquise qu’après « examen rigoureux de leur contenu », examen qui n’a pas encore été fait – « examen », dont l’étymon agere signifie « pousser hors de, chasser »…
Si nous apprécions que l’exclusion de pièces soit précautionneusement menée et finalement reportée sine die, nous constatons toutefois qu’elle a été proposée alors que « cette catégorie de ‘pièces officielles’ demanderait à être mieux définie »… C’est ainsi qu’une prémisse douteuse donne lieu et existence à un projet d’exclusion, plus appuyé sur une idéologie discriminante que sur des résultats scientifiques.
Avancée comme un résultat du travail d’Abiven & Lejeune, la « plus value que l’outillage offre à l’expert » (on croirait entendre parler d’un placement boursier) n’est pas du tout avérée. Un peu de « tri manuel » est laissé dans le  programme (nous aurions dit « visuel » ou « intellectuel »…), peut-être pour ne pas effrayer ceux qui emploient encore des méthodes conventionnelles ? Et l’on arrive à la conclusion de cette première partie du diptyque en prétendant que cette « opération démontre deux avancées possibles » – alors qu’aucune démonstration n’a été menée de façon concluante. Le lecteur est-il bien préparé au déferlement de statistiques et de graphiques du second volet ?
Abiven & Lejeune retirent alors – nouveau geste de désinvolture scientifique – toutes les précautions oratoires précédentes et affirment : « on a pu sélectionner automatiquement les 9,7 % de textes potentiellement officiels, dont on a ensuite éliminé manuellement 15,5 % d’items non pertinents ». Donc, plus besoin de relecture : on peut directement éliminer les textes non pertinents.

Est-ce après avoir complètement quitté le terrain de la réalité qu’Abiven & Lejeune se prennent alors à rêver à ce qu’il serait « idéalement possible » de faire ?

« dans une base de données qui permettrait de sélectionner les métadonnées relatives au type documentaire, on pourrait choisir de sortir les pièces officielles pour constituer un corpus exclusivement pamphlétaire ; si on (sic) contraire on cherche à repérer des segments répétés ou à opérer des datations relatives, on pourra constituer un corpus extensif, incluant toutes les pièces relatives à la Fronde. On pourrait aussi par exemple résoudre les difficultés induites par l’hétérogénéité volumétrique, en rendant possible le choix d’un sous-corpus de textes de longueur inférieure ou égale à 16 pages, ce qui représente le gros des « mazarinades » au sens de pamphlets. »

C’est beau, en effet. Mais, répétons-le une nouvelle fois, cela existe déjà et cela s’appelle le Projet Mazarinades. Tous les termes mis en gras correspondent en effet à des métadonnées présentes dans notre corpus en ligne. Donc quand Abiven & Lejeune achèvent (leur envolée ?) par ceci : « à condition de doter cette masse de textes de métadonnées les plus complètes possible », ils considèrent certes que toutes les mazarinades ne sont pas déjà en ligne et que toutes les métadonnées n’ont pas encore été saisies, ce que nous ne contestons pas, mais leur expression sous-entend une négation ou opère une invisibilisation du Projet Mazarinades – qui contient pourtant déjà près de la moitié des pièces recensées et plus de la moitié des métadonnées nécessaires à leur exploration. Ce que nous proposons de nommer un fiasco de la pensée et dont nous pensons avoir montré l’étendue s’avère aussi être un grave méfait à l’encontre du Projet Mazarinades. Serait-ce un délit intentionnel et prémédité, puisqu’il utilise le Projet Mazarinades pour ensuite le nier ? Un délit dont la motivation serait la prétention de mieux faire ? Ou de faire une entrée fracassante dans un domaine de recherche prometteur ?

« Nous ambitionnons de mener conjointement un travail de numérisation qui complèterait cet ensemble et un travail d’exploitation des données. » (p. 13)

Depuis le commencement de l’accord d’échanges scientifiques entre l’équipe du Projet Mazarinades et l’équipe Antonomaz (avril 2018), nous nous étonnions qu’Abiven & Lejeune n’aient pas proposé de participer aussi au développement du Projet Mazarinades en y apportant une « plus-value », par exemple une expertise algorithmique et statistique, tout en envisageant logiquement d’autres numérisations. En fait, ils paraissent n’ambitionner que de créer rapidement un autre corpus (par OCR et sans correction) pour l’exploiter à leur façon, notamment pour datation de pièces et attribution d’auteur [4]. Ce qui nous serait fort utile – si scientifiquement acceptable. Et offrir au public des textes truffés de coquilles. Pourquoi pas ?
Mais pour « tester […] une méthode qui soit la plus robuste possible » (p. 13), ils se sont servis du Projet Mazarinades comme cobaye, sans rien proposer en retour. En effet, qui irait offrir quelque chose à un cobaye ? L’échange scientifique n’était-il pas dès le début conçu comme unilatéral par Abiven & Lejeune ?

*

Science sans conscience n’est que ruine de l’âme. (Rabelais)

*

Pour dépasser cette conclusion, nous pouvons revenir sur notre citation de Sloterdijk en exergue et affirmer qu’il est tout de même possible de montrer « qu’il existe une différence essentielle entre une compétence authentique et une vaste simulation de la même compétence ».
Mais cela coûte, comme nous pensons l’avoir fait ici : en recherche, en temps, en argumentation et en astreinte à un travail critique désagréable ; où l’on craint soi-même de céder à l’arbitraire, la jalousie ou la défense de ses acquis. Désagréable parce que l’on pense aussi qu’il pourrait avoir de fâcheuses conséquences.
Selon nous, cette différence essentielle (que Sloterdijk fait mine de croire disparue) s’appelle l’éthique. L’éthique, aussi impliquée dans des expressions comme « rigueur intellectuelle » ou « honnêteté scientifique », nous renvoie certes à la citation de Rabelais mais surtout aux intenables apories de notre temps : quand de nombreux universitaires, intellectuels, politiques, dirigeants, etc., se trouvent impliqués – et souvent condamnés – dans des opérations de pillage de travaux d’étudiants ou de stagiaires, de plagiat d’auteurs peu connus, de mystification et d’imposture scientifiques (fausses théories, mesures volées, faussées ou décontextualisées) ou académiques (faux diplômes, complicité de délits par non dénonciation, etc.), et qu’ils sont parfois promus au lieu d’être bannis, il est difficile de faire en sorte que les jeunes chercheurs envisagent une carrière en restant dans les étroites limites de l’éthique – dont ils ignorent parfois l’existence. Abiven & Lejeune ont-ils travaillé sans éthique « pour offrir une véritable plus-value au corpus » (p. 2) ou pour donner une « plus-value » à leur carrière ? Le lecteur en jugera.

*

______________ Notes :

[1] « […] le cadre épistémique exerce une influence sur la manière même de formuler les problèmes devant faire l’objet d’une étude scientifique. » (M.-F. Legendre, « La notion de cadre épistémique »Fondation Jean Piaget, Piaget et l’épistémologie, 2e §.)

[2] Autrement dit, le traitement automatique des titres des mazarinades à partir de quelques mots censés relever du cadre officiel a permis de valider la grande majorité des titres concernés comme étant bien ceux de mazarinades. Quant à la minorité menacée d’exclusion, il n’a pas été prouvé que ces titres n’appartiennent pas à des mazarinades mais que la lecture humaine de l’intégralité des textes concernés ne permet pas d’affirmer que ces pièces ne soient pas des mazarinades – ni qu’elles en soient, d’ailleurs. Échec de la pensée circulaire.

[3] Voir Tadako Ichimaru (revue Histoire et Civilisation du Livre, XII, 2016, p. 84-85) qui propose de ne pas exclure de pièces du corpus historique mais de créer des catégories descriptives (grâce à des métadonnées), dont celle de « quasi-mazarinade » en considérant, pour certaines pièces, la « dimension emblématique » proposée par Myriam Tsimbidy (revue Eidôlon, n° 116, 2015, p. 31-32).

[4] Cette intuition a été confirmée d’une part par le fait que le projet Antonomaz a reçu une dotation du « Consortium CORpus, Langues et Interactions » au titre de 2019 (voir ici montant acordé (sic) de 3690 euros dans la liste) et d’autre part par le fait qu’Antonomaz s’est mis en quête d’un.e stagiaire capable de traiter le corpus OCR de mazarinades qui a été ou doit être acquis par Antonomaz (source Litor, 9 décembre 2019).

Cette entrée a été publiée dans Documents. Vous pouvez la mettre en favoris avec ce permalien.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *