AccueilArchive

Et si l’IA nous aidait à déchiffrer un manuscrit codé vieux de 600 ans ?

Publié le

par Thibault Prévost

Et si l’IA nous aidait à déchiffrer un manuscrit codé vieux de 600 ans ?

Hébreu ancien

Le 29 janvier, le site Gizmodo relate dans un article passionnant les travaux de Greg Kondrak, chercheur en analyse du langage naturel à l’université canadienne de l’Alberta, et de son doctorant, Bradley Hauer, qui sont parvenus à des résultats significatifs en appliquant une approche algorithmique au déchiffrement du manuscrit de Voynich.
Si Kondrak, Hauer et leur algorithme n’ont pas (encore) découvert le sens caché des textes, ils en connaissent désormais la langue de base et certaines caractéristiques structurelles du mécanisme de codage. Ce qui représente une avancée considérable dans le processus de déchiffrement.
Pour tenter de briser la première des deux barrières, celle de la langue, les deux chercheurs ont d’abord mobilisé leur IA sur la Déclaration universelle des droits de l’homme, rédigée en 138 langues, avec la mission d’identifier des motifs de langage.
Une fois la séance d’entraînement terminée, l’IA s’est concentrée sur le manuscrit et en a conclu avec un haut degré de certitude que celui-ci, tout codé qu’il soit, était rédigé en hébreu. Première surprise pour les chercheurs, qui étaient partis de l’hypothèse, défendue par d’autres linguistes, selon laquelle le texte était rédigé en arabe.

Alphagrammes

Une fois la langue d’origine déterminée, l’IA devait encore identifier son mécanisme de codage. Kondrak et Hauer décident alors de mettre à l’épreuve une théorie avancée par plusieurs chercheurs avant eux, celle des alphagrammes. En cryptographie, un alphagramme est un mot dont l’ordre naturel des lettres a été modifié pour former une anagramme en ordre alphabétique − en suivant cette méthode, l’alphagramme de “Konbini” serait “Biiknno”. En partant du principe que le manuscrit de Voynich était écrit en hébreu, les deux chercheurs ont donc conçu un nouvel algorithme capable de retransformer l’alphagramme en mot.
Résultat : “80 % des termes générés par l’algorithme figuraient dans le dictionnaire hébreu”, écrivent les chercheurs dans leur étude, “mais nous ne savions pas si les phrases avaient un sens”. Ils soumettent donc la traduction de l’incipit du document à leur collègue Moshe Koppel, chercheur en sciences informatiques, dont l’hébreu est la langue maternelle. C’est un échec. Quelques ajustements plus tard, Google Translate parvient à traduire de l’hébreu vers l’anglais ce qui suit : “Elle fit des recommandations au prêtre, à l’homme de la maison, à moi et aux gens.”
La syntaxe est certes un peu chevrotante, et l’on pourrait arguer épistémologiquement que c’est là une étrange manière de commencer un récit, mais qu’importe : pour la première fois, une phrase du manuscrit de Voynich a été traduite en utilisant une méthode scientifique, qui nous apprend la langue d’origine du document (l’hébreu, probablement ancien) et le système de codage (les alphagrammes).
De plus, en étudiant la section “herbier” du codex, parsemée de dessins de plantes, les deux chercheurs découvrent une récurrence des mots “air”, “feu” et “lumière”, ce qui les conforte dans leur modèle. Même si une partie de la communauté des cryptographes spécialisés dans le manuscrit de Voynich considère qu’il est encore bien trop tôt pour crier victoire, le travail du duo a néanmoins fait du bruit.
Il reste aux deux chercheurs à poursuivre leur étude, publiée dans la revue Transactions of the Association for Computational Linguistics, en soumettant les traductions du texte, probablement plus détaillées à mesure que d’autres équipes de chercheurs s’engouffrent dans la brèche algorithmique ouverte par Kondrak et Hauer, à des historiens de l’hébreu ancien, pour faire émerger une traduction plus précise et contextualisée de l’histoire. Et avec elle, un monde probablement extraordinaire, dissimulé aux hommes depuis des siècles sous un épais rideau de cryptographie.

À voir aussi sur Konbini