AccueilÉDITO

Et si l’IA nous aidait à déchiffrer un manuscrit codé vieux de 600 ans ?

Publié le

par Thibault Prévost

Un algorithme développé par des chercheurs canadiens semble en passe de déchiffrer le manuscrit de Voynich, l’un des plus énigmatiques codex jamais conçus.

Manuscrit de Voynich. (© Wikipedia/domaine public)

Deux cent quarante pages d’inscriptions ésotériques, d’animaux fabuleux et de diagrammes abscons. Une succession de symboles cabalistiques, d’équations inconnues, de galaxies exotiques, de nus absurdes et de poèmes épiques dont personne, depuis six siècles, n’a jamais pu saisir le sens.

Depuis sa découverte en 1912 par le bouquiniste polonais Wilfrid Voynich, le document passionne des générations de cryptographes à travers le monde, lesquels se sont pour le moment cassé les dents sur ce savant chiffrement conçu par un esprit génial − ou malade −, il y a probablement 600 ans de cela.

Écrit dans une langue inconnue, elle-même codée par un mécanisme impénétrable, le manuscrit de Voynich est le Graal de la dissimulation. Du cryptographe amateur aux cerveaux de la Seconde Guerre mondiale en passant par les premiers bidouilleurs de codes informatiques, tous ont cru un jour parvenir à trouver la clé qui révélerait enfin le sens caché de ces pages fragilisées par le temps.

Quitte à affirmer, de guerre lasse, qu’elle n’existait tout simplement pas et que le manuscrit n’était qu’une vaste blague. Nous sommes désormais en 2018, et plus aucun mystère ne semble hors de portée de la toute-puissance de l’IA. Pas même le texte le mieux codé au monde.

Hébreu ancien

Le 29 janvier, le site Gizmodo relate dans un article passionnant les travaux de Greg Kondrak, chercheur en analyse du langage naturel à l’université canadienne de l’Alberta, et de son doctorant, Bradley Hauer, qui sont parvenus à des résultats significatifs en appliquant une approche algorithmique au déchiffrement du manuscrit de Voynich.

Si Kondrak, Hauer et leur algorithme n’ont pas (encore) découvert le sens caché des textes, ils en connaissent désormais la langue de base et certaines caractéristiques structurelles du mécanisme de codage. Ce qui représente une avancée considérable dans le processus de déchiffrement.

Pour tenter de briser la première des deux barrières, celle de la langue, les deux chercheurs ont d’abord mobilisé leur IA sur la Déclaration universelle des droits de l’homme, rédigée en 138 langues, avec la mission d’identifier des motifs de langage.

Une fois la séance d’entraînement terminée, l’IA s’est concentrée sur le manuscrit et en a conclu avec un haut degré de certitude que celui-ci, tout codé qu’il soit, était rédigé en hébreu. Première surprise pour les chercheurs, qui étaient partis de l’hypothèse, défendue par d’autres linguistes, selon laquelle le texte était rédigé en arabe.

Alphagrammes

Une fois la langue d’origine déterminée, l’IA devait encore identifier son mécanisme de codage. Kondrak et Hauer décident alors de mettre à l’épreuve une théorie avancée par plusieurs chercheurs avant eux, celle des alphagrammes. En cryptographie, un alphagramme est un mot dont l’ordre naturel des lettres a été modifié pour former une anagramme en ordre alphabétique − en suivant cette méthode, l’alphagramme de "Konbini" serait "Biiknno". En partant du principe que le manuscrit de Voynich était écrit en hébreu, les deux chercheurs ont donc conçu un nouvel algorithme capable de retransformer l’alphagramme en mot.

Résultat : "80 % des termes générés par l’algorithme figuraient dans le dictionnaire hébreu", écrivent les chercheurs dans leur étude, "mais nous ne savions pas si les phrases avaient un sens". Ils soumettent donc la traduction de l’incipit du document à leur collègue Moshe Koppel, chercheur en sciences informatiques, dont l’hébreu est la langue maternelle. C’est un échec. Quelques ajustements plus tard, Google Translate parvient à traduire de l’hébreu vers l’anglais ce qui suit : "Elle fit des recommandations au prêtre, à l’homme de la maison, à moi et aux gens."

La syntaxe est certes un peu chevrotante, et l’on pourrait arguer épistémologiquement que c’est là une étrange manière de commencer un récit, mais qu’importe : pour la première fois, une phrase du manuscrit de Voynich a été traduite en utilisant une méthode scientifique, qui nous apprend la langue d’origine du document (l’hébreu, probablement ancien) et le système de codage (les alphagrammes).

De plus, en étudiant la section "herbier" du codex, parsemée de dessins de plantes, les deux chercheurs découvrent une récurrence des mots "air", "feu" et "lumière", ce qui les conforte dans leur modèle. Même si une partie de la communauté des cryptographes spécialisés dans le manuscrit de Voynich considère qu’il est encore bien trop tôt pour crier victoire, le travail du duo a néanmoins fait du bruit.

Il reste aux deux chercheurs à poursuivre leur étude, publiée dans la revue Transactions of the Association for Computational Linguistics, en soumettant les traductions du texte, probablement plus détaillées à mesure que d’autres équipes de chercheurs s’engouffrent dans la brèche algorithmique ouverte par Kondrak et Hauer, à des historiens de l’hébreu ancien, pour faire émerger une traduction plus précise et contextualisée de l’histoire. Et avec elle, un monde probablement extraordinaire, dissimulé aux hommes depuis des siècles sous un épais rideau de cryptographie.

À voir aussi sur konbini :