Une start-up a réussi à faire tenir tout le Wikipédia anglais sur des brins d’ADN

Une start-up a réussi à faire tenir tout le Wikipédia anglais sur des brins d’ADN

Image :

Scientist Working on Computer In Modern Laboratory
NOTE TO INSPECTOR: all graps, dna models, charts are made by me

photo de profil

Par Thibault Prévost

Publié le

Basée à Boston, Catalog a construit une machine capable d'encoder des données dans de l'ADN à 4 mégaoctets par seconde.

Le 21e siècle, qui restera sans doute comme celui de la dématérialisation de l’information, est confronté à un problème inédit : la surabondance de données. Bercés par les géants du Web dans l’illusion que le stockage est gratuit et virtuellement illimité (tant que ce sont eux qui s’en occupent à notre place), nous numérisons chaque recoin de notre expérience sensible pour donner chaque jour plus de substance à nos doubles numériques condamnés à briller dans l’espace concurrentiel et lucratif de l’attention.

À voir aussi sur Konbini

Le monstre, lui, n’est jamais rassasié. Un rapport de l’entreprise de stockage Seagate, paru en novembre 2018, donne un aperçu de l’affolante croissance de cette “datasphère” mondiale : en 2018, l’humanité disposait de 33 zettaoctets (Zo) — soit 33 milliards de téraoctets — ; d’ici 2025, annonce Seagate, ce chiffre devrait être multiplié par six pour atteindre 175 zettaoctets, dont 90 générés par les capteurs connectés. Chaque année.

La datasphère est donc un Léviathan qui menace : comment gérer le stockage de tels volumes de données de manière accessible, stable, réduite et aussi peu énergivore que possible ? Certainement pas avec les disques durs et autres data centers actuels, même si le rythme de la miniaturisation se maintient (au cas où vous l’ignoreriez, vous pouvez d’ores et déjà acheter une carte SD d’1 téraoctet de stockage). À ce rythme, annonçait Nature en 2016, le tsunami de données aura englouti les réserves mondiales de silicone (utilisé pour concevoir les puces informatiques) en 2040 — et d’ici là, les data centers seront déjà des désastres environnementaux.

L’ADN pour les gouverner tous

Aujourd’hui, le meilleur espoir pour contrer cette datapocalypse réside dans l’acide désoxyribonucléique, car l’ADN qui nous sert de code source est une formidable machine à stocker et conserver de l’information, qui ridiculise toutes les autres méthodes testées. Un exemple : s’il prenait à quelqu’un l’envie d’archiver tous les films jamais créés sur un brin d’ADN, rappelait récemment Wired, ils tiendraient sur un disque dur organique plus petit qu’un carré de sucre. Bien entretenu, le disque dur pourrait retenir l’information pendant 10 000 ans.

Techniquement, la méthode paraît simple : l’information est stockée en code binaire (0 et 1) sur l’une des quatre paires de nucléotides de l’ADN (notés A, T, G et C). La technique est partiellement maîtrisée depuis plusieurs années, les preuves de concept se multiplient à coups de gifs embarqués et de grosses entités, comme Microsoft ou l’armée américaine, sont en passe de réussir le passage à l’échelle industrielle avec un processus automatisé. Le principal obstacle, c’est le coût de l’opération. Mais le séquençage d’ADN, qui permet de convertir puis lire les données stockées sur les nucléotides, est devenu en quelques années une sorte de hobby occidental — et les prix, portés par la concurrence entre 23AndMe, Ancestry et autres MyHeritage, ont plongé. Reste le processus d’écriture des données sur l’ADN… et c’est là qu’intervient Catalog.

Plus économique, plus rapide… mais pas pour demain

Le 27 juin, la start-up américaine basée à Boston, fondée en 2016 par deux diplômés du MIT, a révélé qu’elle était parvenue à stocker l’intégralité du texte de Wikipédia en langue anglaise, soit 16 gigaoctets (Go) de données, sur de l’ADN. (Oui, nous aussi, on a été surpris de découvrir que toute l’encyclopédie en ligne tenait sur 16 Go, mais l’important n’est pas là.)

Pour y parvenir, Catalog dispose de sa propre “machine à écrire sur de l’ADN”, de la taille d’un bus, capable d’encoder des données à 4 mégaoctets (Mo) par seconde. C’est encore lent, mais la start-up assure que des optimisations permettront de multiplier la vitesse d’écriture par trois (en 2018, Catalog annonçait au MIT Technology Review qu’il serait possible d’enregistrer un téraoctet de données par jour, soit la capacité d’un ordinateur portable, d’ici 2021). Et Catalog ne vend pas d’appareil pour lire les données qu’elle stocke : une simple méthode de séquençage commerciale suffit.

Dans le long chemin qui reste jusqu’au remplacement du disque dur par des brins d’ADN, la performance de la start-up est donc notable. Elle inaugure une approche différente de celle de Microsoft, qui est parvenu en avril dernier à stocker le mot “hello”, de 5 octets, avec un système à 10 000 dollars… mais en près de 21 heures. D’autre part, comme le rappelle Cnet, la méthode inventée par Catalog se rapproche d’une mémoire vive (RAM), qui permet d’accéder à n’importe quelle partie d’un flux d’information à la manière d’un disque dur (la méthode “traditionnelle” permet de lire les données à la manière d’une VHS).

Si les vitesses d’écriture peuvent être améliorées, alors la technologie sera prête à être commercialisée. Premiers clients potentiels : le projet Arch Mission, qui entend archiver toute la connaissance humaine, ou les entreprises spatiales, toujours en quête de nouveaux moyens de miniaturiser le stockage (et le poids) dans les navettes. Avant, peut-être, de déferler sur les grandes entreprises de la donnée voire, d’ici quelques décennies, dans les châssis de nos ordinateurs.