featuredImage

La Bibliothèque nationale de France archive l'ensemble du Web français

Chaque année, la BNF réalise un panorama du Web français dans toute sa diversité. Le but ? Protéger notre patrimoine culturel.

Archiver l’ensemble du Web… Quand on voit ce genre de choses, on se dit tout de suite que c’est encore une idée des Américains. Bingo. En 1996, un dénommé Brewster Kahle fait le pari un peu fou de "fournir un accès universel à toutes les connaissances" en créant "la prochaine bibliothèque d’Alexandrie", rien que ça.

Brewster Kahle n’est pas un citoyen lambda qui aurait bricolé un truc du futur au fin fond de son garage. Entre 1989 et 1996, il crée deux entreprises ultrapuissantes de référencement de contenu Web puis les revend une fortune. Son pactole lui sert alors à réaliser son rêve : créer une base de données colossale pour préserver le formidable héritage culturel numérique que constitue Internet. Vous voulez un chiffre ? Le site référence "273 milliards de pages Web sauvées au fil du temps", de quoi browser peinard jusqu'à la fin du millénaire.

À son lancement, seuls les contenus en lien avec la campagne présidentielle américaine de 1996 étaient ainsi collectés automatiquement grâce à des crawlers, mais le site a rapidement connu une croissance exponentielle. Et le meilleur dans tout ça, c’est que n’importe qui peut y accéder depuis son ordinateur. Aujourd’hui, on peut ainsi y trouver les archives du MIT, des gameplay de retrogaming ou même des set live de Carl Cox. Bref, ça ratisse large.

La culture Web a une adresse : la BNF

Très vite, les bibliothèques nationales d’une multitude de pays lui emboîtent le pas et décident de créer leur propre base de données. Aussi étonnant que cela puisse paraître, la France n’est pas si à la bourre que ça puisqu’en 1999, la Bibliothèque nationale de France (BNF) initie son propre projet. Elle cherche ainsi à archiver l’ensemble des sites comportant des noms de domaine en .fr, et tous les sites auxquels ils renvoient.

On vous voit venir : "Et même le Skyblog pourri que j’avais en cinquième ?" Même ça. Bon, "pas tous, mais une représentation", d’après Emmanuelle Bermès, en charge du projet pour la BNF. Car si leur but est de cibler des contenus spécifiques, comme les sites de presse par exemple, il s'agit avant tout de rendre compte de la diversité du Web français (c’est quand même ce qui fait son charme). Chaque année, 120 téraoctets de données viennent donc s’ajouter aux 680 existants. Malheureusement pour nous, la législation sur le droit d'auteur et la propriété intellectuelle est différente de celle des États-Unis, impossible donc pour le grand public d'accéder à ce trésor sans autorisation préalable...

À ceux qui se diraient "mon Dieu mais c'est horrible, on est en plein dans George Orwell" : on se rassure. À l'inverse des mails ou des conversations Facebook, un site Web est par définition destiné à être exposé au public. Après si vous n'y aviez pas pensé en postant des photos à l'esthétique douteuse sur votre blog, c'est un tout autre problème...

Par Théo Mercadier, publié le 26/10/2016

Copié