![]() |
C|NET News a consacré un article (en anglais) à une nouvelle initiative de numérisation de livres.
Comme celle de Print Google, celle-ci vient des USA. Elle est née dans le cadre des rencontres de l’Internet Archive une association qui s’est fixé l’objectif de garder la mémoire de l’Internet [1].
Il n’était donc pas très surprenant que cette association sans but lucratif s’intéresse à la possibilité de numérisation du fonds littéraire. C’est ce qu’elle vient d’entreprendre dans le cadre d’un projet Open Source qui a le soutien de plusieurs acteurs importants de l’informatique regroupés dans l’Open Content Alliance (voir la liste).
Le projet est, au départ, assez différent de celui de Google. Ce dernier a pour objectif premier d’aider à découvrir des livres (essentiellement des livres qui sont encore couverts par copyright), pas de les donner à lire en ligne (source). Ce qui est l’exception dans le projet Google est la règle du projet Open Library (bibliothèque ouverte) : ici il s’agit bien de numériser et de donner à lire la totalité de l’ouvrage (du domaine public, donc).
On aura une bonne idée du résultat (mais aussi du procédé), en feuilletant la présentation du projet, livret qui a été lui-même numérisé (ainsi qu’une quinzaine d’ouvrages exemples) comme le seront les millions de livres à venir. (On peut "feuilleter" l’ouvrage en utilisant la souris ou les flèches de direction.)
L’association Internet Archive a conçu des machines spéciales pour la numérisation (on en voit un exemplaire dans le livret de présentation) et un logiciel libre nommé Scribe pour mener à bien le projet. La numérisation d’un ouvrage prend entre une demi-heure et une heure. Le parc actuel est de 10 machines. Il devrait être doublé prochainement.
Bien qu’il n’en fasse pas partie, Google a accueilli le projet positivement. « Je trouve (le projet) excellent » a expliqué Alexander Macgillivray, l’un des principaux responsables de Google, à la suite de la présentation du projet Open Library. « C’est vraiment très dommage qu’on parle de bataille entre les deux projets car en réalité les efforts sont complémentaires. »
Complémentaires, peut-être, mais concurrents aussi. La présence de Yahoo et de MSN Search dans le projet Open Library est certainement, pour ces deux portails, un moyen de ne pas laisser à Google tout le terrain de la recherche dans le corpus considérable que représente le patrimoine littéraire de l’humanité.
Mais, à propos d’humanité justement, qu’il y ait entre les deux projets complémentarité ou émulation, cette nouvelle annonce ne manquera pas d’inquiéter en dehors du monde anglophone. En effet, assez naturellement, l’effort de numérisation représenté par ces projets se portent d’abord sur des ouvrages anglophones. Il ne surprendra pas de constater que la quinzaine d’ouvrages donnés en exemples d’Open Library sont en anglais. Et quand on voit la qualité technique mise en oeuvre (inspirée de celle du travail de la la British Library), on peut légitimement s’inquiéter du retard pris pour les autres langues et du caractère décevant des essais français en la matière (voir le projet Gallica).
[1] En tapant par exemple http://citron-vert.info sur le site web.archive.org vous pouvez voir ce qu’était Citron Vert le 22/09/04.