Imageson.org

Edition scientifiques, images, sons, médias en Méditerranée

Éric Carroll, Véronique Ginouvès, Jean-Christophe Peyssard et Mayalen Zubillaga

L’exploitation des données numériques

Cette synthèse a été réalisée en préambule aux journées d’études "Expériences d’édition électronique en SHS" (10 et 11 juin 2002, Maison Méditerranéenne des Sciences de l’Homme, Pôle Images-Sons et Recherches en Sciences Humaines, Aix-en-Provence). Son objectif est de proposer des pistes de réflexion ainsi que des outils pratiques dans le cadre de projets de numérisation, ces questions n’étant pas traitées lors des journées.

Précisons dès maintenant que la numérisation est la conversion d’un signal analogique en un signal numérique. Ainsi, la numérisation concerne tous types de documents analogiques et peut s’effectuer à partir de différents supports : papier, microformes (microfiches, microfilms, plaques de verre), photographies, ektachromes, cassettes magnétiques vidéo ou audio, films. Les éléments apportés par cette synthèse concerneront plus largement les documents numériques, qui peuvent être numérisés ou "nativement" numériques (songeons par exemple à un texte tapé grâce à un logiciel de traitement de texte, une enquête de terrain enregistrée sur DAT...).

Ces précisions données, il faut souligner que les questions de numérisation sont d’actualité, et que les enjeux en sont multiples. Vous souhaitez numériser ? Sachez qu’il existe de grands programmes que vous pourrez peut-être intégrer. Il vous faudra également prendre en compte les publics et les usages des documents numérisés, ainsi que les formats et les outils de numérisation. Vous devrez également prêter attention à l’accès à ces documents, aux problèmes juridiques afférents et aux coûts probables des opérations. Vous trouverez ici des ressources, non exhaustives, sur l’ensemble de ces questions, mais aussi quelques exemples d’expériences de numérisation et, enfin, des réflexions sur ce sujet.

http://www.culture.fr/culture/mrt/numerisation/
Initié en 1996, le programme du ministère de la culture porte sur la numérisation des fonds iconographiques et sonores appartenant à l’État. Depuis 2000, il concerne également les fonds appartenant aux collectivités locales. Cette opération s’inscrit dans le programme d’action gouvernementale "préparer l’entrée de la France dans la société de l’information". Ces programmes sont pilotés par le comité scientifique pour la documentation informatisée et le multimédia du Conseil ministériel de la recherche.

Un moteur de recherche vous permet d’accéder aux fonds numérisés ainsi qu’aux ressources mises en ligne par le ministère.

http://www.pner.org/
L’État engage une politique de numérisation à travers le PNER (Programme Numérisation pour l’Enseignement et la Recherche). Ce programme a été confié par le Ministère de l’Éducation Nationale à la Fondation Maison des Sciences de l’Homme. Un travail de réflexion et de proposition sur les usages et besoins de documents numériques pour l’enseignement et la recherche y a été conduit. Le programme du PNER s’articule autour de trois pôles : Normes / Usages / Juridique.


http://europa.eu.int/information_society/eeurope/index_en.htm
Le programme e-Europe ne comporte pas de plan de numérisation mais émet des recommandations sur les contenus en ligne. Voir notamment le rapport suivant :

http://www.culture.fr/culture/mrt/numerisation/fr/eeurope/lund_principles-fr.pdf.
Il s’agit d’un rapport sur "Le contenu européen sur les réseaux mondiaux. Mécanismes de coordination pour programmes de numérisation. Les principes adoptés à Lund : conclusions de la réunion des experts du 4 avril 2001 à Lund (Suède)". Le 4 avril 2001, des représentants et des experts des États membres se sont réunis à Lund, en Suède. Ils ont émis des recommandations concernant les actions à entreprendre pour favoriser de manière durable la coordination et la valorisation des activités de numérisation. Ils ont souligné la valeur et l’importance du contenu numérisé européen dans les domaines culturel et scientifique.

La connaissance des usages est aujourd’hui lacunaire, et encore plus la réflexion à leur sujet. Or, il est d’autant plus nécessaire d’étudier les usages que la technique ne cesse de les faire évoluer et de les développer, et que l’hypertexte induit de nouveaux comportements. Dans cette optique, la question "pour qui numérise-t-on ?" est essentielle. Les besoins des chercheurs ne sont pas les mêmes que ceux du grand public, et ceci a maintes conséquences, dès le stade de la conception et de l’indexation de la base de données.

http://www.pner.org/index.asp?choix=3-2
Sur la page des études du PNER (sur la page du PNER, cliquer sur la rubrique "études"), il est possible de consulter des dossiers sur différents thèmes liés à la question des usages, notamment : "Les communautés délocalisées d’enseignants" ; "Inathèque de France : usages du système documentaire" ; "Observation et analyse des usages : méthodes et outils" ; "Le dilemme constructiviste ou la question du renouvellement des usages".

http://revues.enssib.fr/Index/indexusages.htm
Un bilan sur les études d’usage des revues électroniques sur des pages du site de l’ENSSIB (École Nationale Supérieure des Sciences de l’Information et des Bibliothèques), à propos de l’édition des revues numériques.

http://mission-dti.inria.fr/Rapport/applications.html
Le "rapport Abramatic" sur le développement technique de l’Internet comporte un chapitre intitulé "applications et usages". Jean-François Abramatic y évoque les liens qui existent entre applications, contenus et usages de l’Internet.

http://www.enssib.fr/bbf/bbf-99-5/04_poustlajus.pdf
Cet article du BBF (Bulletin des Bibliothèques de France) synthétise les principaux résultats d’une campagne d’observation et d’analyse des usages d’Internet dans différents lieux d’accès public en France, en Espagne et au Portugal.

Quiconque se lance dans la production de données numériques (texte, images et sons) se trouve rapidement confronté à la question centrale du choix d’un format. Le souci premier devra être celui de la pérennité et de l’interopérabilité des données, tout en tenant compte de l’historique des corpus existants et de l’environnement de travail. L’émergence récente du MP3 et du DIVX-;) a démontré qu’il ne suffisait pas que de grands groupes industriels ou que la communauté scientifique décident d’imposer, de privilégier tel ou tel format : l’adhésion de l’utilisateur final doit toujours être prise en compte.

La confusion la plus totale règne en matière de formats. En effet, ceux-ci sont multiples et mettent en œuvre des technologies aussi nombreuses que complexes. Des formats que l’on tient pour des standards sont en fait issus de technologies propriétaires (ex PDF, qui appartient à la société Adobe). D’autres, comme le XML, développé par la communauté sur le modèle du logiciel libre, tardent à s’imposer. L’utilisateur risque d’être perplexe face à un choix qui, in fine, conditionnera son travail et la qualité de ce dernier. Il conviendra donc de tenir compte des spécificités et des contraintes de chaque format pour choisir celui qui est le mieux adapté à vos besoins.

http://www.culture.fr/culture/mrt/numerisation/index.htm
Une série de liens utiles sur les questions de numérisation sur le site du ministère de la culture et de la communication.


http://revues.enssib.fr/Index/indextecnic.htm
Sur le site de l’ENSSIB à propos de l’édition de revues numériques, la rubrique ‘‘technique’’ énumère les formats utilisés pour la publication de revues savantes électroniques (formats de production, de diffusion et d’archivage, glossaire synthétique des termes techniques). Il s’agit d’un site sur les revues numériques, mais les considérations techniques qui y sont fournies ont une portée plus générale.

http://www.bibl.ulaval.ca/vitrine/giri/mod1/1_4.htm
Les principaux formats de fichiers sur Internet : documents textuels, image, audio, vidéo... Les différents formats sont ici regroupés en grandes catégories et ils sont introduits par leur extension de fichier.

http://revues.enssib.fr/titre/6tecnic/3verselec/1formats.htm
Sur le site de l’ENSSIB à propos de l’édition de revues numériques, une rubrique sur les formats de production, de diffusion, et d’archivage des versions électroniques.

Pour les documents textuels, les formats d’acquisition sont les fichiers de traitements de texte commerciaux, le plus souvent Word. Il s’agit du format utilisé par le secrétariat de la revue pour l’étape d’uniformisation des textes (références bibliographiques, corrections linguistiques, etc.). Du format d’acquisition, on passe à un format de production, XML ou QuarkXpress par exemple. Une fois toutes les corrections saisies et le contenu validé, la version finale servira également pour l’archivage. Pour cette étape, le format XML est nettement à privilégier. Les formats de diffusion électronique sont le plus souvent HTML et PDF.

http://www.ccr.jussieu.fr/urfist/image_numerique/Image_numerique1.htm
Tout ce que vous souhaitez savoir sur les images numériques se trouve dans ce cours de l’URFIST de Paris. Ce support expose les aspects théoriques concernant la numérisation et les images numériques. Il est également conçu pour apporter des réponses pratiques à toutes les personnes qui ont besoin de numériser et de manipuler des images numériques. Divisé en 5 grands chapitres, mis à jour en avril 2002, il propose ainsi une formation très complète sur l’image numérique : théorie ; pratique ; trouver des images ; ressources images sur Internet ; "testez vos connaissances".

http://irht.cnrs-orleans.fr/formation/cours/sommaire.htm
Ce cours sur la numérisation d’images, proposé par le service photo de l’IRHT (CNRS), propose une page sur les formats d’images pour Internet :

http://irht.cnrs-orleans.fr/formation/cours/web/internet.htm

http://www.culture.fr/culture/mrt/numerisation/fr/f_04.htm
Le site du ministère de la culture offre de nombreuses ressources sur la numérisation du patrimoine culturel, parmi lesquelles des informations techniques (ici sur l’image numérique), ainsi que de nombreux liens.

http://www.ifla.org/IV/ifla67/papers/060-100f.pdf
La numérisation des documents cartographiques anciens : supports traditionnels et nouvelles technologies.

Nous évoquons là la numérisation d’archives du patrimoine sonore (enquêtes de terrain, enregistrements de séminaires…) susceptibles d’être conservées, cataloguées et diffusées dans les laboratoires des MSH au sein de phonothèques de l’oral.

De quoi a-t-on besoin pour numériser du son ?

- d’une carte son.

Attention, au moment de son achat. Pour les PC, on vous proposera des cartes de la compagnie SoundBlaster. Ces dernières sont plutôt adaptées aux travaux des musiciens et ne sont pas vraiment intéressantes pour la numérisation du patrimoine sonore. Les Macintoshs ont des cartes son intégrées dans les appareils dont il conviendra de vérifier toutes les fonctions.

- d’un logiciel de numérisation.

Il en existe plusieurs. Inutile de chercher le dernier sorti et le plus complexe : pour la numérisation du patrimoine sonore, il convient de numériser l’original sans chercher à restaurer le son, au moins pour la copie de conservation. D’ici quelques années, des logiciels plus performants vous permettront certainement d’améliorer cette copie. Dans le cadre des phonothèques de l’oral, la procédure est d’effectuer une copie dite "droite" (c’est à dire sans modifications particulières) sur un cédé audio et de copier ensuite l’ensemble des fichiers de données (le fichier WAVE et ses marqueurs) sur cédérom.

Présentation de quelques logiciels de numérisation :

WAVELAB : http://www.espace-cubase.org/wavelab3.htm
SAMPLITUDE : http://www.scv.fr/hitech/html/magix/samplitude.html
PROTOOLS : http://www.generasound.com/article/283.html

- d’une source externe du son.

Il faudra que vous possédiez tous les lecteurs sources nécessaires : un lecteur de bandes magnétiques possédant la bonne vitesse de lecture, un lecteur de cassettes audios…

N’oubliez- pas : si votre source est déjà numérique (Mini-disque, DAT), vous ne numérisez pas, vous transférez des données.

Le format du son : les fichiers WAVE


L’idée de base du son numérique consiste à mesurer l’amplitude du signal analogique un nombre donné de fois par seconde et de placer ce signal dans un fichier. La conversion s’effectue à l’intérieur de la carte son (ou d’un lecteur DAT dans le cas professionnel) par un processeur de signal numérique appelé ADC (Analogic to Digital Converter). Un fichier audio non compressé est stocké sous forme de fichier avec une extension WAV. Vous entendrez parler "d’échantillonnage du son" : plus la fréquence d’échantillonnage sera élevée, plus la numérisation sera précise. La numérisation d’un fichier WAVE s’effectue à 44,1kHz (kHz=kilohertz, le hertz étant l’unité de la fréquence). Notez que le téléphone utilise un échantillonnage à 8kHz et qu’en général nous reconnaissons bien la voix de ceux qui nous appellent !

Le site de Éric Buist, étudiant en informatique, décrit très bien le fonctionnement des fichiers WAVE, mais attention, il se positionne avant tout pour une diffusion sur Internet et développe donc principalement la compression des données.

http://www.iro.umontreal.ca/~buisteri/cdwriting/Waveform.html


Le format MP3


Le format MP3 "MPEG Audio layer 3" est un format de compression de données audio. Il permet de réduire considérablement le volume du fichier son tout en gardant une certaine qualité sonore. La compression du son consiste en fait à supprimer des données audios dans les fréquences inaudibles par l’oreille humaine, allégeant ainsi les fichiers de départ.
Des explications très claires sur la compression du son vous sont données sur le site "Comment ça marche ?" :

http://www.commentcamarche.net/audio/mp3.php3?imprim=1

Depuis 1999, existe le MP4 mais il est encore peu utilisé car la vogue du MP3 est loin d’être terminée.

Ce format n’est donc pas un format de conservation mais de diffusion.

Il peut être utilisé pour mettre en ligne des échantillons sonores comme le fait la phonothèque de Dastum :

http://www.dastum.com/

La compression des fichiers WAVE pour le Web est expliquée très clairement dans un document au format PDF réalisé par Jacques Bresson, enseignant de l’IUFM de Reims :

http://www.reims.iufm.fr/ressources/produits/le_son_et_le_web.pdf

Plus d’infos sur le son :

Les documents sonores sont intégrés dans le plan de numérisation du Ministère de la Culture. Les réunions du groupe de travail au sein du Comité Scientifique pour la Documentation Informatisée et le Multimédia, groupe de travail sur la numérisation des fonds sonores, sont accessibles :

http://www.culture.fr/culture/mrt/numerisation/fr/csdim/index_csdim.htm

L’association internationale des détenteurs de documents sonores et audiovisuels (IASA) organise régulièrement des conférences et publie des ouvrages où tous ces sujets sont abordés:
http://www.iasa-web.org/

Le pendant français de IASA est l’AFAS (association française de documents sonores et audiovisuels) qui possède également un site où vous pourrez trouver des liens et des articles sur le domaine :

http://afas.mmsh.univ-aix.fr/


A propos de la conservation, il existe une version en ligne d’un cédérom coproduit par l’IFLA et l’UNESCO, réalisé avec l’assistance de la Mission de la recherche et de la technologie du Ministère de la culture et de la communication dans lequel un chapitre se préoccupe des documents sonores analogiques.

http://www.culture.fr/culture/conservation/dswmedia/fr/all_magn.htm
(navigateurs Netscape 4.5 ou Internet Explorer 4.01 requis pour la lecture ; langues : français, anglais).

A propos du traitement documentaire, un regroupement de phonothécaires a publié en 2001 un Manuel d’analyse documentaire du son inédit pour la mise en place de banques de données.
http://afas.mmsh.univ-aix.fr/CATALOGAGE.htm

Enfin, pour lire ces pages plus tranquillement, il existe un glossaire spécifique aux termes relatifs au son et à leur numérisation :

http://www.aidenet.com/informa6b.htm

Quel que soit le dispositif utilisé (carte d’acquisition ou caméscope numérique), la numérisation de la vidéo entraîne également, dans la plupart des cas, sa compression. En effet, celle-ci est nécessaire compte tenu du volume important de données que représente une vidéo dans son état initial. Ainsi, l’objectif de la compression est de réduire le volume de données tout en conservant une bonne qualité d’image.

MPEG

Le MPEG est un format de compression vidéo permettant le stockage des données vidéo sur de petits supports. Sur le modèle du consortium JPEG (Joint Photographic Experts Group) pour les images fixes, le Moving Pictures Experts Group (groupe d’experts pour les images animées) regroupe les spécialistes pour l’élaboration de standards dans les formats de vidéo numérique. On doit aux travaux de ce comité les principaux formats de fichiers utilisés actuellement : MPEG-1, MPEG-2, MPEG-4.

http://mpeg.telecomitalialab.com/
Le site du Moving Pictures Experts Group

http://interactif.lemonde.fr/article/0,5611,2848--61920-0,FF.html
Un article du Monde interactif dans son édition du 17 mai 2000, sur l’histoire du format mpeg.

MPEG-1 : Élaborée en 1992, c’est la première méthode de compression permettant de produire de la vidéo grand public de qualité (équivalente à une cassette VHS). S’il n’a pas eu un grand succès en Europe, contrairement à l’Asie, le MPEG-1 est toujours largement utilisé dans les applications multimédias.

http://www.planete-numerique.com/Pages/Vcd/Mpeg1-1.htm
Cette note, récupérée au Centre National de Documentation Pédagogique, présente de façon complète ce qu’est la vidéo numérique, explique le MPEG 1, et traite de la qualité comparée entre un FILM sur Vidéo CD et sur K7 VHS.

MPEG-2 : Amélioration du MPEG-1, le MPEG-2 s’est imposé pour la diffusion de vidéo de haute qualité, notamment sur les DVD et la télévision par satellite. Face à ce succès, le MPEG-3, prévu à l’origine pour la télévision haute définition, ne verra pas le jour. Sa seule faiblesse tient à ce que, utilisant une technique de compression temporelle, il ne soit pas adapté à l’enregistrement et au montage. C’est donc un standard de diffusion.

MPEG-4 : Cette norme définie depuis novembre 1998 ne se situe pas dans la droite ligne des MPEG-1 et 2. Elle utilise une autre approche de la compression. Le MPEG-4 offre une qualité quasi équivalente à celle du MPEG-2. S’il n’est pas encore aujourd’hui très répandu sous sa propre dénomination, il est à la base de deux des formats les plus en vogue aujourd’hui : celui du Media Player de Microsoft et le DivX.

Et ce n’est pas fini, puisque la normalisation MPEG-7, axée sur la description et la recherche de contenus multimédias, a été finalisée en juillet 2001 et que les travaux sur l’architecture multimédia MPEG-21 ont démarré en juin 2000.

DivX

Ce format de compression est à la vidéo ce que le MP3 est à la musique. Il permet de faire tenir le contenu d’un DVD sur un simple CD avec une qualité sensiblement équivalente, et de toute façon largement supérieure à celle des cassettes vidéos traditionnelles. L’algorithme de compression est une version améliorée de l’algorithme MPEG-4 de Microsoft. Celui-ci est associé avec le très populaire format MP3 afin d’obtenir, en plus de l’excellente qualité vidéo du MPEG-4, une très bonne qualité de son.

http://interactif.lemonde.fr/article/0,5611,2855--113691-0,FF.html
Un article du Monde interactif (8 novembre 2000) qui aborde la "révolution du format DivX" après avoir rappelé de manière claire l’histoire du MPEG.


http://www.divx.com/
Site officiel du format DivX, géré par la société DivxNetworks, qui anime le groupe de développement open source du DivX (voir aussi Project Mayo : http://www.projectmayo.com/). Vous pouvez télécharger sur le site des utilitaires de lecture et des vidéos .

http://www.linternaute.com/ecouter_voir/divx/divx1.shtml
Introduction au DivX en plusieurs rubriques : télécharger des films sur Internet ; un format illégal ? ; les inventeurs du DivX ; l’avenir du DivX.

Décrire et structurer de façon cohérente, adaptée et standardisée les ressources en ligne est aujourd’hui un enjeu de taille. Il s’agit de faciliter la production des données numériques en ligne ainsi que de leur donner le meilleur accès possible par une description des ressources adaptée. Le XML et le Dublin Core semblent indiquer la façon dont le problème sera résolu à terme.

http://xmlfr.org/documentations/articles/000321-0001
Un historique des langages de l’Internet, de SGML à XHTML, par Gabriel Képéklian, senior consultant chez ATOS Intégration.


http://www.chez.com/xml/initiation/index.htm
L’article "XML destiné aux débutants" constitue une initiation synthétique au XML. Destiné aux novices en matière de XML, il ne suppose aucune connaissance préalable de l’Internet, du Web ou de la documentation électronique.

http://www.enssib.fr/bibliotheque/dossthem/cadre_norme_format.html
Sur le site de l’ENSSIB, une page riche de liens vers des sites concernant les formats des documents électroniques (HTML, SGML et XML).

http://www.w3.org/XML
Un dossier complet sur le XML, en anglais.

http://www.chez.com/xml/
Portail francophone de l’XML. Ce site Web a plusieurs objectifs : diffuser et vulgariser en temps réel vers la communauté francophone tout ce qui concerne l’Extensible Markup Language, répertorier tous les partenaires XML francophones, être une structure d’accueil pour tous les francophones désireux de partager leurs connaissances et leurs opinions sur XML et les enjeux économiques et culturels qu’il représente.

http://xmlfr.org/
xmlfr est une vitrine de la technologie XML car il est presque entièrement réalisé avec des technologies XML. Il fournit des informations sur les nouveautés et tout ce qui a un rapport avec XML. La page http://xmlfr.org/liens/ fournit de nombreux liens vers des sites sur le XML.

http://www.mutu-xml.org/index.html
Le projet "Mutualiser l’effort de montée en compétences sur XML" a pour objectif, au travers de la création d’un site Internet et de la mutualisation d’actions d’étude, d’information et de formation, de partager une information dynamique et à forte valeur ajoutée sur les développements des technologies et des usages d’XML. Dans ce même site, toute une série de liens intéressants vers des sites sur le XML :

http://www.mutu-xml.org/xml-base/shared/KEY-XML.html.

http://www.adbs.fr/adbs/prodserv/jetude/html/index.htm
Un dossier "XML : pourquoi faire ?" sur le site de l’Association des Professionnels de l’Information et de la Documentation.


http://www.educnet.education.fr/dossier/livrelec/default.htm#presentation
Le site Educnet a mis en ligne un dossier sur le livre électronique

(http://www.educnet.education.fr/dossier/livrelec/default.htm#presentation) et propose un dossier sur la norme XML (http://www.educnet.education.fr/dossier/xml/default.htm). Il énumère également une série de liens très variés vers des sites sur XML :

http://www.educnet.education.fr/dossier/xml/initiation.htm

http://www.w3.org/XML
Le ministère tente de proposer une plate-forme technique d’outils d’aide à la publication en ligne basé sur XML.

http://www.culture.fr/BiblioML/
Projet BiblioML du Ministère de la culture et de la communication - Mission de la recherche et de la technologie. BiblioML est une application XML. Le format BiblioML est défini en fonction de la norme XML du World Wide Web Consortium. Tous les outils XML peuvent être utilisés pour manipuler des documents BiblioML.

http://www.ucc.ie/xml/
La FAQ (Foire Aux Questions) sur le XML.

http://www.dublincore.org/ore.org
Dublin Core Metadata Initiative

Un concept relativement récent est celui de metadata, pour désigner les données secondaires décrivant des données primaires. En mars 1995 s’est tenue à Dublin (Ohio) la première réunion consacrée à la Metadata initiative. Cette série d’ateliers réunissait une cinquantaine d’informaticiens et de bibliothécaires autour du même but : mettre au point un format de catalogage adapté aux ressources en ligne, un fomat simple et universel, afin que les auteurs eux-mêmes, ou des outils automatiques, puissent le remplir, nécessitant ainsi une faible main-d’oeuvre spécialisée. Le format proposé a été intitulé "Dublin Core metadata element set". A l’instar d’un format catalographique, plusieurs champs ont été prévus pour décrire les "objets". Le format adopté n’impose aucune syntaxe particulière pour la saisie des données.

http://www.bibl.ulaval.ca/DublinCore/usageguide-20000716fr.htm
Guide d’utilisation du Dublin Core. Ce document est destiné à servir de point de départ aux utilisateurs du Dublin Core.

http://www.nlc-bnc.ca/9/1/p1-262-f.html
Le projet de métadonnées Dublin Core, par Susan Haigh, Services de technologie de l’information, Bibliothèque nationale du Canada, décembre 1999.

http://commposite.org/2001.1/articles/totsch.html
Sur le site de COMMposite, la ‘‘revue électronique des jeunes chercheurs et chercheuses en communication’’, un article de Michael Totschnig, étudiant en doctorat de communication à l’Université du Québec à Montréal, introduit aux enjeux de la standardisation dans le domaine de l’informatique.

http://www.info.unicaen.fr/bnum/jelec/Solaris/d06/6horn.html
Une réflexion sur la standardisation dans cet article de François Horn, dans la revue Solaris : la diffusion des informations traitées par des moyens informatiques requiert, à un certain niveau, l’existence d’un processus de standardisation. Ce processus de standardisation ne risque-t-il pas de nuire à la variété des produits informationnels ?

http://www.info.unicaen.fr/bnum/jelec/Solaris/d06/6chabin.html
Un article de Marie-Anne Chabin sur l’uniformisation des standards technologiques, dans la revue Solaris : le recours à la technologie numérique pour la production, la conservation et la communication des documents, convertissant tout texte, image ou son en suites de 0 et de 1, décuple les possibilités de création et d’échange. Cet état de fait exige des standards technologiques et des conventions d’utilisation entre les interlocuteurs. Le créateur comme l’utilisateur doit se former au maniement des outils et s’impliquer davantage dans le processus technique du document.

“Accéder dans de bonnes conditions un contenu numérisé suppose un lourd travail en amont : en premier lieu l’indexation, qui doit être aussi précise et détaillée que possible, puis la numérisation proprement dite, mais aussi l’hébergement et la maintenance des sites, la mise en place d’outils de recherche, la mise en perspective et la présentation des contenus proposés”.

La diffusion numérique du patrimoine, dimension de la politique culturelle, rapport de Bruno Ory-Lavollée à la ministre de la culture et de la communication, janvier 2002, p.9

http://www.culture.fr/culture/actualites/rapports/ory-lavollee/ory-lavollee.pdf

Si vous avez à constituer un corpus de grande dimension, il nous paraît raisonnable de vous conseiller la constitution d’une base de données. En effet celle-ci vous permettra de faciliter les recherches ultérieures et éventuellement sa mise en ligne.

Considérons que l’indexation et/ou la renommée de votre site aient conduit un internaute sur votre site. Il paraît évident qu’il faut offrir à ce nouveau venu une interface qui lui permette de "naviguer" dans le site et de pouvoir éventuellement atteindre tous les documents proposés.
Si votre site a vocation d’accumuler de grandes quantités de documents, il est difficile de mettre tout votre contenu en avant en même temps. Il vous faut donc réfléchir à un outil de recherche dans votre site qui permettra à l’utilisateur de trouver ce qu’il cherche dans ce que vous proposez.

Si vous souhaitez offrir à vos visiteurs une recherche "plein texte" sur toutes les pages de votre site, tous les moteurs web (IIS, apache…) proposent des services d’indexation internes automatiques et peuvent répondre à la majorité des besoins.

Si votre corpus est plus complexe ou qu’il se compose beaucoup d’iconographie, peut-être faut-il songer à procéder à son indexation dans une base de données qui vous permettra de faire des recherches multicritères… A fortiori si votre site a vocation d’être une base de données et de connaissances… tout votre site peut être dynamique et grandir avec votre base.
Dans les deux cas les technologies employées font appel à des scripts CGI, Asp, Php, Jsp ou autre et une base de données.

Les scripts servent à interroger la base, récupérer une réponse et mettre en forme cette réponse sous quelque format que ce soit : HTML, XML, pdf, word…

Si vous êtes plus courageux, vous pouvez même pousser plus loin en intégrant vos données directement au format XML à votre base de données.

Au-delà de l’indexation, vous devrez assurer un bon référencement à votre site Web. Parce qu’aujourd’hui il ne suffit plus de se mettre sur Internet pour en tirer des avantages en termes de notoriété et d’image, il faut faire vivre le site et l’envisager comme un produit à part entière. Trop de gens pensent qu’il suffit de créer un site et de le mettre en ligne pour qu’il génère automatiquement du trafic. Mais un site n’aura de succès que si son contenu est intéressant, certes, mais aussi tout simplement si les internautes connaissent son existence. Il vous faudra ainsi optimiser la promotion de votre site, par différents moyens détaillés dans les pages ci-dessous :


http://methodologies.abondance.com/referencement.html
Sur le site http://www.abondance.com/, vous trouverez une "méthodologie de référencement de site web" en 14 points.


http://www.submit-hit.com/webmarketing/referencement.html
Ce site de webmarketing a un but commercial, mais vous y trouverez de très bons conseils pour le référencement de sites Web.

On ne peut qu’insister sur l’importance des questions de droit liées à la propriété intellectuelle. Tout projet de numérisation soulève des problèmes juridiques, qu’il s’agisse de droits d’auteur, de contrats avec les prestataires ou avec les éditeurs.

http://www.culture.fr/culture/mrt/numerisation/fr/f_05.htm
Sur le site "numérisation" du ministère de la culture, cette page renvoie à de nombreux liens sur les questions juridiques de la mise en ligne. Voir notamment la rubrique "Sélection de sites web droit et multimédia".

http://www.pner.org/index.asp?choix=3-2
Sur la page des études du PNER (cliquer sur la rubrique “Études") :

Les travaux juridiques du PNER 1999/2000. Le groupe de travail juridique du PNER s’est réuni tout au long de l’année universitaire 1999/2000. Ses travaux ont porté principalement sur les nombreuses questions que posent au juriste les NTIC dans le monde de l’enseignement et la recherche. Ils sont présentés dans ce rapport, qui contient également une série d’études approfondies sur des sujets plus précis (Internet et la propriété intellectuelle, numérisation des centres de recherche, droit d’auteur dans la société de l’information...).

Des dossiers sur : "La numérisation et la diffusion d’œuvres à des fins éducatives et de recherche" (réflexion sur le droit de la propriété intellectuelle face à l’évolution des pratiques dans le monde de l’enseignement) ; "Enseignement et recherche" : exception au droit d’auteur" (l’exception au droit d’auteur pour l’enseignement et la recherche ou la recherche d’une conciliation entre l’accès à la connaissance et le droit d’auteur).

http://www.enssib.fr/bbf/bbf-98-3/index.html
Bulletin des bibliothèques de France, 1998, Numéro 3, dossier "Droits et ressources électroniques".

http://revues.enssib.fr/Index/indexjuri.htm
Les questions juridiques soulevées par l’édition de revues électroniques sont détaillées dans cette réalisation de l’ENSSIB.

http://www.internet.gouv.fr/francais/index.html
"Du droit et des libertés sur l’Internet. La corégulation, contribution française pour une régulation mondiale", rapport remis au Premier ministre par Christian Paul le 29 juin 2000. Les défis du droit face à Internet.

http://www.culture.fr/culture/actualites/index-rapports.htm
Dans le rapport Bruno Ory-Lavollée sur la diffusion numérique du patrimoine, les pages 48 à 57 traitent des questions de droits qui gouvernent la numérisation et la diffusion. Après avoir précisé en quoi le droit de numériser et de mettre en ligne les œuvres appartient aux auteurs, B. Ory-Lavollée indique que les questions de droits se traduisent par une gestion lourde et coûteuse, puis propose plusieurs solutions pour créer des conditions juridiques plus favorables à la diffusion de contenus numériques (par exemple : exception pour usage pédagogique, diffusion des images en basse résolution...).

Les coûts de la numérisation doivent être pris en compte avant toute opération : si ceux-ci ne cessent de diminuer, ils restent toutefois relativement élevés. Il faut savoir que le coût de la numérisation ne comprend pas la seule numérisation proprement dite, mais couvre également les éventuels coûts de restauration ou campagnes photographiques, le catalogage, l’indexation, l’investissement technique et humain, etc. Les ressources sur le Web à ce propos sont encore lacunaires, mais vous pourrez consulter ici quelques pages qui fournissent des éléments de réflexion.

http://revues.enssib.fr/titre/2eco/2appreciation_couts/1numerisation.htm
Le site de l’ENSSIB sur l’édition de revues numériques fournit des éléments pour l’appréciation des coûts de la numérisation.

http://www.nlc-bnc.ca/cidl/fsurvey.htm
"Les ressources numériques dans les bibliothèques canadiennes : analyse d’une enquête de la Bibliothèque nationale". En 1997, la Bibliothèque nationale du Canada a mené une consultation nationale sur les ressources documentaires numériques dans les bibliothèques canadiennes. Dans le compte-rendu, deux courts paragraphes proposent une évocation des coûts de la numérisation, ainsi q’une évaluation avantages/coûts.

http://www.revues.org/rh19/2021-2000/14-2021-2000b.html
Cet article de Marin Dacos ("Les lendemains électroniques de l’édition historique. Pour un nouveau modèle économique de publication périodique") fournit des considérations économiques sur l’édition électronique scientifique.

http://www.erudit.org/erudit/etude/chapitre04.html
Cette étude disponible sur le site Érudit ("Conception d’un portail de production, de diffusion et de gestion de publications électroniques. Étude de faisabilité") propose une réflexion sur la gratuité de l’information diffusée au sein du Réseau.

Sont réunies ici des fiches sur diverses expériences menées en matière de numérisation. Pour avoir connaissance de plus de projets, vous pouvez consulter le catalogue des fonds numérisés sur le site du ministère de la culture et de la communication, à l’adresse suivante :
http://www.culture.fr/culture/mrt/numerisation/fr/f_02.htm
Vous avez la possibilité d’afficher une liste des fonds (recherche par liste) ou d’effectuer une recherche par critères (recherche croisée).

Adresse : http://www.culture.fr/documentation/joconde/pres.htm

Institution : Direction des Musées de France

Description : Mise en œuvre par la direction des musées de France, Joconde recense de nombreuses notices de dessins, estampes, objets, peintures, photographies et sculptures appartenant aux collections publiques françaises du VIIe siècle à nos jours, conservés dans 75 musées de France. Parallèlement aux fiches textuelles, des images sont accessibles (principalement celles des musées des beaux-arts de Bordeaux, Lille et Rennes). Joconde est accessible par Minitel depuis 1992 (3614 Joconde) et sur Internet depuis le printemps 1995.

Supports numérisés :

Nombre de documents numérisés : La base Joconde recense aujourd’hui plus de 132.000 œuvres. Sont disponibles plus de 132.000 notices et 16.000 images.

Format des documents fournis :

Type de recherche : La consultation peut s’effectuer de deux manières différentes :

Adresse : http://abu.cnam.fr/

Institution : Association des Bibliophiles Universels (ABU)

Description : L’ABU propose un accès libre au texte intégral d’œuvres du domaine public francophone sur Internet depuis 1993. L’ABU est une association loi de 1901 fondée en Avril 1993, qui a pour objet le développement et la promotion des supports numériques permettant la libre manipulation de l’information, l’application de ces techniques à la diffusion des travaux de recherche des membres et d’informations du domaine public.

Supports numérisés : Textes du domaine publics francophone

Nombre de documents numérisés : 288 textes électroniques de 101 auteurs en mai 2002

Format des documents fournis :

Type de recherche : Par auteur, par texte, ou avec un moteur de recherche (recherche de mots dans l’ensemble du corpus)

Adresse : http://cnum.cnam.fr/

Institution : CNAM (Conservatoire National des Arts et Métiers)

Description : Le CNUM est une bibliothèque numérique consacrée à l’histoire des sciences et des techniques, constituée à partir du fonds ancien de la bibliothèque du CNAM.

Supports numérisés : Livres fragiles du XIXe siècle

Nombre de documents numérisés : 42 livres

Format des documents fournis : HTML, PDF. Images GIF.

Type de recherche : Par auteur ou grâce à un moteur de recherche par mots clés dans l’ensemble de toutes les tables de matières et d’illustrations des ouvrages du CNUM, ainsi que dans leurs notices descriptives. Il n’est pas possible de rechercher dans le texte des ouvrages eux-mêmes.

Adresse : http://www.dastum.com/

Institution : Association

Description : L’association Dastum (en breton, "recueillir, rassembler") a été créée en 1972 dans le but de collecter et mettre en valeur le patrimoine culturel de Bretagne, avec un accent particulier placé sur les traditions orales et la musique traditionnelle. Depuis plus de vingt ans, les bénévoles de Dastum enregistrent chansons, contes, témoignages, rassemblent documents écrits et iconographiques. Outre son travail de collecte, conservation et documentation, Dastum participe directement à la vie culturelle bretonne à travers son réseau d’antennes locales et d’associations partenaires en organisant ou en prenant part à de nombreux festoù-noz, veillées, expositions et autres manifestations ainsi que par le biais d’éditions (CD, cassettes, livres...).
Dastum est également membre d’un réseau d’associations qui oeuvrent dans le même sens en France (la FAMDT : Fédération des Associations de Musique et Danse Traditionnelle) et collabore avec de nombreuses structures, institutionnelles ou associatives (musées, BNF, bibliothèques, centres d’archives et structures européennes...).

Le site Internet Dastum est un site d’informations sur la musique bretonne et le patrimoine oral. Il offre :

Supports numérisés : Chansons, contes, témoignages, documents écrits et iconographiques.

Nombre de documents numérisés :

Format des documents fournis : Documents sonores : format MP3. Afin de protéger les droits des interprètes, l’accès au son des documents n’est possible que dans les antennes Dastum ou par commande sur l’Internet.

Type de recherche : Sur le site Internet, il est possible de consulter les archives sonores. Pour chaque bande, une fiche de description a été réalisée à partir des informations données par le collecteur et d’éléments d’information correspondant au contenu de l’enregistrement. Ce travail a d’abord été effectué sur bandes, puis sur cassettes, jusqu’à l’actuelle numérisation des fonds. Pour la recherche, il faut d’abord choisir une rubrique dans une liste : chants et musique, témoignages et récits de vie, contes et légendes, tous les documents. Un moteur de recherche permet ensuite d’effectuer une recherche multicritères.

Adresse : http://www.erudit.org/

Institution : Groupe interuniversitaire pour l’édition numérique (GIEN), constitué des principaux acteurs de la communication scientifique québécoise.

Description : Au Québec, le projet Érudit a permis de proposer une plateforme pour la mise en ligne des revues en Sciences Humaines. Ce projet a comme objectif la promotion et la diffusion de la revue universitaire. Le portail offre des articles de revues, principalement en sciences humaines et sociales. Érudit, comme site de diffusion numérique des revues, a été mis en place en 1998. La première phase (1998-1999), subventionnée par le Fonds FCAR, a permis de mettre en ligne cinq revues savantes selon une chaîne de traitement basée sur SGML. Il est possible de consulter le rapport de cette expérimentation à cette adresse :
http://www.erudit.org/erudit/rapport/index.htm.
Depuis mars 2001, grâce à une subvention du Fonds de l’autoroute de l’information, le Groupe interuniversitaire pour l’édition numérique (GIEN) travaille à la conception d’un processus basé sur XML pour la production des versions numériques de revues savantes et de livres universitaires. Les documents produits dans le cadre de ce projet seront diffusés dans Érudit au cours des prochains mois.

Accès aux résumés et aux textes en intégralité, sans abonnement.

Supports numérisés : Articles de revues en sciences humaines et sociales

Nombre de documents numérisés : 3000 articles

Format des documents fournis : PDF, HTML, SGML

Type de recherche : Par revue ou à l’aide d’un moteur de recherche (mode simple et avancé sur les champs titre/auteur/revue/recherche globale).

Adresse : http://www.fabula.org/

Institution : Association à but non lucratif

Description : Lancé début 1999, le site Fabula se veut un lieu de ressources et de rencontre destiné aux chercheurs visant à la diffusion de l’information scientifique et de la connaissance en matière de théorie et de poétique littéraires (littérarité et fictionalité, histoire des poétiques, problématiques de la représentation et des genres littéraires, théories de l’auteur, de la réception et de la lecture). Fabula est une association de chercheurs s’intéressant à la théorie littéraire en général et à la question de la fiction en particulier, ayant choisi de fonctionner grâce à un site Internet et d’expérimenter les possibilités offertes par ce média.
Fabula est le premier portail francophone dédié à la recherche littéraire. Il offre l’hébergement à des sites et à des unités de recherche dépourvus de moyens informatiques afin de favoriser le partage des connaissances sur la littérature de fiction.

Supports numérisés : Textes : travaux et colloques dans le domaine de la théorie de la fiction littéraire ; revue Acta fabula ; diffusion d’informations touchant à tout ce qui est relatif aux études littéraires (aussi bien la critique que la théorie littéraire, l’histoire de la littérature, les colloques sur des auteurs, etc.).

Nombre de documents numérisés : Difficile de comptabiliser le nombre de documents numérisés, puisqu’il s’agit à la fois d’une revue, d’un moteur de recherche (60 000 pages pour Aleph), de textes de colloques, de débats...

Format des documents fournis : Le site est constitué de pages dynamiques utilisant la technologie PHP 4.0, d’une base de données Mysql et de programmes cgi. Par contre, le système de calendrier et de nouvelles est constitué par un logiciel de gestion partagée d’informations écrit en langage PERL. L’ensemble des logiciels et des programmes utilisés a été développé spécifiquement et bénévolement par le fondateur du site Alexandre Gefen. Fabula ne s’appuie sur aucune technologie propriétaire et peut être consulté quelle que soit la machine et le système d’exploitation utilisé.

Type de recherche : Par thèmes ou grâce à un moteur de recherche (par mots-clés)

Adresse : http://frantext.inalf.fr/

Institution : INALF / CNRS

Description : L’INALF (Institut National de la Langue Française), rend accessible une multitude de textes électroniques. La base FRANTEXT en demeure le fleuron qui offre de façon permanente, en interactif, des textes complets, de la Renaissance à l’époque contemporaine, appartenant aux domaines des œuvres littéraires, des sciences des arts et des techniques.

Supports numérisés : Le corpus contient à peu près 80% d’œuvres littéraires et 20% d’ouvrages techniques illustrant les diverses disciplines scientifiques.

Nombre de documents numérisés : 3 500 textes complets

Format des documents fournis : Format texte
Il ne s’agit pas ici de numérisation : les textes n’ont pas été scannés mais ressaisis afin de permettre une recherche sur le texte intégral.

Type de recherche : Tous les types de recherches sont possibles : auteur, titre, genre, sujet, date, mot ou groupe de mots ; on peut rechercher des citations, travailler sur des occurrences et co-occurrences de termes, des fréquences d’utilisation, des variantes orthographiques et syntaxiques. Grâce à FRANTEXT, il est possible d’effectuer une exploration fine du sens des mots à partir de leur contexte, une analyse chronologique de l’apparition et de l’évolution des mots, et la constituer des index. La base complète est accessible gratuitement depuis 1999.

Chaque année, pour les chercheurs, Frantext accepte de nouvelles demandes de saisie d’œuvres dans la base.

Adresse : http://gallica.bnf.fr/

Institution : BnF (Bibliothèque nationale de France)

Description : Gallica est le serveur à distance de la Bibliothèque numérique de la BnF. Conçue comme une collection patrimoniale et encyclopédique, celle-ci est constituée d’un large corpus de monographies et de périodiques qui, de l’Antiquité à la veille de la première guerre mondiale, propose des textes d’auteurs classiques mais aussi d’auteurs moins connus, des dictionnaires ainsi que des outils bibliographiques et critiques.
Des programmes de numérisation vont progressivement compléter ces fonds par des ensembles thématiques multimédias faisant appel aux imprimés comme aux collections spécialisées (estampes, cartes et plans, manuscrits…). Cette bibliothèque numérique est accessible sur place et à distance : sur place, à la BnF, les lecteurs peuvent consulter les documents libres de droits mais aussi les documents pour lesquels les ayant droit ont donné une autorisation de communication interne. A distance, le serveur Gallica offre la partie libre de droit de cette collection.

Supports numérisés : Dictionnaires, périodiques, ouvrages en mode texte, documents sonores, images du fonds Jean-Baptiste Bourguignon d’Anville (Département des Cartes et Plans), images du fonds Hippolyte Destailleur (Département des Estampes et de la Photographie), dessins d’Etienne-Louis Boullée (Département des Estampes et de la Photographie), dessins de Jean-Jacques Lequeu (Département des Estampes et de la Photographie), collection Eugène Atget (Département des Estampes et de la Photographie), fonds des portraits de musiciens (Département de la Musique), Fonds Basile (Département des monnaies, médailles et antiques), livres illustrés de la Réserve (Réserve de la Bibliothèque nationale de France), livres illustrés du Musée de l’Homme (Réserve de la Bibliothèque du Musée de l’Homme), livres illustrés du Muséum National d’Histoire Naturelle (Bibliothèque centrale du Muséum National d’Histoire Naturelle), fonds des Archives photographiques de la Caisse nationale des Monuments historiques (Médiathèque du patrimoine et de l’architecture), collections photographiques de la Société de Géographie (Bibliothèque de la Société de Géographie).

Nombre de documents numérisés :

Par son ampleur et sa dimension multimédia, cette collection, avec ses outils de consultation, inscrit la Bibliothèque nationale de France au tout premier rang des réservoirs numériques disponibles dans le monde.

Format des documents fournis : TIFF, PDF, mode texte, MP

Type de recherche : Navigation par parcours thématiques (thèmes, chronologies, iconographie/monnaies, dictionnaire, ouvrages en mode texte) ou moteur de recherche (par mots du titre, par auteur, par sujet, ou "recherche libre" dans les notices, les œuvres en mode texte et les tables des matières).

Adresse : http://www.revues.org/

Institution : Association à but non lucratif

Description : Revues.org est une fédération de revues scientifiques SHS. Les revues peuvent ainsi se rassembler au sein d’un espace identifié bénéficiant d’un référencement de qualité et d’un appui technique précieux. Revues.org, c’est aussi Calenda (agenda des sciences sociales), Vlib Histoire (annuaire raisonné et selectif de liens dans le domaine de l’histoire), Aleph (moteur de recherche spécialisé en SHS).

Supports numérisés : Revues spécialisées en SHS, principalement francophones

Nombre de documents numérisés : 8 revues

Format des documents fournis : HTML principalement

Type de recherche : Moteur de recherche par revue ou sur l’ensemble des revues

http://www.text-e.org/
Le site du colloque virtuel, Text-e de la bibliothèque du centre Pompidou, sur le thème “Écrans et réseaux : vers une transformation du rapport à l’écrit ?” : il s’agit du premier colloque entièrement virtuel consacré à explorer l’impact de l’Internet sur la lecture, l’écriture et la diffusion du savoir. Le colloque s’est déroulé du 15 octobre 2001 jusqu’à fin mars 2002. Ce site est le témoignage de cette expérience intéressante dans le fond (réflexions sur l’écriture électronique) comme dans la forme (premier colloque entièrement virtuel).

http://www.culture.fr/culture/actualites/index-rapports.htm
La diffusion numérique du patrimoine, dimension de la politique culturelle, rapport de Bruno Ory-Lavollée à la ministre de la culture et de la communication, janvier 2002.
Au format PDF :

http://www.culture.fr/culture/actualites/rapports/ory-lavollee/ory-lavollee.pdf

Sur le site Revues.org, deux articles de Marin Dacos :

http://www.revues.org/cahiers-histoire/1-1999/02-1-1999b.html  
“Le numérique au secours du papier. L’avenir de l’information scientifique des historiens à l’heure des réseaux” (1999).

http://www.revues.org/ruralia/04-1999/08-04-1999b.html

“Prestige du papier et avenir du numérique. Recherches ruralistes et édition électronique en 1999”.

http://revues.enssib.fr/
Guide pour les revues numériques de l’ENSSIB. L’objectif de ce site est de fournir un ensemble de repères utiles, relevant de dimensions technique, économique, juridique et sociale, pour répondre aux questions que doit se poser tout éditeur, qu’il envisage la mise en ligne d’une revue papier ou la création d’une nouvelle revue numérique. Le site concerne tout éditeur (professionnel, universitaire) de revue numérique, qu’il soit débutant ou expérimenté dans le support papier.

http://www.pner.org/index.asp?choix=3-2
Les études du PNER, en ligne (sur la page du PNER, cliquer sur le lien “Études”). Les plus récentes sont téléchargeables au format RTF.

Pour citer cet article :

Carroll, Éric ; Ginouvès, Véronique ; Peyssard, Jean-Christophe ; Zubillaga Mayalen. "L’exploitation des données numériques". Imageson.org, 10 mars 2005 [En ligne]
http://www.imageson.org/document654.html
N'oubliez pas d'indiquer á la suite de cette référence la date de votre consultation de la ressource en ligne.