23e congrès et colloque de l'ASTED 1er novembre 1996

Le traitement de l'image en environnement numérique

James M. Turner Professeur adjoint École de bibliothéconomie et des sciences de l'information Université de Montréal téléphone +1 514 343 2454 télécopie +1 514 343 5753 turner@ere.umontreal.ca http://tornade.ere.umontreal.ca/~turner

Ligne de séparation

Sommaire

Introduction
Mettons les choses en pespective
Profil des collections
Schéma de discussion
Organisation des collections
Le repérage par matières des documents visuels photographiques
Le lien inévitable entre texte et image
Le «problème du vocabulaire»
Le coeur du problème du vocabulaire
Niveaux d’interprétation
L’emploi de ces niveaux pour l’indexation
Points d’accès particuliers aux collections d’images
Conclusions
Références

Ligne de séparation

Introduction

La question de l'iconographie, ou la description, la classification et l'interprétation du sujet des oeuvres d'art date d'au plus tard 1570 (De Picturis et Imaginibus Sacris de Johannes Molanus), selon Ohlgren (1981, 73).
Pourtant, le «contrôle intellectuel» des documents visuels est inadéquat.
Il est intéressant de noter que le «contrôle intellectuel» des livres n'est guère mieux (Hancock 1987, 304; Williamson 1985, 29-30).

Ligne de séparation

Mettons les choses en perspective

Ce n'est qu'environ 400 ans après Gutenberg que l'accès par sujet aux livres commence à prendre de l'importance. Vers la fin du dernier siècle, des schémas de classification furent développés en Amérique par Poole, Cutter, et Dewey;
Bien que des collections d'art existent depuis longtemps, les collections de films ne commencent qu'au vingtième siècle;
Les collections vidéo ne commencent que dans les années 1960;
La masse documentaire photographique (i.e. photographie, cinéma, vidéo) s'est accumulée rapidement, et surtout depuis la deuxième guerre mondiale.

Ligne de séparation

Profil des collections

Aujourd'hui, beaucoup de collections visuelles sont caractérisées par une masse importante de documentation et un taux de croissance rapide.
Malheureusement, l'accès par sujet à cette documentation n'est pas facile. Souvent la recherche documentaire s'appuie fortement sur les connaissances des employés dans un dépôt d'images.
Aujourd'hui, les «bases de données» prennent leur retraite.
Il y a plusieurs types de collections de documents visuels. Quelques exemples : les images artistiques et chirographiques (les tableaux, les estampes, les illustrations, etc.) ; les photos (historiques, «stock», de police, médicales, rayons-X dentaires, d'assurances, la documentation photographique en conservation d'objets, photos de familles et autres photos de nature personnelle, la photo en tant qu'art (par ex. Cartier-Bresson, Mapplethorpe), cartes postales, etc.) ; les films (de fiction, les documentaires, les films d'art, les films fixes, les films de formation industrielle, etc.) ; de télévision et de vidéo (archive d'émissions diffusées, copies vidéo de films, vidéo pour la formation, les nouvelles et l'actualité, etc.) ; images générées par ordinateur (création infographiques, animation, effets spéciaux, topos pour la télé, fonds d'écran pour produits multimédia, photos numériques, etc.).
Cette classification n’est guère rigoureuse ; c’est la nature de la chose. Des situations telles que copies d’un médium à un autre, la convergence de technologies, le recyclage des images, et ainsi de suite, font que la classification des types de collections est forcément arbitraire.
Dans beaucoup de situations ayant rapport à ce genre de documentation, on ne peut pas distinguer facilement les fonctions d’indexation des fonctions de catalogage.
Typiquement, des techniques ad hoc sont employées dans le design de systèmes de stockage et de récupération de l'information (métadonnées) reliée à cette documentation.

Ligne de séparation

Schéma de discussion

Les documents visuels par rapport à la bibliothéconomie et l'archivistique (une classification arbitraire) :

NB: pour fins de repérage dans des documents textuels, on ne s'occupe pas du document à son état de manuscrit. Par contre, la catégorie «Éléments de produits potentiels» est probablement le plus grand centre d'activité pour l'indexation des images en mouvement en archivistique;
On cherche des images afin de créer des documents, alors qu'on ne s'adresse pas à une base de données de mots pour rédiger un texte (bien qu'on consulte des dictionnaires, etc.);
Le fait qu'il n'y ait pas d'alphabet indique donc une différence fondamentale dans la problématique de l'indexation entre le texte et les images.

Ligne de séparation

Organisation des collections

Aujourd'hui, et surtout à cause de la communication en réseau, on sent le besoin de normaliser les méthodes, afin de permettre des recherches entre les divers systèmes.

Le catalogage:

Un livre a une forme très structurée, un périodique aussi. Par contre, une image peut avoir beaucoup de formes différentes (par ex. photo encadrée, illustration dans une revue, objet multimédia, etc. ; aussi, divers formats et dimensions).
En tant qu’objet d’information, un texte est plutôt autonome, alors qu’une image a le potentiel de jouer beaucoup de rôles différents.
Certaines collections d’images (par ex. de cinéma, de tableaux de peinture) ressemblent plus aux collections de bibliothèques (c.à.d. qu’on catalogue l’objet comme on catalogue un livre). D’autres collections d’images (par ex. photos «stock», chutes de film et de vidéo, diathèques, projets de photo, histoire locale) ressemblent plus aux collections d’archives (on ne crée pas nécessairement une notice pour chaque image).

L’indexation :

Normalement on pense à l’accès par sujet, mais il faut penser autrement lorsqu’il s’agit d’images.
Voici pourquoi : il est souvent difficile d’identifier de façon non-équivoque le sujet d’une image. À cause de cela, d’autres chemins d’accès prennent plus d’importance qu’ils ne l’ont avec d’autres sortes de documents. Ainsi il faut mettre plus d’emphase sur l’organisation et le développement de ces chemins d’accès. On y reviendra un peu plus tard.

Questions reliées à l’environnement électronique :

Les nouvelles technologies nous obligent à revoir nos méthodes de travail.
Pour le texte, les méthodes d’indexation automatique s’améliorent constamment. Même dans les années 60, parfois les résultats obtenus étaient aussi bons que ceux obtenus avec des indexeurs humains.
Comme il n’y a pas d’alphabet qu’on peut employer pour la création d’images, les algorithmes pour manipuler le texte ne s’appliquent pas.
Pour encore longtemps, l’indexation (et donc le repérage) des images va dépendre entièrement des méta-données.
Malgré l’activité de recherche dans les domaines de la reconnaissance d’objets, la définition des fontières des objets, le sens qu’on peut attribuer aux arrangements spatiaux, la signification des couleurs, etc., le progrès est lent.
Obstacle important : La taille des fichiers (par ex. 36 Mo X 24 images/seconde = 864 Mo = presque 1 Go pour une seconde de vidéo!).
Autre obstacle important : l’affichage en temps réel des images en mouvement. Le repérage par matières des documents visuels photographiques (c.à.d. créés à partir d’un objectif)

Ligne de séparation

Le repérage par matières des documents visuels photographiques
(c.à.d. créés à partir d'un objectif)

L'ensemble des problèmes de repérage associés à ce genre de documentation se distingue de façon importante des problèmes associés aux livres, ou même à la peinture ou autres documents visuels chirographiques;
Les tableaux dans les collections ont habituellement un auteur et un titre, ou leurs équivalents;
Pour le chercheur dans une collection photographique, le photographe importe peu, sauf exception (par ex. photographies d'art);
Les collections photographiques ressemblent plus aux collections d'archives qu'aux collections de bibliothèques. Est-ce la peine de cataloguer chaque item?
Les modèles de représentation de l’image en mouvement doivent être beaucoup plus complexes que ceux employés pour représenter les livres (O’Connor 1985);
Bien qu'il y ait typiquement plusieurs avenues d'accès aux données relatives aux collections de photos, de films, et de vidéos, la recherche par matières est de loin la méthode la plus employée par les usagers;
Bien que les livres et les peintures soient classés par leur sujet d'ensemble («aboutness»), un niveau plus primaire («ofness») est plus utile et plus approprié pour l'indexation des photos «ordinaires» ou des chutes de film. Cependant, il y a lieu de revoir cette pratique à la lumière des nouvelles technologies;
Ainsi, les techniques d'indexation pour donner accès par matières aux collections d'images «ordinaires» ont rapport à l'assignation de noms aux objets ou aux événements proéminents dans l'image visuelle;
En principe, ceci devrait simplifier les choses, mais ce n'est pas le cas.

Ligne de séparation

Le lien inévitable entre texte et image

Les bibliothécaires d’aujourd’hui ont hérité d’un modèle textuel développé au cours des années. Comme ce modèle fonctionne assez bien, il était naturel d’essayer de le transférer à l’organisation des images.
Toutefois, la nature des images et les besoins des usagers d’images sont tellement différents que les méthodes employées pour organiser le texte ne s’appliquent que très mal à l’indexation des images.
Il vaut mieux partir de zéro pour repenser cette question que d’essayer d’adapter les méthodes à la réalité du texte.
Il faut construire des systèmes de stockage et repérage et des méthodes d’indexation en fonction des collections et leurs usagers, et non le contraire. Il faut mettre l’emphase sur le pied et non sur la chaussure.
On peut y voir une analogie à l’organisation de l’Internet : on n’essaie pas de forcer tous les usagers à utiliser le même ordinateur ; on ajoute plutôt une couche logicielle de traduction.
Parfois on prône des systèmes qui n'utiliseraient que de l'image pour en trouver d'autres images : par ex. on dessine un petit chien et le système nous trouve des images de chiens;
Ou encore : dans le système on repère une image utile, et ensuite on demande au système de nous en trouver d'autres semblables;
Toujours faudrait-il être capable de dessiner un chien qui a l'air d'un chien;

Il reste que le plus «naturel» c'est une requête en forme de mots : par ex., "je cherche des images de chiens" ;
L'idéal, c'est probablement la possibilité d'employer les deux approches (dictionnaire ou thésaurus visuel plus texte);
N.B. : En ce qui concerne les images fixes, la représentation textuelle est moins importante (O'Connor 1988, 208-209), bien que souvent nécessaire (Wright 1981, 131); en ce qui concerne les images en mouvement, la représentation textuelle est incontournable, essentielle (Turner 1994, 34-38);

Ligne de séparation

Le «problème du vocabulaire»

Des études de choix spontanés de mots pour désigner divers objets démontrent qu'une variété surprenante de mots est employée pour désigner une même chose (par ex. Furnas et al. 1987);

Pour expérimenter le problème:
Sur un morceau de papier, écrivez le nom que vous donneriez à un système informatique qui décrirait des activités d'intérêt dans un grand centre métropolitain. Par exemple, un tel système offrirait des suggestions d'activités de divertissement en ville, un samedi soir. Le nom du système doit être d'un maximum de 10 caractères.
Essayez de trouver un nom bien évident, auquel d'autres personnes penseraient aussi.
Comparez votre réponse à celle de votre voisin. Les réponses sont-elles identiques?
Furnas et al. ont demandé à plus de 2000 personnes de faire cet exercice, pour ensuite les mettre en paires de façon aléatoire. Seulement une dizaine de paires ont trouvé à s'accorder;
En utilisant ce modèle de recherche, on apprend que moins de 10 personnes sur 1000 (ou environ 1%) auraient pu accéder directement au logiciel si leur partenaire avait choisi le nom du logiciel.

Ligne de séparation

Le coeur du problème du vocabulaire

Au coeur du problème: la possibilité de plusieurs noms pour un objet. Chaque personne ne pense qu'à un nom ou qu'à quelques noms.
À cause de ça, on a tendance à surestimer nos choix, les trouvant évidents.
Les réponses de plusieurs personnes forment un bassin important de noms pour une même chose (par ex. 150 dans Turner 1994).
On finit quand même par surmonter le problème. Dans beaucoup d'études concernant la distribution de mots (par ex. Furnas et al., 1983), dans beaucoup de domaines et pour beaucoup de types de données, l'emploi de mots a tendance à ressembler à la distribution de Zipf, c.à.d. que peu de mots sont employés fréquemment, beaucoup de mots ne sont employés qu'une seule fois, et la plupart des cellules ont la valeur «zéro».
Probablement que les termes pour décrire des images «ordinaires» sont plus évidents que pour des noms de systèmes informatiques, de commandes dans un texteur, de fonctions d’employés, et ainsi de suite (Turner 1994).
Ainsi, on finit par extraire les termes utiles pour l'indexation. Il y a des indications qu'il serait relativement facile de dériver automatiquement des index pour l'image fixe et en mouvement, à partir de leurs représentations textuelles (Turner 1995);

Ligne de séparation

Niveaux d’interprétation

La recherche concernant les sens qu’on peut attribuer à une image fait appel au mod»le développé par Erwin Panofsky, lequel décrit trois niveaux d’interprétation : pré-iconographique, iconographique, et iconologique.
Les deux premiers correspondent au «ofness» et au «aboutness» qu’on trouve dans la littérature de la bibliothéconomie.
Le premier, de dénotation, a rapport aux personnes, aux objets, et aux événements qu’on voit dans l’image (Panofsky 1955, 27).
Le deuxième, de connotation, a rapport au sens qu’on peut attribuer aux actions, aux gestes. Il fait appel à une certaine acculturation.
Le troisième, d’interprétation des symboles, fait appel à des connaissances et de l’érudition, ainsi qu’à un bagage culturel substantiel. Sauf exception, on peut oublier ce niveau pour des fins d’indexation.
Quelques exceptions : personnages allégoriques, personnifications (La Justice, La Liberté), images avec du texte qui rend explicite le sens de l’artiste (van Straten 1990, 11-12).
On peut aussi penser aux concepts d’«ofness» et d’«aboutness» comme étant de l’indexation «dure» et l’indexation «molle» (Krause 1988).

Ligne de séparation

L’emploi de ces niveaux pour l’indexation

Markey (1981) constate que les collections d’art ne sont indexées qu’au deuxième niveau («aboutness»).
Certaines collections d’images «ordinaires» devraient être indexées au premier niveau seulement (Turner 1994, 165).
Théoriquement, les deux niveaux peuvent être utiles pour une recherche pour la même image par des usagers différents (Shatford 1986, 53) ou encore par le même usager à des moments différents.
La technologie informatique nous permet d’avoir les deux niveaux. On n’a plus besoin de choisir entre les deux. Est-ce souhaitable d’avoir les deux? Oui (de l’art) et non (des chutes).
Pour des images ordinaires on peut trouver les bons termes d’indexation assez facilement, mais il n’est pas si facile distinguer les niveaux.
Voici pourquoi : souvent le mot pour le concept est identique aux deux niveaux (par ex. on a une image d’un cheval. Au premier niveau on a affaire à un cheval, mais au deuxième aussi : le sujet peut être les chevaux, la vie sur la ferme, les cow-boys, les animaux au service de l’être humain).
Des systèmes de classification et d’autres vocabulaires contrôles qui sont théoriquement au deuxième niveau contiennent souvent des termes au premier niveau (Markey 1981, 25, 57, 65, 82-; van Straten 1990, 12)
Il paraît utile de séparer le vocabulaire en deux niveaux pour permettre deux champs de recherche dans une base de données et ainsi la formulation de questions de recherche plus précises. Cependant, la frontière entre les deux types est floue.
Pour les images «ordinaires» (c.à.d. qui ne sont pas de l’art) le deuxième niveau a souvent rapport à l’utilisation potentielle de l’image (Krause 1988, 73-74, 81). Par exemple, «cette image pourrait m’aider à exprimer le problème de la pollution urbaine».
Cependant, dans certains contextes l’indexeur doit éviter d’indexer au deuxième niveau. C’est à l’usager de poser des questions du premier niveau. Par exemple, les Archives nationales pourraient décider d’indexer des images de soldats sous la rubrique «La Guerre», mais c’est plutôt aux créateurs d’un produit visuel de décider comment ils désirent exprimer le concept.
Les ordinateurs peuvent gérer toute cette information pour nous, à condition que (1) nous structurons adéquatement nos bases de données et (2) nous investissons ce qu’il faut dans l’indexation.

Ligne de séparation

Points d’accès particuliers aux collections d’images

Général :

Ici on traite de vocabulaires contrôlés employés pour exprimer divers aspects de la documentation visuelle qu’on pourrait avoir à indexer. On parle de chemins d’accès particuliers aux collections d’images à cause de leur valeur pour le repérage. Ceci ne veut pas dire que ces chemins d’accès sont exclusifs aux collections d’images.
Comme règle générale, on voudrait construire des tables («lookup tables») qui seraient des modules d’une base de données. Ces tables pourraient contenir un système entier (par ex. les codes géographiques de la Classification décimale universelle) ou encore seulement les codes employés pour indexer des images qu’on possède. On peut trouver un exemple de structure de données pour les chutes de film dans Turner (1990, Annexes).
Il faut prendre le temps de construire une structure solide pour les données, laquelle répond aux besoins présents et futurs. Il faut éviter de la lier à la technologie, laquelle change constamment.
Un vieux dicton en informatique: Il n’y a jamais le temps de le faire comme il faut, mais on trouve toujours le temps de refaire le travail.

Les angles de caméra / d’appareil-photo :

L’angle duquel la caméra perçoit l’objet d’intérêt est souvent important pour l’usager (par ex. il me faut des images de Québec, mais vu d’un hélicoptère seulement. Ou encore : j’ai besoin d’une photo de Robert Bourassa, mais il faut que ce soit un plan rapproché).
Une terminologie normalisée est souhaitable (par ex. le Glossaire (1984) publié par l’Office national du film. Cependant, vous pouvez avoir des besoins particuliers. On peut modifier une liste existante ou encore faire sa propre liste.

Les couleurs :

Dans certains cas ce chemin d’accès peut être important, par ex. une collection d’objets de musée ou encore les archives d’un couturier.
On peut aussi employer la couleur pour exprimer l’émotion, par ex. «Il me faut une image avec du rouge-sang qui occupe presque tout le cadre».
Les ordinateurs peuvent déjà identifier des couleurs. Éventuellement, ils pourront aussi les associer à des objets de façon automatique.

Les périodes de temps :

Ce chemin d’accès est souvent critique. Par ex., «j’ai besoin de scènes de rue de Rome dans les années 40». Ou encore-: «il me faut des images de voitures, mais seulement des modèles très récents».
Les tables de la Classification décimale universelle (CDU) sont utiles pour ces fins. Par ex., 19=le 20e siècle, 194=les années 40, 1945=1945. Aussi, elles ont des codes pour les saisons, les heures de la journée, les temps de guerre et de paix, et ainsi de suite. Un avantage : on peut coder pour une fraction de seconde, mais aussi pour une période générale ou vague.
Pour les périodes de temps, le système pourrait avoir à tenir compte du temps réel (le moment où le matériel était tourné) et aussi du temps représenté dans l’image (par ex. un film tourné en 1996 mais qui a trait aux années 50).

Espaces géographiques :

Comme pour les périodes de temps, ce chemin d’accès est souvent critique. Par exemple, «il me faut des scènes de rue de Montréal dans les années 30» veut dire que seulement des plans de Montréal peuvent répondre à la question.
Encore une fois, les tables de la CDU sont tr»s utiles comme vocabulaire pour ces concepts. Par exemple, 7=Amérique du Nord, 71=le Canada, 713=l’Ontario, 713.541=Toronto, 713.549*M5V2S9=un édifice précis. On peut exprimer l’entité géographique de façon générale ou de façon précise.
Souvent, la géographie dépasse les frontières politiques. Dans les tables de la CDU : 23=des montagnes, 234=les montagnes de l’Europe, 234.2=les montagnes de la France et la Belgique, 234.24=le Massif central, 234.242=les montagnes de l’Auvergne.
D’autres vocabulaires contrôlés pour exprimer la réalité géographique sont disponibles, par ex. les sous-divisions géographiques des Vedettes-matière de la LC. Cependant, les avantages d’une classification pour ces fins sont évidents.

Autres points d’accès :

Expression de l’émotion : pas toujours utile, mais parfois très utile. L’indexation est difficile à cause de l’interpretation requise de la part de l’indexeur. Tout de même, là où les usagers en ont besoin, il vaut mieux offrir de l’accès imparfait que de ne pas offrir d’accès du tout.
Conditions d’éclairage : un usager particulier pourrait avoir besoin de plans de l’intérieur ou de l’extérieur seulement, ou encore avec peu de lumière ou beaucoup de lumière, beaucoup d’ombres ou pas d’ombres.
Textures : on peut exiger des plans un peu hors foyer, ou encore des images très nettes, ou encore avec beaucoup de grain, et ainsi de suite.
Autres conditions spéciales : plans pris en-dessous de la surface de l’eau, du métrage pris par des caméras détecteurs de chaleur, images sur film infra-rouge, images prises de l’espace, dans des conditions météorologiques particulières, des effets spéciaux, clips qui démontrent le «morphing», images altérées par ordinateur.

Ligne de séparation

Conclusions

Comme on a vu, il y a beaucoup d’aspects à considérer dans l’organisation de collections d’images. C’est tout un défi!
Il faut varier les approches à la resolution des problèmes selon le type de collection, son contenu, ses usagers.
Il est important de normaliser les méthodes, les structures de données, les vocabulaires contrôlés, les formats de fichiers le plus possible, afin de favoriser l’échange de données à travers des réseaux.
Cependant, il faut éviter de permettre que des normes obstruent le chemin vers la bonne gestion de l’information. Il faut adopter des méthodes optimales, des structures de données, des vocabulaires appropriés pour chaque situation.
Même si vous ne pouvez pas encore penser à numériser votre collection d’images, vous pouvez investir dans la création et l’organisation des méta-données, lesquelles sont nécessaires de toute façon pour gérer l’information visuelle.
Il est sage d’investir dans la structure de données la plus solide possible. La technologie se mettra au pas un peu plus tard.
Surtout, n’oubliez pas : c’est l’ordinateur qui doit être l’esclave de l’être humain, et non le contraire.

Ligne de séparation

Références

Furnas, G.W., T.K. Landauer, L.M. Gomez, and S.T. Dumais. 1983. Statistical semantics: analysis of the potential performance of key-word information systems. The Bell System Technical Journal 62:6 (July-August), 1753-1806.

Furnas, G.W., T.K. Landauer, L.M. Gomez, and S.T. Dumais. 1987. The vocabulary problem in human-system communication. Communications of the ACM 30:11 (November), 964-971.

Hancock, Micheline. 1987. Subject searching behaviour at the library catalogue and at the shelves: implications for online interactive catalogues. Journal of Documentation 43:4 (December), 303-321.

Krause, Michael G. 1988. Intellectual problems of indexing picture collections. Audiovisual Librarian 14, no. 4 (November): 73-81.

Markey, Karen. 1981. Computer-assisted construction of a guide to themes and concepts in medieval art and their essential attributes. PhD diss., Syracuse University.

National Film Board of Canada = Office national du film du Canada. Glossary = Glossaire. Research and Development = Recherche et développement. Montréal, 1984.

O'Connor, Brian C. 1985. Access to moving image documents: background concepts and proposals for surrogates for film and video works. Journal of Documentation 41:4 (December), 209-220.

O'Connor, Brian. 1988. Fostering creativity: enhancing the browsing environment. International Journal of Information Management 8: 203-210.

Ohlgren, Thomas. 1981. Subject indexing of art works. In Computerized inventory standards for works of art, ed. Raymond Vézina, 73-78. Montréal: Fidès.

Panofsky, Erwin. 1955. Meaning in the visual arts : papers in and on art history. Garden City, N.Y.: Doubleday Anchor Books.

Turner, James. 1990. Representing and accessing information in the stockshot database at the National Film Board of Canada. Canadian Journal of Information Science 15, no. 4 (December): 1-22.

Turner, James. 1994. Determining the subject content of still and moving image documents for storage and retrieval: an experimental investigation. PhD thesis, University of Toronto.

Turner, James, 1995. Comparing user-assigned terms with indexer-assigned terms for storage and retrieval of moving images. Actes du congrès de l'ASIS Chicago 1995. Disponible au http://tornade.ere.umontreal.ca/~turner/ASIS95.html.

van Straten, Roelof. 1990. Indexing Italian prints with ICONCLASS. Visual Resources 7, no.1: 1-21.

Williamson, Nancy J. 1985. Classification in online systems: research and the North American perspective. International Cataloguing 14:3 (July-September), 29-31.

Wright, Richard M. 1981. Arrangement and indexing. In Picture Librarianship, ed. Helen P. Harrison, 131-149. Phoenix, AZ: Oryx Press.

Ligne de séparation

Menu principal | Site de l'EBSI | Commentaires

Autre conférence