- Indexer
-
Indexation
Sommaire
En gestion documentaire
En bibliographie
L'indexation d'un texte consiste à repérer dans celui-ci certains mots ou expressions particulièrement significatifs (appelés termes) dans un contexte donné, et à créer un lien entre ces termes et le texte original. Par exemple, les pages d'index d'un livre reprennent (parfois) les termes significatifs apparaissant dans le livre, et les relient aux pages du livre où ces termes (ou leurs synonymes) apparaissent. Ceci facilite pour le lecteur la localisation des pages ou sections où l'on mentionne un sujet particulier. De même, la table des matières d'un livre est une forme (assez grossière) d'indexation.
Pour donner un exemple concret, cette page-même de Wikipedia est indexée par le terme « Indexation », ce qui vous a sans doute permis de la trouver sans lire auparavant toutes les pages de « A » à « I ».
D'autre part, on peut indexer des objets qui ne soient pas nécessairement du texte : un catalogue de musée indexe les objets du musée, et pourrait comprendre un index de termes reliés à ces objets.
Indexation automatique
L'indexation peut être manuelle (faite par un humain), ou automatique. La méthode souvent la plus efficace pour l'utilisation de fichiers séquentiels est l'indexation (elle est également utilisable pour les autres types de données, stockées en mémoire). Les composantes sont stockées dans le fichier dans l'ordre de leur création. On utilise alors un tableau d'index, donnant en première position le numéro de la première composante, puis de la seconde,... L'avantage de cette méthode est que l'ajout de composantes est optimal : on rajoute la valeur en fin de fichier, on met à jour le tableau d'index. Tout déplacement d'une composante sera donc remplacé par une modification du tableau d'index, sans déplacement réel de la valeur dans le fichier. En général, ce tableau peut tenir en mémoire, ce qui permet une modification rapide, en général on préfère le sauver également sur support magnétique avant de quitter le programme, ce qui évitera de le recréer (par exemple refaire un tri) à la prochaine utilisation. On peut également utiliser une liste d'index si les déplacements sont fréquents (mais alors l'accès devient séquentiel). Le second avantage de cette méthode est que l'on peut utiliser simultanément plusieurs index : par exemple pour une liste de personnes, on peut créer un index pour le classement alphabétique des noms, un autre sur les villes, on accédera donc plus rapidement à tous les champs indexés, alors que les champs non indexés devront se satisfaire d'une recherche séquentielle, et ce sans modification dans le fichier (un tri par nom puis par ville auraient été nécessaires sans indexation). Par contre toute modification nécessitera la mise à jour de tous les tableaux d'index. La suppression, par contre, pose problème. En général, toujours pour éviter les décalages dans les fichiers, on préfère marquer d'un signe distinctif les champs supprimés (par exemple un nom non alphabétique ou vide), puis remettre à jour les index qui ne pointeront plus sur ce champ. Le retassage, assez long, n'est effectuée que sur ordre de l'utilisateur ou lorsqu'il quitte le programme. On peut aussi (comme dans la méthode du super-tableau) créer une liste des champs vides, ce qui permettra d'y accéder, plus rapidement que par une recherche séquentielle, lors de la prochaine insertion.
Sur un fichier indexé, on peut à nouveau se permettre des algorithmes utilisant l'insertion, puisque celle-ci n'affecte que l'index (à accès rapide). Pour un tri par exemple, on pourra utiliser le tri par insertion, à condition d'optimiser la recherche de la position d'insertion (par dichotomie pondérée par exemple), puisque celle-ci nécessite des lectures de champs dans le fichier alors que l'insertion n'entraîne que des décalages dans un tableau, d'une durée généralement négligeable devant le temps pris par la recherche. On peut également utiliser une liste d'index plutôt qu'un tableau si nécessaire. (créée par un programme informatique), ou à divers degrés intermédiaires « assistée » ou semi-automatique (par exemple créée par un humain assisté d'un programme proposant des termes). L'indexation manuelle d'informations est généralement coûteuse : pour indexer correctement un texte scientifique d'un certain niveau, il faut faire intervenir des personnes qui soient elles-mêmes capables de comprendre le contenu du texte, ce qui impose un coût non négligeable.
Bien que l'indexation se base sur des techniques relativement établies, il peut y avoir plusieurs indexations différentes d'un même texte, aussi valables les unes que les autres, en fonction de l'usage qui doit en être fait et du public auquel elles s'adressent. À titre d'exemple, imaginez un texte qui soit une description de jardins choisis en Angleterre ; son indexation sera très différente selon que le public sera constitué de jardiniers, de touristes, ou de géomètres.
Importance de l'indexation des documents électroniques
Un des grands problèmes, dans l'économie de l'immatériel, est la croissance exponentielle de la quantité d'information brute, sans que pour autant il existe de procédés vraiment correspondants pour permettre une indexation correcte de cette information qui permettrait d'en tirer le meilleur parti.
Termes associés : indexer, index, thesaurus, mot-clé, sommaire, synonyme
En économie et finance
L'indexation est l'ajustement d'une valeur sur un indice (indice d'inflation, indice boursier) ou un taux de référence. En finance, cette technique est aussi appelée gestion passive dont le but est de répliquer la performance d'un indice de référence sur une certaine période en assurant une déviation minimale à l'aide d'outils d'optimisation ou de réplication.
Voir aussi
- Gestion électronique des documents
- Moteur de recherche
- Robot d'indexation
- Spamdexing
- Webographie
- métadonnée
- Portail des sciences de l’information et des bibliothèques
- Portail de l’informatique
Catégories : Sciences de l'information et des bibliothèques | Recherche d'information
Wikimedia Foundation. 2010.