Indexation Automatique

Indexation Automatique

Indexation automatique

L'indexation automatique est un domaine de l'informatique et des Sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour établir un index pour un ensemble de documents et faciliter l'accès ultérieur aux documents et à leur contenu.

Un index est en toute généralité, une liste de descripteurs à chacun desquels est associée une liste des documents et/ou passages de documents auxquels ce descripteur renvoie. Ce renvoi peut être pondéré. Lors de la recherche d'information d'un usager, le système rapprochera la demande de l'index pour établir une liste de réponses.

Un index très simple à établir automatiquement est la liste ordonnée de tous les mots apparaissant dans les documents avec la localisation exacte de chacune de leurs occurrences ; mais un tel index est volumineux et surtout peu exploitable.

L'indexation automatique tend donc plutôt à rechercher les mots qui correspondent au mieux au contenu informationnel d'un document. On admet généralement qu'un mot qui apparaît souvent dans un texte représente un concept important. Ainsi, la première approche consiste à déterminer les mots représentatifs par leur fréquence. Cependant, on s'aperçoit que les mots les plus fréquents sont des mots fonctionnels (ou mots outils, mots vides). En français, les mots "de", "un", "les", etc. sont les plus fréquents. En anglais, ce sont "of", "the", etc.

Il est évident que l’on ne peut pas garder ces mots à haute fréquence mais peu porteur de sens en terme. C’est pourquoi on introduit dans les moteurs de recherche des opérations de filtrage de ces mots. Ces listes de mots sont appelées anti-lexiques ou plus fréquemment stoplist[1].

Une autre opération est ensuite couramment appliquée lors de l'indexation. Elle consiste à effacer les terminaisons (flexions de nombre, genre, conjugaison, déclinaison) afin de retrouver les racines des mots. Cette opération est appelée stemming (une autre solution voisine appelée lemmatisation conduit globalement au même résultat). Ce procédé permet de relever les fréquences en cumulant les nombres d'occurrence des variations des mêmes mots.

Chaque unité documentaire (chaque document ou chaque passage de document) peut alors faire l'objet d'une représentation vectorielle : les coordonnées représentent les fréquences des mots non vides. Lorsque l'on effectue cette opération pour un corpus de documents ou de pages web on obtient une matrice dont les colonnes représentent un document et les coordonnées la fréquence des termes.

Les moteurs de recherche de première génération s'appuient sur des formules de pondération, généralement pour affecter un poids élevé aux termes non-distribués uniformément au sein du corpus. Il existe un grand nombre de formules de pondération dont le but et de distribuer le poids pour contribuer à la différentiation informationnelle des documents. Certaines formules de pondération harmonisent les poids en fonction de la longueur des documents où la fréquence des termes est globalement plus élevée, d'autres formules s'appuient sur la fréquence maximale des termes afin de concilier l'aspect multi-thématique d'un document avec des documents mono thématiques. Les formules de pondération les plus connues sont TF-IDF[2] (term frequency . inverse document frequency).

Les moteurs de seconde génération s'appuient non seulement sur la fréquence des termes pour indexer les pages web mais aussi sur la popularité des sources. En naviguant de lien en lien, les robots indexent les termes utilisés par une page web pour décrire une autre page web. À chaque fois qu'un utilisateur suit ce lien, il "vote" la pertinence des descripteurs utilisés. Le page-ranking est ensuite calculé selon la popularité des descripteurs et un coefficient de similarité issu de la modélisation vectorielle.

Notes et références

  1. C. J. Van Rijsbergen, Information Retrieval, Butterworth-Heinemann, Newton, MA, 1979
  2. Salton, G. and McGill, M. J. 1983 Introduction to modern information retrieval. McGraw-Hill, (ISBN 0070544840).
  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Indexation automatique ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Indexation Automatique de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

  • Indexation automatique — Pour les articles homonymes, voir Indexation. L’ indexation automatique est un domaine de l informatique et des Sciences de l information et des bibliothèques qui utilise des méthodes logicielles pour établir un index pour un ensemble de… …   Wikipédia en Français

  • INDEXATION — L’indexation consiste à identifier dans un document certains éléments significatifs qui serviront de clé pour retrouver ce document au sein d’une collection. Ces éléments comprennent le nom de l’auteur, le titre de l’ouvrage, le nom de l’éditeur …   Encyclopédie Universelle

  • Indexation matière — Pour les articles homonymes, voir Indexation. L indexation matière est une étape de la chaîne documentaire qui consiste à identifier et à exprimer le contenu intellectuel (le sujet) d un document. Exprimé selon les règles du langage documentaire… …   Wikipédia en Français

  • Indexation — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Indexation », sur le Wiktionnaire (dictionnaire universel) Le mot « indexation » peut faire… …   Wikipédia en Français

  • Lecture automatique de document — La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires… …   Wikipédia en Français

  • Detection automatique des publicites televisees — Détection automatique des publicités télévisées La détection automatique des publicités télévisées est un ensemble de techniques informatiques qui permettent de détecter automatiquement les publicités dans un flux vidéo de télévision. C est une… …   Wikipédia en Français

  • Détection Automatique Des Publicités Télévisées — La détection automatique des publicités télévisées est un ensemble de techniques informatiques qui permettent de détecter automatiquement les publicités dans un flux vidéo de télévision. C est une problématique qui est encore largement du domaine …   Wikipédia en Français

  • Détection automatique des publicités télévisées — La détection automatique des publicités télévisées est un ensemble de techniques informatiques qui permettent de détecter automatiquement les publicités dans un flux vidéo de télévision. C est une problématique qui est encore largement du domaine …   Wikipédia en Français

  • Apprentissage Automatique — L apprentissage automatique (machine learning en anglais) est un des champs d étude de l intelligence artificielle. L apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une… …   Wikipédia en Français

  • Apprentissage automatique — L apprentissage automatique (machine learning en anglais), un des champs d étude de l intelligence artificielle, est la discipline scientifique concernée par le développement, l analyse et l implémentation de méthodes automatisables qui… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”