Sémantique vectorielle

Sémantique vectorielle: Modèle vectoriel

Un modèle vectoriel (parfois nommé sémantique vectorielle) est une technique de représentation de la sémantique d'un document. Elle est utilisée en recherche d'information, notamment pour la recherche documentaire, la classification ou le filtrage de données textuelles. Le premier exemple d'emploi de ce modèle est le système SMART.

Sommaire

1 Problématique

2 Applications

3 Exemples de pondérations

4 Voir aussi

5 Bibliographie

Problématique

Le modèle vectoriel répond au problème de la représentation mathématique du contexte d'un document.

On commence par choisir un ensemble de termes d'indexation (typiquement des mots porteurs de sens sémantique: noms communs, noms propres, adjectifs; éventuellement des constructions plus élaborées comme des expressions ou des entités sémantiques) qui constituera le vocabulaire. À chaque élément du vocabulaire est associé un index unique arbitraire.

À chaque échantillon de texte, on associe ensuite un vecteur v, dont la dimension correspond à la taille du vocabulaire. Chaque élément v_i du vecteur v consiste en un poids associé au terme d'indice i et à l'échantillon de texte (par exemple, on pourrait simplement identifier v_i au nombre d'occurrences du terme i dans l'échantillon de texte).

Applications

Étant donnée une représentation vectorielle d'un corps de documents, on peut introduire une notion d'espace vectoriel sur l'espace des documents en langage naturel. On en arrive à la notion mathématique de proximité entre documents.

En introduisant des mesures de similarité adaptées, on peut quantifier la proximité sémantique entre différents documents. Les mesures de similarité sont choisies en fonction de l'application (une mesure très utilisée est la similarité cosinus, qui consiste simplement à quantifier la similarité entre deux documents en calculant le cosinus entre leurs vecteurs. Cette mesure n'est pas sensible à la norme des vecteurs, donc insensible à la longueur des documents).

Parmi les applications concrètes, citons

la catégorisation : regrouper automatiquement des documents dans des catégories pré-définies

la classification : étant donné un ensemble de documents, déterminer automatiquement les catégories qui permettront de séparer les documents de la meilleure façon possible

la recherche documentaire : trouver les documents qui répondent le mieux à une requête (ce que fait un moteur de recherche) ; la requête de l'utilisateur est considérée comme un document, traduite en vecteur, et comparée aux vecteurs contenus dans le corpus des documents indexés.

Le filtrage : classer à la volée des documents dans des catégories pré-définies (par exemple, identifier un spam sur la base d'un nombre suspect d'occurrence du mot "pénis" dans un mail et l'envoyer automatiquement à la corbeille).

Exemples de pondérations

TF-IDF

Voir aussi

Sémantique distributionelle

Bibliographie

(en) Gerard Salton, M.J. McGill, Introduction to modern information retrieval, 1983 [détail des éditions]

Ce document provient de « Mod%C3%A8le vectoriel ».

Catégorie : Traitement automatique du langage naturel

Contenu soumis à la licence CC-BY-SA. Source : Article Sémantique vectorielle de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Analyse sémantique latente — L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la… … Wikipédia en Français
Analyse Sémantique Latente — L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la… … Wikipédia en Français
Analyse semantique latente — Analyse sémantique latente L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues… … Wikipédia en Français
Latent Semantic Analysis — Analyse sémantique latente L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues… … Wikipédia en Français
Modèle vectoriel — Un modèle vectoriel (parfois nommé sémantique vectorielle) est une méthode algébrique de représentation d un document visant à rendre compte de sémantique. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la … Wikipédia en Français
Modele vectoriel — Modèle vectoriel Un modèle vectoriel (parfois nommé sémantique vectorielle) est une technique de représentation de la sémantique d un document. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la… … Wikipédia en Français
Modèle Vectoriel — Un modèle vectoriel (parfois nommé sémantique vectorielle) est une technique de représentation de la sémantique d un document. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la classification ou le… … Wikipédia en Français
Decomposition en valeurs singulieres — Décomposition en valeurs singulières En mathématiques, le procédé d algèbre linéaire de décomposition en valeurs singulières (ou SVD, de l anglais : Singular Value Decomposition) d une matrice est un outil important de factorisation des… … Wikipédia en Français
Décomposition En Valeurs Singulières — En mathématiques, le procédé d algèbre linéaire de décomposition en valeurs singulières (ou SVD, de l anglais : Singular Value Decomposition) d une matrice est un outil important de factorisation des matrices rectangulaires réelles ou… … Wikipédia en Français
Décomposition en valeurs singulières — En mathématiques, le procédé d algèbre linéaire de décomposition en valeurs singulières (ou SVD, de l anglais : Singular Value Decomposition) d une matrice est un outil important de factorisation des matrices rectangulaires réelles ou… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Sémantique vectorielle

Modèle vectoriel

Sommaire

Problématique

Applications

Exemples de pondérations

Voir aussi

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Sémantique vectorielle

Modèle vectoriel

Sommaire

Problématique

Applications

Exemples de pondérations

Voir aussi

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link