Sac de mots

Sac de mots: La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information.

Sommaire

1 Principe général

1.1 Cas des textes

1.2 Cas des images

2 Notes et références

3 Voir aussi

3.1 Bibliographie

3.2 Articles connexes

3.3 Liens externes

Principe général

On considère que le monde peut être décrit au moyen d'un dictionnaire (de «mots»). Un document particulier est alors représenté par l'histogramme des occurrences des mots le composant. Il s'agit donc d'un vecteur de la même taille que le dictionnaire, dont la composante i indique le nombre d'occurrences du i-ème mot du dictionnaire dans le document.

La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.

Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières:

ramené à une norme unitaire en divisant chaque composante par la norme (à choisir...) du vecteur

binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire

pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un modèle vectoriel ou un modèle probabiliste de pertinence

Cas des textes

Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est assez courant de définir une liste de rejet (stop words) de mots à ne pas considérer, tels les pronoms, les articles, etc...

Cas des images

Pour les images, le dictionnaire est généralement composé de caractéristiques locales. On parle alors de sac de mots visuels (ou bag of visterms).

Ce modèle a été proposé en 2003 pour effectuer des recherches dans des grands corpus vidéo^[1].

Notes et références

↑ J. Sivic and A. Zisserman. Video Google : A text retrieval approach to object matching in videos. In Proceedings of the International Conference on Computer Vision, pages 1470–1477, 2003.

Voir aussi

Bibliographie

(en) Gerard Salton, M.J. McGill, Introduction to modern information retrieval, 1983 [détail des éditions]

Articles connexes

modèle vectoriel

modèle probabiliste de pertinence

Liens externes

Portail de l’imagerie numérique

Catégories :
Recherche d'information
Vision artificielle
Traitement automatique du langage naturel

Contenu soumis à la licence CC-BY-SA. Source : Article Sac de mots de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Mots Les Plus Longs En Français — Le mot le plus long en français, si l on considère les dictionnaires usuels, est anticonstitutionnellement avec 25 lettres. On peut toutefois trouver des mots plus longs si on considère les formes conjuguées ou les champs lexicaux spécialisés. Le … Wikipédia en Français
Mots les plus longs en francais — Mots les plus longs en français Le mot le plus long en français, si l on considère les dictionnaires usuels, est anticonstitutionnellement avec 25 lettres. On peut toutefois trouver des mots plus longs si on considère les formes conjuguées ou les … Wikipédia en Français
SAC — s. m. Sorte de poche faite de cuir, de toile, ou d étoffe, que l on coud par le bas et par les côtés, laissant seulement le haut ouvert pour mettre dedans ce qu on veut. Grand sac. Petit sac. Un sac tout neuf. Un vieux sac. Un sac rapetassé. Un… … Dictionnaire de l'Academie Francaise, 7eme edition (1835)
SAC — n. m. Sorte de poche faite de cuir, de toile ou d’étoffe, ouverte seulement par le haut et qui sert à mettre toutes sortes de choses. Un sac tout neuf. Un vieux sac. Sac de toile, de treillis, de crin. L’entrée du sac. Le fond d’un sac. Sac de… … Dictionnaire de l'Academie Francaise, 8eme edition (1935)
Mots d'emprunt — Emprunt lexical En linguistique, et plus particulièrement en étymologie, lexicologie et linguistique comparée, on nomme emprunt lexical (ou, plus souvent, emprunt) le processus consistant, pour une langue, à introduire dans son lexique un terme… … Wikipédia en Français
Mots empruntés — Emprunt lexical En linguistique, et plus particulièrement en étymologie, lexicologie et linguistique comparée, on nomme emprunt lexical (ou, plus souvent, emprunt) le processus consistant, pour une langue, à introduire dans son lexique un terme… … Wikipédia en Français
Mots les plus longs en français — Le mot le plus long en français, si l on considère les dictionnaires usuels, est anticonstitutionnellement avec 25 lettres. On peut toutefois trouver des mots plus longs si l on considère les formes conjuguées ou les champs lexicaux spécialisés.… … Wikipédia en Français
Mots et expressions de Toulouse — Liste de mots et expressions du Sud Ouest Les mots et expressions du Sud Ouest sont en grande partie issus de l occitan. Les expressions sont souvent utilisées dans le langage commun. Aussi, beaucoup de personnes nouvellement arrivées dans la… … Wikipédia en Français
Mots et expressions toulousains — Liste de mots et expressions du Sud Ouest Les mots et expressions du Sud Ouest sont en grande partie issus de l occitan. Les expressions sont souvent utilisées dans le langage commun. Aussi, beaucoup de personnes nouvellement arrivées dans la… … Wikipédia en Français
Mots japonais d'origine néerlandaise — Peinture japonaise de Néerlandais practiquant l astronomie à Dejima en utilisant un teresukoppu (télescope). Les mots japonais d origine néerlandais ont commencé à se développer quand la Compagnie néerlandaise des Indes orientales à ouvert un… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Sac de mots

Sommaire

Principe général

Cas des textes

Cas des images

Notes et références

Voir aussi

Bibliographie

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Sac de mots

Sommaire

Principe général

Cas des textes

Cas des images

Notes et références

Voir aussi

Bibliographie

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link