Similarite cosinus

Similarité cosinus

La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à $n$ dimensions en déterminant l'angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes.

Soit deux vecteurs $A$ et $B$ , l'angle $θ$ s'obtient par le produit scalaire et la norme des vecteurs :

$\theta = \arccos \frac{A \cdot B}{\|A\|\cdot\|B\|}$ .

Comme l'angle $θ$ est compris dans l'intervalle $[0,π]$ , la valeur $π$ indiquera des vecteurs résolument opposés, $π / 2$ des vecteurs indépendants (orthogonaux) et 0 des vecteurs colinéaires. Les valeurs intermédiaires permettent d'évaluer le degré de similarité.

Dans le cas d'une comparaison de documents textuels

La similarité cosinus est fréquemment utilisée en tant que mesure de ressemblance entre deux documents. Il pourra s'agir de comparer les textes issus d'un corpus dans une optique de classification (regrouper tous les documents relatifs à une thématique particulière), ou de recherche d'information (dans ce cas l'un des documents vectorisé est constitué par les mots de la requête, et est comparés par mesure de cosinus de l'angle avec des vecteurs correspondants à tous les documents présents dans le corpus. On évalue ainsi lesquels sont les plus proches).

La mesure d'angle entre deux vecteurs ne pouvant être réalisée qu'avec des valeurs numériques, il faut imaginer un moyen de convertir les mots d'un document en nombres. On partira d'un index correspondant aux mots présents dans le documents puis on attribuera à ces mots des valeurs. La forme la plus simple pourrait être de compter le nombre d'occurrences des mots dans les documents.

En règle générale, pour mesurer finement la similarité entre des séquences de texte, les vecteurs sont construit d'après un calcul de type TF-IDF (term frequency–inverse document frequency) qui permet d'estimer l'importance d'un mot par rapport au document qui le contient, en tenant compte du poids de ce mot dans le corpus complet.

Indice de Tanimoto

L'indice de Tanimoto reprend cette idée dans le cas des attributs binaires. Il se définit comme suit :

$T(A,B) = \frac{A \cdot B}{\|A\|^2 +\|B\|^2 - A \cdot B}$ .

Voir aussi

Indice et distance de Jaccard

Portail des probabilités et des statistiques

Ce document provient de « Similarit%C3%A9 cosinus ».

Catégories : Traitement automatique du langage naturel | Analyse des données

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Similarite cosinus de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Similarité cosinus — La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes. Soit deux vecteurs A et B, l angle θ s… … Wikipédia en Français
Similarité cosine — Similarité cosinus La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes. Soit deux vecteurs A… … Wikipédia en Français
Cosinus — Fonction trigonométrique Pour les articles homonymes, voir Cosinus (homonymie), Tangente et Sinus. Toutes les valeurs des fonctions trigonométriques en u … Wikipédia en Français
Fonction cosinus — Fonction trigonométrique Pour les articles homonymes, voir Cosinus (homonymie), Tangente et Sinus. Toutes les valeurs des fonctions trigonométriques en u … Wikipédia en Français
Indice de Tanimoto — Similarité cosinus La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes. Soit deux vecteurs A… … Wikipédia en Français
Tanimoto — Similarité cosinus La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes. Soit deux vecteurs A… … Wikipédia en Français
Modèle vectoriel — Un modèle vectoriel (parfois nommé sémantique vectorielle) est une méthode algébrique de représentation d un document visant à rendre compte de sémantique. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français
Arcsin — Fonction trigonométrique Pour les articles homonymes, voir Cosinus (homonymie), Tangente et Sinus. Toutes les valeurs des fonctions trigonométriques en u … Wikipédia en Français
Arcsinus — Fonction trigonométrique Pour les articles homonymes, voir Cosinus (homonymie), Tangente et Sinus. Toutes les valeurs des fonctions trigonométriques en u … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Similarite cosinus

Similarité cosinus

Dans le cas d'une comparaison de documents textuels

Indice de Tanimoto

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Similarite cosinus

Similarité cosinus

Dans le cas d'une comparaison de documents textuels

Indice de Tanimoto

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link