TF-IDF

Le TF-IDF (de l'anglais Term Frequency-Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d'un document en fonction des critères de recherche de l'utilisateur.

Introduction

La justification théorique de ce schéma de pondération repose sur l'observation empirique de la fréquence des mots dans un texte qui est donnée par la Loi de Zipf. Si une requête contient le terme T, un document a d'autant plus de chances d'y répondre qu'il contient ce terme : la fréquence du terme au sein du document (TF) est grande. Néanmoins, si le terme T est lui-même très fréquent au sein du corpus, c'est-à-dire qu'il est présent dans de nombreux documents (e.g. les articles définis - le, la, les), il est en fait peu discriminant. C'est pourquoi le schéma propose d'augmenter la pertinence d'un terme en fonction de sa rareté au sein du corpus (fréquence du terme dans le corpus IDF élevée). Ainsi, la présence d'un terme rare de la requête dans le contenu d'un document fait croître le « score » de ce dernier.

Définition formelle

Fréquence du terme

La fréquence d'un terme (term frequency) est le nombre d'occurrences de ce terme dans le document considéré, normalisée par la somme des nombres d'occurrences de tous les termes du document. Le nombre d'occurrence peut rendre compte de « l'importance » d'un terme dans un document. La normalisation du nombre d'occurrences d'un terme rend possible la comparaison de deux documents de longueurs différentes.

Soit le document $d j$ et le terme $t i$ , alors la fréquence du terme dans le document est :

$\mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}$

où $n i, j$ est le nombre d'occurrences du terme $t i$ dans $d j$ . Le dénominateur est le nombre d'occurrences de tous les termes dans le document $d j$ .

Fréquence inverse de document

La fréquence inverse de document (inverse document frequency) est une mesure de l'importance du terme dans l'ensemble du corpus. Dans le schéma TF-IDF, elle vise à donner un poids plus important aux termes les moins fréquents, considérés comme plus discriminants. Elle consiste à calculer le logarithme de l'inverse de la proportion de documents du corpus qui contiennent le terme :

$\mathrm{idf_i} = \log \frac{|D|}{|\{d_{j}: t_{i} \in d_{j}\}|}$

où

$|D|~$ : nombre total de documents dans le corpus
$|\{d_{j} : t_{i} \in d_{j}\}|$ : nombre de documents où le terme $t i$ apparaît (c'est-à-dire $n_{i,j} \neq 0$ ).

Calcul de tf-idf

Finalement, le poids s'obtient en multipliant les deux mesures :

$\mathrm{tfidf_{i,j}} = \mathrm{tf_{i,j}} \cdot \mathrm{idf_{i}}$

Exemple

Corpus (tiré d'œuvres de Friedrich Gottlieb Klopstock)^[1]
Document 1	Document 2	Document 3
Son nom est célébré par le bocage qui frémit, et par le ruisseau qui murmure, les vents l’emportent jusqu’à l’arc céleste, l’arc de grâce et de consolation que sa main tendit dans les nuages.	À peine distinguait-on deux buts à l’extrémité de la carrière : des chênes ombrageaient l’un, autour de l’autre des palmiers se dessinaient dans l’éclat du soir.	Ah ! le beau temps de mes travaux poétiques ! les beaux jours que j’ai passés près de toi ! Les premiers, inépuisables de joie, de paix et de liberté ; les derniers, empreints d’une mélancolie qui eut bien aussi ses charmes.

L'exemple porte sur le document 1 (soit $d 1$ ) et le terme analysé est « qui » (soit $t 1$ = qui). La ponctuation et l'apostrophe sont ignorées.

Calcul de tf

$\mathrm{tf_{1,1}} = \frac{n_{1,1}}{\sum_k n_{k,1}} = \frac{2}{38}$

Détails du calcul : la plupart des termes apparaissent une fois (21 termes), l apparaît 3 fois et arc, de, et, le, les, par et qui (2 fois). Le dénominateur est donc 3 + 7*2 + 21 = 38. Cette somme est le nombre de mots dans le document.

Calcul de idf

Le terme « qui » n'apparaît pas dans le deuxième document. Ainsi :

$\mathrm{idf_1} = \log \frac{|D|}{|\{d_{j}: t_{1} \in d_{j}\}|} = \log \frac{3}{2}$

Poids final

On obtient :

$\mathrm{tfidf_{1,1}} = \frac{2}{38} \cdot \log{\frac{3}{2}} \approx 0,0092$

Pour les autres documents :

$\mathrm{tfidf_{1,2}} = 0 \cdot \log{\frac{3}{2}} = 0$

$\mathrm{tfidf_{1,3}} = \frac{1}{40} \cdot \log{\frac{3}{2}} \approx 0,0044$

Le premier document apparaît ainsi comme « le plus pertinent ».

Applications

En recherche d'information, une fois un ensemble de documents potentiels identifiés comme pouvant répondre à une requête, il s'agit de les ordonner par ordre de pertinence. La pondération tf-idf est alors couramment utilisée pour établir la description des documents dans un modèle vectoriel, la similarité étant obtenue avec une distance cosinus entre le vecteur représentant la requête et chacun des vecteurs représentatifs des documents potentiels. Bien qu'établie dans les années 70, la variante Okapi BM25 est encore considérée (début XXI^e siècle) comme l'une des méthodes à l'état de l'art dans ce domaine.

Notes et références

↑ Textes tirés de Friedrich Gottlieb Klopstock sur Wikisource (les Constellations, les Deux Muses et À Schmied, ode écrite pendant une maladie dangereuse).

Voir aussi

Liens externes

Cours sur les modèles de RI sur le site de l'Université Paris 13

Bibliographie

(en) Gerard Salton, M.J. McGill, Introduction to modern information retrieval, 1983 [détail des éditions]

Portail des probabilités et des statistiques
Portail de l’informatique

Catégories :

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article TF-IDF de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

IDF — or idf may stand for: *An Initialism: ** Intel Developer Forum ** Intermediate distribution frame (in Telephony and Computer networking) a cable rack that interconnects and manages the telecommunications wiring between a main distribution frame… … Wikipedia
IDF — (Israel Defense Force) armed forces of the state of Israel … English contemporary dictionary
IDF Spokesperson's Unit — The IDF Spokesperson s Unit ( *The IDF Spokesperson s Unit was established as the liaison between the IDF and the domestic and foreign media and general public. The unit performs a variety of functions, including serving as the spokesperson for… … Wikipedia
IDF Achzarit — Infobox Weapon name=IDF Achzarit Mk1 caption=Achzarit in Yad la Shiryon museum, Israel is vehicle=yes type=Heavy armored personnel carrier origin=ISR designer=Israeli Defence Forces Corps of Ordnance manufacturer=NIMDA production date=1988… … Wikipedia
IDF — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
IdF — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
Idf — Die Abkürzung IDF steht für: Israel Defense Forces, englisch für Israelische Streitkräfte Irish Defence Forces, englisch für Óglaigh na hÉireann, irische Streitkräfte Iceland Defense Force, eine bis 2006 bestehende US amerikanische Militäreinheit … Deutsch Wikipedia
IDF GOC Kommando Nord — Schulter abzeichen des Pikud Tzafon Das Nordkommando (hebräisch ‏פיקוד צפון‎, Pikud Tzafon) ist eines der drei Regionalkommandos der Israelischen Streitkräfte und neben der Kontrolle des Nordabschnitts des Landes für den Schutz der Grenzen zu… … Deutsch Wikipedia
IDF — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sigles d’une seule lettre Sigles de deux lettres > Sigles de trois lettres Sigles de quatre lettres … Wikipédia en Français
IDF 1 — IDF1 Création 20 mars 2008 Slogan « IDF1, la chaîne n°1 chez vous ! » Langue Français Pays d origine … Wikipédia en Français
IDF Puma — Pour les articles homonymes, voir Puma (homonymie). IDF Puma Puma en service avec le Battalion 601 du Corps de Génie israélien. Prod … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

TF-IDF

Sommaire

Introduction

Définition formelle

Fréquence du terme

Fréquence inverse de document

Calcul de tf-idf

Exemple

Calcul de tf

Calcul de idf

Poids final

Applications

Notes et références

Voir aussi

Articles connexes

Liens externes

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

TF-IDF

Sommaire

Introduction

Définition formelle

Fréquence du terme

Fréquence inverse de document

Calcul de tf-idf

Exemple

Calcul de tf

Calcul de idf

Poids final

Applications

Notes et références

Voir aussi

Articles connexes

Liens externes

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link