Modèle probabiliste de pertinence

Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones^[1]. Elle est utilisée en recherche d'information pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable pour l'utilisateur. L'une des applications directes de ce modèle est la méthode de pondération Okapi BM25, considérée comme l'une des plus performantes dans le domaine.

Modélisation

Étant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.

Similairement à d'autres modèles, on suppose que:

il existe des documents pertinents pour cette requête du point de vue de l'utilisateur (ensemble $R$ de documents, les documents non pertinents étant le complément $\bar{R}$ de cet ensemble dans la base)
la pertinence d'un document est indépendante des jugements portés sur les autres documents
l'utilité d'un document pertinent est indépendante du nombre de documents pertinents précédemment renvoyé

Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas:

$s(D|q) = \frac{P(R|D)}{P(\bar{R}|D)}$

Considérant un vocabulaire $T={t_1,\dots,t_m}$ , un document est caractérisé par la présence (noté abusivement $t i = 1$ ) ou l'absence ( $t i = 0$ ) de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme:

$s(D|q) = \sum_{i=1}^m{w_i \times t_i}$

Où le poids $w i$ dépend de la probabilité de présence du terme $t i$ dans l'ensemble des documents pertinent et son complément.

Expression du poids

Considérons une base de $N$ documents, dont $n$ sont considérés pertinent pour la requête. En notant $R i$ le nombre de documents contenant le terme $t i$ , et $r i$ le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par:

$w_i=log\left( \frac{\frac{r_i}{n-r_i}}{\frac{R_i-r_i}{N-R_i-n+r_i}}\right)=log\left( \frac{r_i(N-R_i-n+r_i)}{(n-r_i)(R_i-r_i)}\right)$

Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule:

$w_i=log\left( \frac{\frac{r_i+0.5}{n-r_i+0.5}}{\frac{R_i-r_i+0.5}{N-R_i-n+r_i+0.5}}\right)=log\left( \frac{(r_i+0.5)(N-R_i-n+r_i+0.5)}{(n-r_i+0.5)(R_i-r_i+0.5)}\right)$

Si on néglige de considérer les documents pertinents pour la requête ( $n = r i = 0$ ), on retrouve l'expression dite probabiliste de la fréquence inverse de document:

$w_i=log\left( \frac{N-R_i}{R_i}\right)$

Voir aussi

Liens externes

modèles probabilistes (dans un cours de Recherche d'information)

Références

↑ Erreur dans la syntaxe du modèle ArticleStephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », dans Journal of the American Society for Information Science, vol. 27, n^o 3, p. 129–146 [texte intégral]

Catégories :

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Modèle probabiliste de pertinence de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

Modèle booléen — Un modèle booléen est une méthode ensembliste de représentation du contenu d un document. C est l un des premiers modèles utilisés en recherche d information, permettant de fouiller automatiquement les grand corpus de bibliothèques. Il en existe… … Wikipédia en Français
Modele des Croyances Transferables (MCT) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… … Wikipédia en Français
Modèle des Croyances Transférables (MCT) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… … Wikipédia en Français
Modèle des croyances transférables (mct) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… … Wikipédia en Français
Modèle des croyances transférables — Le MCT ou Modèle des croyances transférables est un modèle non probabiliste de « raisonnement incertain » reposant sur la théorie des fonctions de croyance. Il a été proposé et développé par Philippe Smets au début des années 90 Quand… … Wikipédia en Français
Sac de mots — La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d information. Sommaire 1 Principe général 1.1 Cas des textes 1.2 Cas des images … Wikipédia en Français
Okapi BM25 — est une méthode de pondération utilisée en recherche d information. Elle est une application du modèle probabiliste de pertinence. Voir aussi TF IDF Modèle probabiliste Références … Wikipédia en Français
Variable régionalisée — La VR comme phénomène physique : topographie de la ville de Binche … Wikipédia en Français
Autostabilisation — L autostabilisation, ou auto stabilisation, est la propriété d un système réparti, composé de plusieurs machines capables de communiquer entre elles, qui consiste, lorsque le système est mal initialisé ou perturbé, à retourner automatiquement à… … Wikipédia en Français
Scale-invariant feature transform — Exemple de résultat de la comparaison de deux images par la méthode SIFT (Fantasia ou Jeu de la poudre, devant la porte d’entrée de la ville de Méquinez, par Eug … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Modèle probabiliste de pertinence

Sommaire

Modélisation

Expression du poids

Voir aussi

Liens externes

Références

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Modèle probabiliste de pertinence

Sommaire

Modélisation

Expression du poids

Voir aussi

Liens externes

Références

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link