- Modèle probabiliste de pertinence
-
Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones[1]. Elle est utilisée en recherche d'information pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable pour l'utilisateur. L'une des applications directes de ce modèle est la méthode de pondération Okapi BM25, considérée comme l'une des plus performantes dans le domaine.
Sommaire
Modélisation
Étant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.
Similairement à d'autres modèles, on suppose que:
- il existe des documents pertinents pour cette requête du point de vue de l'utilisateur (ensemble R de documents, les documents non pertinents étant le complément de cet ensemble dans la base)
- la pertinence d'un document est indépendante des jugements portés sur les autres documents
- l'utilité d'un document pertinent est indépendante du nombre de documents pertinents précédemment renvoyé
Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas:
Considérant un vocabulaire , un document est caractérisé par la présence (noté abusivement ti = 1) ou l'absence (ti = 0) de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme:
Où le poids wi dépend de la probabilité de présence du terme ti dans l'ensemble des documents pertinent et son complément.
Expression du poids
Considérons une base de N documents, dont n sont considérés pertinent pour la requête. En notant Ri le nombre de documents contenant le terme ti, et ri le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par:
Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule:
Si on néglige de considérer les documents pertinents pour la requête (n = ri = 0), on retrouve l'expression dite probabiliste de la fréquence inverse de document:
Voir aussi
- Modèle booléen
- Modèle vectoriel
- Lemme (linguistique)
- Moteur de recherche
- Système de recherche d'information
Liens externes
modèles probabilistes (dans un cours de Recherche d'information)
Références
- Stephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », dans Journal of the American Society for Information Science, vol. 27, no 3, p. 129–146 [texte intégral] Erreur dans la syntaxe du modèle Article
Wikimedia Foundation. 2010.