PLSA

PLSA: Analyse sémantique latente probabiliste

L’analyse sémantique latente probabiliste ou PLSA (de l'anglais : Probabilistic latent semantic analysis) — aussi appelée indexation sémantique latente probabiliste ou PLSI, est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente.

Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.

Elle fut introduite en 1999 par Thomas Hofmann ^[1]^,^[2], et possède des liens avec la factorisation de matrices positives.

Comparée à l'analyse sémantique latente simple, qui découle de l'algèbre linéaire pour réduire les matrices des occurrences (au moyen d'une décomposition en valeurs singulières), l'approche probabiliste emploie un mélange de décompositions issues de l'analyse des classes latentes. On obtient ainsi une approche plus souple, fondée sur les statistiques.

Il a été montré que l'analyse sémantique latente probabiliste souffre parfois de surapprentissage^[3], le nombre de paramètres croissant linéairement avec celui des documents. Bien que PLSA soit un modèle génératif des documents de la collection, elle modélise effectivement directement la densité jointe $P (m o t, d o c u m e n t)$ , elle ne permet pas de générer de nouveaux documents, et en ce sens n'est pas un « vrai » modèle génératif ^[4]. Cette limitation est levée par l'Allocation de Dirichlet latente (LDA).

Sommaire

1 Évolutions de la PLSA

2 Voir aussi

3 Références et notes

4 Liens externes

Évolutions de la PLSA

Extensions hiérarchiques :

Asymétrique : MASHA (Multinomial ASymmetric Hierarchical Analysis) ^[5]

Symétrique : HPLSA (Hierarchical Probabilistic Latent Semantic Analysis) ^[6]

Ces modèles ont été conçus pour pallier une limitation souvent évoquée de la PLSA, à savoir qu'elle n'est pas vraiment un modèle génératif, dans le sens où elle est incapable de générer de nouveaux documents.

Allocation de Dirichlet latente (LDA).

Voir aussi

Références et notes

↑ (en) Thomas Hofmann, « Probabilistic Latent Semantic Indexing », Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999

↑ (en) Thomas Hofmann, « Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization », Advances in Neural Information Processing Systems 12, pp-914-920, MIT Press, 2000

↑ David M. Blei, Andrew Y. Ng et Michael I. Jordan, « Latent Dirichlet Allocation », dans Journal of Machine Learning Research, vol. 3, 2003, p. 993-1022 [texte intégral]

↑ (en) Test Data Likelihood for PLSA Models, Thorsten Brants, 2005

↑ (en) Alexei Vinokourov et Mark Girolami, « A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections », in Information Processing and Management, 2002

↑ (en) Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, « A Hierarchical Model for Clustering and Categorising Documents », in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002

(en) Cet article est partiellement ou en totalité issu d’une traduction de l’article de Wikipédia en anglais intitulé « Probabilistic latent semantic analysis ».

Liens externes

(en) Probabilistic Latent Semantic Analysis

Portail de l’informatique

Portail de la linguistique

Ce document provient de « Analyse s%C3%A9mantique latente probabiliste ».

Catégories : Statistiques | Intelligence artificielle | Apprentissage automatique

Contenu soumis à la licence CC-BY-SA. Source : Article PLSA de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

PLSA — posterolateral segment [coronary] artery … Medical dictionary
PLSA — abbr. Probabilistic Latent Semantic Analysis … Dictionary of abbreviations
PLSA — • posterolateral segment [coronary] artery … Dictionary of medical acronyms & abbreviations
Object categorization from image search — In computer vision, the problem of object categorization from image search is the problem of training a classifier to recognize categories of objects, using only the images retrieved automatically with an Internet search engine. Ideally,… … Wikipedia
Probabilistic latent semantic analysis — (PLSA), also known as probabilistic latent semantic indexing (PLSI, especially in information retrieval circles) is a statistical technique for the analysis of two mode and co occurrence data. PLSA evolved from Latent semantic analysis, adding a… … Wikipedia
Analyse Sémantique Latente Probabiliste — L’analyse sémantique latente probabiliste ou PLSA (de l anglais : Probabilistic latent semantic analysis) aussi appelée indexation sémantique latente probabiliste ou PLSI, est une méthode de traitement automatique des langues inspirée de l… … Wikipédia en Français
Analyse semantique latente probabiliste — Analyse sémantique latente probabiliste L’analyse sémantique latente probabiliste ou PLSA (de l anglais : Probabilistic latent semantic analysis) aussi appelée indexation sémantique latente probabiliste ou PLSI, est une méthode de traitement … Wikipédia en Français
Analyse sémantique latente probabiliste — L’analyse sémantique latente probabiliste (de l anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l… … Wikipédia en Français
Latent Dirichlet allocation — In statistics, latent Dirichlet allocation (LDA) is a generative model that allows sets of observations to be explained by unobserved groups which explain why some parts of the data are similar. For example, if observations are words collected… … Wikipedia
Analyse Sémantique Latente — L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

PLSA

Analyse sémantique latente probabiliste

Sommaire

Évolutions de la PLSA

Voir aussi

Références et notes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

PLSA

Analyse sémantique latente probabiliste

Sommaire

Évolutions de la PLSA

Voir aussi

Références et notes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link