Processus de décision markovien partiellement observable

Processus de décision markovien partiellement observable: Un Processus de décision markovien partiellement observable (POMDP) est un modèle stochastique issu de la théorie de la décision et de la théorie des probabilités. Les modèles de cette famille sont, entre autres, utilisés en intelligence artificielle pour le contrôle de systèmes complexes comme des agents intelligents.

Ce modèle est dérivé des Processus de décision markoviens (MDP). La différence est que, dans un POMDP, l'incertitude est double. Non seulement l'effet des actions que l'on entreprend est incertain, mais de plus, on ne dispose que d'indices pour connaitre l'état dans lequel on se trouve, et donc pour décider. Ces indices sont appelés des observations et en ce sens, les POMDP sont des Modèles de Markov Cachés (HMM) particuliers, dans lesquels on dispose d'actions probabilistes.

Sommaire

1 Définition formelle

2 Approches

3 Articles connexes

4 Références

5 Liens externes

Définition formelle

Un POMDP est un tuple $\{ S, A, T, R, \Omega, O \}\,$ où :

$S = \{ s_0, \cdots , s_{ |S-1| } \} \,$ est l'ensemble fini discret des états possibles du système à contrôler (il s'agit des états cachés du processus).

$A = \{ a_0, \cdots , a_ {|A-1| } \} \,$ est l'ensemble fini discret des actions que l'on peut effectuer pour contrôler le système

$T : S \times A \times S \to [ 0 ; 1 ]\,$ est la fonction de transition du système en réaction aux actions de contrôle. Dans le cas général, la fonction T est probabiliste et donne la probabilité $p (s' | s, a) = T (s, a, s') \,$ que le système passe de l'état $s$ à l'état $s'$ lorsque l'on choisit d'effectuer l'action $a$ .

$R : S \times A \times S \to \Re$ est la fonction de récompense. Elle indique la valeur réelle obtenue lorsque l'on effectue l'action $a$ dans l'état $s$ et que l'on arrive dans l'état $s'$ .

$\Omega = \{ \omega_0 \cdots \omega_{ |\Omega-1|} \}$ est un ensemble de symboles que l'on peut observer.

$O : S \times \Omega \to [0;1]$ est une fonction d'observation qui à un état donné associe la probabilité $p (\omega | s) = O (s , \omega) \,$ d'observer un symbole donné.

Note : Il existe des variantes dans les quelles les récompenses peuvent dépendre des actions ou des observations. Les observations peuvent également dépendre des actions effectuées.

Approches

Il existe deux grands types d'approches pour s'attaquer à un problème POMDP.

On peut chercher à déterminer de la façon la plus certaine possible quel est l'état dans lequel on se trouve (en maintenant à jour une distribution de probabilité sur les états appelée belief-state)

On peut travailler directement sur les observations [2] de $Ω$ sans considérer l'état caché. Cela n'est pas sans poser de problèmes car des observations similaires peuvent être obtenues dans des états différents (par exemple, avec l'observation locale des carrefours dans un labyrinthe, on peut très bien tomber sur deux carrefours en forme de T). Une approche possible pour discriminer ces observations consiste à garder une mémoire des observations rencontrées par le passé (dans ce cas, on perd la propriété markovienne).

Articles connexes

Les Processus de Décision Markoviens (MDP), dont dérivent les POMDP pour l'aspect décision,

Modèle de Markov caché, dont dérivent les POMDP pour l'aspect observabilité partielle,

Processus stochastique

Références

Kaebling L. P., Littman M. L., Cassandra A. R., Planning and Acting in Partially Observable Stochastic Domains, Artificial Intelligence, vol. 101, num. 1–2, pp. 99-134, 1998.

McCallum A. K., Reinforcement learning with selective perception and hidden state, PhD thesis, University of Rochester, Computer Science Dept., 1996.

Liens externes

Tony's POMDP Page est une page de ressources d'Anthony R. Cassandra

POMDP information page, la page de ressources de Michael L. Littman

Catégories :
Intelligence artificielle
Processus stochastique

Contenu soumis à la licence CC-BY-SA. Source : Article Processus de décision markovien partiellement observable de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Processus de decision markovien partiellement observable — Processus de décision markovien partiellement observable Un Processus de décision markovien partiellement observable (POMDP) est un modèle stochastique issu de la théorie de la décision et de la théorie des probabilités. Les modèles de cette… … Wikipédia en Français
Processus de Markov — En mathématiques, un processus de Markov est un processus stochastique possédant la propriété de Markov. Dans un tel processus, la prédiction du futur à partir du présent n est pas rendue plus précise par des éléments d information concernant le… … Wikipédia en Français
POMDP — Processus de décision markovien partiellement observable Un Processus de décision markovien partiellement observable (POMDP) est un modèle stochastique issu de la théorie de la décision et de la théorie des probabilités. Les modèles de cette… … Wikipédia en Français
Planification (intelligence artificielle) — La planification (Automated planning) est une discipline de l intelligence artificielle qui vise le développement d algorithmes pour produire des plans (en d autre termes, une planification), typiquement pour l exécution par un robot ou tout… … Wikipédia en Français
Planification en intelligence artificielle — Planification (intelligence artificielle) La planification (Automated planning) est une discipline de l intelligence artificielle qui vise le développement d algorithmes pour produire des plans (en d autre termes, une planification), typiquement… … Wikipédia en Français
Automate de Markov à états cachés — Modèle de Markov caché Pour les articles homonymes, voir MMC. Un modèle de Markov caché (MMC) en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel … Wikipédia en Français
HMM — Modèle de Markov caché Pour les articles homonymes, voir MMC. Un modèle de Markov caché (MMC) en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel … Wikipédia en Français
Hidden Markov Models — Modèle de Markov caché Pour les articles homonymes, voir MMC. Un modèle de Markov caché (MMC) en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel … Wikipédia en Français
Modele de Markov cache — Modèle de Markov caché Pour les articles homonymes, voir MMC. Un modèle de Markov caché (MMC) en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel … Wikipédia en Français
Modèle De Markov Caché — Pour les articles homonymes, voir MMC. Un modèle de Markov caché (MMC) en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel le système modélisé… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Processus de décision markovien partiellement observable

Sommaire

Définition formelle

Approches

Articles connexes

Références

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Processus de décision markovien partiellement observable

Sommaire

Définition formelle

Approches

Articles connexes

Références

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link