Algorithme Espérance-maximisation

Algorithme espérance-maximisation

L'algorithme espérance-maximisation (en anglais Expectation-maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977), est une classe d'algorithmes qui permettent de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le modèle dépend de variables latentes non observables.

On utilise souvent Espérance-maximisation pour la classification de données, en apprentissage machine, ou en vision artificielle. Espérance-maximisation alterne des étapes d'évaluation de l'espérance (E), où l'on calcule l'espérance de la vraisemblance en tenant compte des dernières variables observées, et une étape de maximisation (M), où l'on estime le maximum de vraisemblance des paramètres en maximisant la vraisemblance trouvée à l'étape E. On utilise ensuite les paramètres trouvés en M comme point de départ d'une nouvelle phase d'évaluation de l'espérance, et l'on itère ainsi.

Pour résoudre le problème d'apprentissage des modèles de Markov cachés (HMM), c’est-à-dire la détermination des paramètres du modèle markovien, on utilise l'algorithme de Baum-Welch.

Sommaire

1 Principe de fonctionnement
2 Exemple détaillé: application en classification automatique
3 Variantes usuelles d'EM
4 Voir aussi
5 Références

Principe de fonctionnement

En considérant un échantillon $\mathbf{x}=(\boldsymbol{x}_1,\dots,\boldsymbol{x}_n)$ d'individus suivant une loi $f(\boldsymbol{x}_i,\theta)$ paramétrée par $\boldsymbol{\theta}$ , on cherche à déterminer le paramètre $\boldsymbol{\theta}$ maximisant la log-vraisemblance donnée par

$L(\mathbf{x};\boldsymbol{\theta})=\sum_{i=1}^n\log f(\boldsymbol{x}_i,\boldsymbol{\theta}).$

Cet algorithme est particulièrement utile lorsque la maximisation de $L$ est très complexe mais que, sous réserve de connaître certaines données judicieusement choisies, on peut très simplement déterminer $\boldsymbol{\theta}$ .

Dans ce cas, on s'appuie sur des données complétées par un vecteur $\mathbf{z}=(z_1,\dots,z_n)$ inconnnu. En notant $f(z_i|\boldsymbol{x}_i;\theta)$ la probabilité de $z i$ sachant $\boldsymbol{x}_i$ et le paramètre $\boldsymbol{\theta}$ , on peut définir la log-vraisemblance complétée comme la quantité

$L\left((\mathbf{x,z});\boldsymbol{\theta}\right)=\sum_{i=1}^n\left(\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta})+\log f(\boldsymbol{x}_i;\boldsymbol{\theta})\right).$

et donc,

$L(\mathbf{x};\boldsymbol{\theta})=L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right)-\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}).$

L'algorithme EM est une procédure itérative basée sur l'espérance des données complétées conditionnellement au paramètre courant. En notant $\boldsymbol{\theta}^{(c)}$ ce paramètre, on peut écrire

$E\left[L(\mathbf{x};\boldsymbol{\theta})|\boldsymbol{\theta}^{(c)}\right]=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]-E\left[\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}))|\boldsymbol{\theta}^{(c)}\right],$

ou encore

$L(\mathbf{x};\boldsymbol{\theta})=Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)-H\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)$

avec $Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]$ et $H\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}))|\boldsymbol{\theta}^{(c)}\right]$ .

On montre que la suite définie par

$\boldsymbol{\theta}^{(c+1)}=\arg\max_{\boldsymbol{\theta}}\left(Q\left(\boldsymbol{\theta},\boldsymbol{\theta}^{(c)}\right)\right)$

fait tendre $L\left(\mathbf{x};\boldsymbol{\theta}^{(c+1)}\right)$ vers un maximum local.

On peut donc définir l'algorithme EM de la manière suivante:

Initialisation au hasard de $\boldsymbol{\theta}^{(0)}$
c=0
Tant que l'algorithme n'a pas convergé, faire

Evaluation de l'espérance (étape E) : $Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]$
Maximisation (étape M) : $\boldsymbol{\theta}^{(c+1)}=\arg\max_{\boldsymbol{\theta}}\left(Q\left(\boldsymbol{\theta},\boldsymbol{\theta^{(c)}}\right)\right)$
c=c+1

En pratique, pour s'affranchir du caractère local du maximum atteint, on fait tourner l'algorithme EM un grand nombre de fois à partir de valeurs initiales différentes de manière à avoir de plus grandes chances d'atteindre le maximum global de vraisemblance.

Exemple détaillé: application en classification automatique

Une des applications phares d'EM est l'estimation des paramètres d'une densité mélange en classification automatique dans le cadre des modèles de mélanges gaussiens. Dans ce problème, on considère qu'un échantillon $\left(x_1,\dots,x_n\right)$ de $\mathbb{R}^p$ , ie caractérisé par p variables continues, est en réalité issu de g différents groupes. En considérant que chacun de ces groupes $G k$ suit une loi f de paramètre $θ k$ , et dont les proportions sont données par un vecteur $(\pi_1,\dots,\pi_g)$ . En notant $\Phi=\left(\pi_1,\dots,\pi_g,\theta_1,\dots,\theta_g\right)$ le paramètre du mélange, la fonction de densité que suit l'échantillon est donnée par

$g(x,\Phi)=\sum_{k=1}^g\pi_kf(x,\theta_k),$

et donc, la log-vraisemblance du paramètre $Φ$ est donnée par

$L(x,\Phi)=\sum_{i=1}^n\log\left(\sum_{k=1}^g\pi_kf(x_i,\theta_k)\right).$

La maximisation de cette fonction selon $Φ$ est très complexe. Par exemple, si on souhaite déterminer les paramètres correspondant à 2 groupes suivant une loi normale dans un espace de dimension 3 (ce qui est peu), on doit optimiser une fonction non linéaire de $\mathbb{R}^{26}$ !!!

Parallèlement, si on connaissait les groupes auxquels appartient chacun des individus, alors le problème serait un problème d'estimation tout à fait simple et très classique.

La force de l'algorithme EM est justement de s'appuyer sur ces données pour réaliser l'estimation. En notant $z i k$ la grandeur qui vaut 1 si l'individu $x i$ appartient au groupe $G k$ et 0 sinon, la log-vraisemblance des données complétée s'écrit

$L(x,z,\Phi)=\sum_{i=1}^n\sum_{k=1}^gz_{ik}\log\left(\pi_kf(x_i,\theta_k)\right).$

On obtient alors rapidement

$Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gE\left(z_{ik}|x,\Phi^{(c)}\right)\log\left(\pi_kf(x_i,\theta_k)\right)$

En notant $t i k$ la quantité donnée par $t_{ik}=E\left(z_{ik}|x,\Phi^{(c)}\right)$ , on peut séparer l'algorithme EM en deux étapes, qu'on appelle classiquement, dans le cas des modèles de mélanges, l'étape Estimation et l'étape Maximisation. Ces deux étapes sont itérées jusqu'à la convergence.

Etape E: calcul de $t i k$ par la règle d'inversion de Bayes:

$t_{ik}=\frac{\pi_kf(x_i,\theta_k)}{\sum_{\ell=1}^g\pi_\ell f(x_i,\theta_\ell)}$

Etape M: Détermination de $Φ$ maximisant

$Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gt_{ik}\log\left(\pi_kf(x_i,\theta_k)\right)$

L'avantage de cette méthode est qu'on peut séparer le problème en g problèmes élémentaires qui sont, en général relativement simple. Dans tous les cas, les proportions optimales sont données par

$\pi_k=\frac{1}{n}\sum_{i=1}^nt_{ik}$

L'estimation des $θ$ dépend par ailleurs de la fonction de probabilité f choisie. Dans le cas normal, il s'agit des moyennes $μ k$ et des matrices de variance-covariance $Σ k$ . Les estimateurs optimaux sont alors donnée par

$\mu_k=\frac{\sum_{i=1}^nt_{ik}x_i}{\sum_{i=1}^nt_{ik}}$

$\Sigma_k=\frac{\sum_{i=1}^nt_{ik}(x_i-\mu_k)(x_i-\mu_k)'}{\sum_{i=1}^nt_{ik}}$

Avec M' la matrice transposée de M et en supposant que les $μ k$ sont des vecteurs colonnes.

Variantes usuelles d'EM

L'algorithme EM, bien que très performant et souvent simple à mettre en œuvre, pose quand même parfois quelques problèmes qui ont donné lieu à des développements complémentaires. Parmi ceux-ci, nous évoquerons un développement appelé GEM (Generalized EM) qui permet de simplifier le problème de l'étape maximisation, un autre, appelé CEM (Classification EM) permettant de prendre en compte l'aspect classification lors de l'estimation, et un dernier, SEM (Stochastic EM) dont l'objectif est de réduire le risque de tomber dans un optimum local de vaisemblance.

Algorithme GEM

GEM a été proposé en même temps qu'EM par Dempster et al. (1977) qui ont prouvé que pour assurer la convergence vers un maximum local de vraisemblance, il n'est pas nécessaire de maximiser Q à chaque étape mais qu'une simple amélioration de Q est suffisante.

GEM peut donc s'écrire de la manière suivante:

Initialisation au hasard de $\theta^{(0)}\,$
$c=0\,$
Tant que l'algorithme n'a pas convergé, faire

choisir $\theta^{(c+1)}\,$ tel que $Q\left(\theta,\theta^{(c+1)}\right)><span class=$ Q\left(\theta,\theta^{(c)}\right)" style="max-width : 98%; height: auto; width: auto;" src="/pictures/frwiki/54/6e4c279f2642cd5c1192d810c2ef0387.png" border="0">
$c=c+1\,$

Algorithme CEM

L'algorithme EM se positionne dans une optique estimation, c'est-à-dire qu'on cherche à maximiser la vraisemblance du paramètre $\theta\,$ , sans considération de la classification faite a posteriori en utilisant la règle de Bayes.

L'approche classification, proposée par Celeux et Govaert (1991) consiste à optimiser, non pas la vraisemblance du paramètre, mais directement la vraisemblance complétée, donnée, dans le cas des modèles de mélange, par

$L(x,z;\theta)=\sum_{i=1}^n\sum_{k=1}^gz_{ik}\log\left(\pi_kf(x,\theta_k)\right)$

Pour cela, il suffit de procéder de la manière suivante:

Initialisation au hasard de $\theta^{(0)}\,$
$c=0\,$
Tant que l'algorithme n'a pas convergé, faire

$z^{(c+1)}=\arg\max_{z}\left(L\left(x,z;\theta^{(c)}\right)\right)$
$\theta^{(c+1)}=\arg\max_{\theta}\left(L\left(x,z^{(c+1)};\theta\right)\right)$
$c=c+1\,$

Algorithme SEM

Afin de réduire le risque de tomber dans un maximum local de vraisemblance, Celeux et Diebolt (1985) proposent d’intercaler une étape stochastique de classification entre les étapes E et M. Après le calcul des probabilités $t_{ik}^{(c)}$ , l’appartenance $z_{ik}^{(c)}$ des individus aux classes est tirée aléatoirement selon une loi multinomiale de paramètres $\mathcal{M}\left(1,t_{i1}^{(q)},\dots,t_{ig}^{(q)}\right)$ .

Contrairement à ce qui se produit dans l’algorithme CEM, on ne peut considérer que l’algorithme a convergé lorsque les individus ne changent plus de classes. En effet, celles-ci étant tirées aléatoirement, la suite $\left(z^{(q)},\theta^{(q)}\right)$ ne converge pas au sens strict. En pratique, Celeux et Diebolt (1985) proposent de lancer l’algorithme SEM un nombre de fois donné puis d’utiliser l’algorithme CEM pour obtenir une partition et une estimation du paramètre $\theta\,$ .

Voir aussi

Partitionnement de données

Références

Celeux, G. et Diebolt, D. (1985). The sem algorithm : a probabilistic teacher algorithm derived from the em algorithm for the mixture problem. Computational Statistics Quarterly, 2(1) :73–82.

Celeux, G. et Govaert, G. (1991). A classification EM algorithm for clustering and two stochastic versions. Rapport de recherche RR-1364, Inria, Institut National de Recherche en Informatique et en Automatique.

Dempster, A. P., Laird, N. M. et Rubin, D. B. (1977). Maximum likelihood from incomplete data via the em algorithm (with discussion). Journal of the Royal Statistical Society, B 39 :1–38.

Portail des probabilités et des statistiques
Portail de l’informatique

Ce document provient de « Algorithme esp%C3%A9rance-maximisation ».

Catégories : Optimisation | Statistiques | Algorithmique | Apprentissage automatique

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Algorithme Espérance-maximisation de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

Algorithme esperance-maximisation — Algorithme espérance maximisation L algorithme espérance maximisation (en anglais Expectation maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977), est une classe d algorithmes qui permettent de trouver le maximum de… … Wikipédia en Français
Algorithme espérance-maximisation — L algorithme espérance maximisation (en anglais Expectation maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977)[1], est une classe d algorithmes qui permettent de trouver le maximum de vraisemblance des paramètres de… … Wikipédia en Français
Expectation-Maximization — Algorithme espérance maximisation L algorithme espérance maximisation (en anglais Expectation maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977), est une classe d algorithmes qui permettent de trouver le maximum de… … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français
Liste des articles de mathematiques — Projet:Mathématiques/Liste des articles de mathématiques Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou probabilités et statistiques via l un des trois bandeaux suivants … Wikipédia en Français
Loi Normale Multidimensionnelle — Distribution normale multidimensionnelle Densité de probabilité / Fonction de masse Fonction de répartition Paramètres moyenne (vecteur réel) … Wikipédia en Français
Loi multinormale — Loi normale multidimensionnelle Distribution normale multidimensionnelle Densité de probabilité / Fonction de masse Fonction de répartition Paramètres moyenne (vecteur réel) … Wikipédia en Français
Loi normale multidimensionnelle — Distribution normale multidimensionnelle Paramètres moyenne (vecteur réel) Σ matrice de variance covariance (matrice définie positive réelle ) Support … Wikipédia en Français
Apprentissage supervisé — L apprentissage supervisé est une technique d apprentissage automatique où l on cherche à produire automatiquement des règles à partir d une base de données d apprentissage contenant des « exemples » (en général des cas déjà traités et… … Wikipédia en Français
Modèle de mélanges gaussiens — Un modèle de mélange gaussien (usuellement abrégé par l acronyme anglais GMM pour Gaussian Mixture Model) est un modèle statistique exprimé selon une densité mélange. Elle sert usuellement à estimer paramétriquement la distribution de variables… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Algorithme Espérance-maximisation