Information de Fisher

Information de Fisher: L'information de Fisher est une notion de statistique introduite par R.A. Fisher qui quantifie l'information relative à un paramètre contenue dans une distribution.

Soit $f (x; θ)$ la distribution de vraisemblance d'une grandeur $x$ (qui peut être multidimensionelle), paramétrée par $θ$ . La technique d'estimation de $θ$ par le maximum de vraisemblance, introduite par Fisher consiste à choisir la valeur maximisant la vraisemblance des observations X :
$E\left[\frac{\partial \log f(X;\theta)}{\partial \theta} | \theta \right] =0$ .
L'information de Fisher est quant à elle définie comme la variance associée à ce maximum :
$I(\theta)=E\left[ \left(\frac{\partial \log f(X;\theta)}{\partial \theta} \right)^2 |\theta \right]$ .

Sommaire

1 Formulation discrète

1.1 Additivité

2 Formulation multi-paramétrique

2.1 Estimation et borne de Cramér-Rao

2.2 Métrique de Fisher

2.3 Formulations alternatives

3 Information apportée par une statistique

4 Références

5 Voir aussi

6 Liens externes

Formulation discrète

Les différentes observations $x i$ nous permettent d'échantillonner la fonction de densité de probabilité $f (x; θ)$ . Selon le théorème de Bayes, en l'absence d'a priori sur $θ$ on a $P(\theta/X)\propto P(X/\theta)$ Si les observations sont décorrélées, la valeur la plus probable $\scriptstyle\hat\theta$ nous est donnée par le maximum de

∏ P(x_i / θ),

i

qui est aussi le maximum de

λ(θ) = ∑ log P(x_i / θ).

i

Le passage en logarithme permet de transformer le produit en somme, ce qui nous autorise à trouver le maximum par dérivation :
$\sum_i \left[ \frac{\partial}{\partial \theta} \log P(x_i/\theta) \right]_{\theta=\hat\theta} =0.$
Cette somme correspond pour un nombre d'observations suffisamment élevé à l'espérance mathématique. La résolution de cette équation permet de trouver un estimateur de $θ$ à partir du jeu de paramètre au sens du maximum de vraisemblance. Maintenant, la question est de quantifier la précision de notre estimation. On cherche donc à estimer la forme de la distribution de probabilité de $θ$ autour de la valeur donnée par l'estimateur $\scriptstyle\hat\theta$ . À partir d'un développement limité à l'ordre 2, comme le terme linéaire est nul au maximum, on obtient :
$\lambda(\theta)=\lambda(\hat\theta)-\frac{\theta^2}{2}I(\hat\theta)+o(\theta^2)$
où $\scriptstyle I(\hat\theta)$ est l'information de Fisher relative à $θ$ au point de maximum de vraisemblance. Ceci signifie que la distribution est en première approximation une gaussienne de variance $\scriptstyle 1/I(\hat\theta)$ :
$P(\theta/X)\propto \exp\left(-\frac{\theta^2}{2}I(\hat\theta) \right)$
Cette variance est appelé la borne de Cramér-Rao et constitue la meilleure précision d'estimation atteignable en absence d'a priori.

Additivité

Une des propriétés fondamentales de l'information de Fisher est son additivité. L'information résultant de deux variables aléatoires indépendantes est la somme des informations :
$I X, Y (θ) = I X (θ) + I Y (θ).$
Si on a N réalisations indépendantes obéissant une même densité de probabilité, l'information résultante est une simple mise à l'échelle de l'information individuelle.
$I_{(X_ 1\cdots X_N)}(\theta)=N.I_X(\theta).$
Lorsque une statistique S(X) sur une variable aléatoire X est exhaustive, l'information relative à la statistique est égale à celle de la variable aléatoire. Autrement dit
$I_{S(X)}(\theta) \leq I_X(\theta),$
avec égalité pour une statistique exhaustive.

Formulation multi-paramétrique

Dans le cas où la distribution de probabilité $f (X)$ dépend de plusieurs paramètres, $θ$ n'est plus un scalaire mais un vecteur $\vec\theta=(\theta_1,\theta_2,\cdots)$ . La recherche du maximum de vraisemblance ne se résume donc non pas à une seule équation mais à un système :
$E\left[\frac{\partial}{\partial \theta_i} \log f(X;\vec\theta) \right] =0, \qquad \forall i$
on dérive vis-à-vis des différentes composantes de $\vec\theta$ . Enfin, l'information de Fisher n'est plus définie comme une variance scalaire mais comme une matrice de covariance :
$I(\theta_i,\theta_j)=E\left[ \left(\frac{\partial}{\partial \theta_i} \log f(X;\vec\theta) \right) \left(\frac{\partial}{\partial \theta_j} \log f(X;\vec\theta) \right)\right].$
Estimation et borne de Cramér-Rao

L'inverse de cette matrice permet quant à elle de déterminer les bornes de Cramér-Rao, i.e. les covariances relatives aux estimations conjointes des différents paramètres à partir des observations : en effet, le fait que tous les paramètres soient à estimer simultanément rend l'estimation plus difficile. Ce phénomène est une manifestation de ce qui est parfois appelé le « fléau de la dimension ». C'est pour cette raison que l'on utilise quand on le peut des a priori sur les paramètres (méthode d'estimation du maximum a posteriori). Ainsi, on restreint l'incertitude sur chacun des paramètres, ce qui limite l'impact sur l'estimation conjointe.

Métrique de Fisher

Cette matrice est couramment appelée la métrique d'information de Fisher. En effet, le passage de l'espace des observations à l'espace des paramètres est un changement de système de coordonnées. Dans la base des paramètres, avec comme produit scalaire la covariance, cette matrice est la métrique. Ce point de vue géométrique, introduit par C. Rao, a été ensuite largement développé par S. Amari sous la dénomination de géométrie de l'information. L'information de Fisher joue un rôle particulier en tant que métrique de part ses propriétés d'additivité et d'invariance par rapport à l'échantillonnage statistique (théorème de Chentsov ou Čencov). C'est une métrique qui est donc naturelle lorsque sont considérées des distributions de probabilité. De plus, l'approche du concept d'information sous l'angle de la géométrie différentielle permet de proposer un cadre cohérent liant différents concepts :

divergence de Kullback-Leibler,

entropie et principe d'entropie maximale,

famille exponentielle des distribution,

algorithme espérance-maximisation,

estimation par maximum de vraisemblance.

Formulations alternatives

Il existe un certain nombre de formulations alternatives de l'information de Fisher révélant certaines propriétés intéressantes.

$I(\theta_i,\theta_j)=- E\left[ \left(\frac{\partial^2}{\partial \theta_i\partial \theta_j} \log f(X;\vec\theta) \right) \right].$

$I(\theta_i,\theta_j)=4 \int \frac{\partial \sqrt f(x;\vec\theta)}{\partial \theta_i} \frac{\partial \sqrt f(x;\vec\theta)}{\partial \theta_j} \, dx.$

$I(\theta_i,\theta_j)=\int \frac{\partial f(x;\vec\theta)}{\partial \theta_i} \frac{\partial \log f(x;\vec\theta)}{\partial \theta_j} \, dx =\int \frac{\partial \log f(x;\vec\theta)}{\partial \theta_i} \frac{\partial f(x;\vec\theta)}{\partial \theta_j} \, dx.$

Information apportée par une statistique

De la même façon que l'on a défini l'information de Fisher pour le vecteur des observations X on peut définir l'information de Fisher contenue dans une statistique S(X):
$I_{S}(\theta)=\mathbb{E}_\theta\left[ \left(\nabla_\theta \log f_S(S;\theta) \right)\cdot\left(\nabla_\theta \log f_S(S;\theta)\right)'\right].$
Cette définition est exactement la même que celle de l'information de Fisher pour X pour un modèle multiparamétrique on remplace juste la densité de X par celle de S(X) la statistique S. Deux théorèmes illustrent l'intérêt de cette notion:

Pour une statistique exhaustive on a $I S (θ) = I (θ)$ ce qui permet de voir une statistique exhaustive comme une statistique comprenant toute l'information du modèle. L'on a aussi la réciproque à savoir que si $I S (θ) = I (θ)$ alors S est exhaustif bien que cette caractérisation est rarement utilisée dans ce sens la définition grâce au critère de factorisation des statistiques exhaustives étant souvent plus maniable.

Quelle que soit la statistique S, $I_{S}(\theta)\leq I(\theta)$ avec un cas d'égalité uniquement pour des statistiques exhaustives. On ne peut donc récupérer plus d'information que celle contenue dans une statistique exhaustive. Ceci explique en grande partie l'intérêt des statistiques exhaustives pour l'estimation. La relation d'ordre est ici la relation d'ordre partielle sur les matrices symétriques à savoir qu'une matrice $A\leq B$ si B-A est une matrice symétrique positive.

Références

A. Monfort, Cours de statistique mathématique, 1982, Economica. Paris.

C.R. Rao, Information and accuracy attainable in the estimation of statistical parameters, Bulletin of the Calcutta Mathematical Society, 37:81-91, 1945.

S. Amari, H. Nagaoka, Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 (ISBN 978-0821805312).

N. N. Chentsov (Čencov), Statistical Decision Rules and Optimal Inference, Translations of Mathematical Monographs; v. 53, American Mathematical Society, 1982.

Voir aussi

Maximum de vraisemblance

Liens externes

P. Druilhet [1] Cours de statistique inférentielle.

Portail des probabilités et des statistiques

Catégorie :
Estimation (statistique)

Contenu soumis à la licence CC-BY-SA. Source : Article Information de Fisher de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Information De Fisher — L information de Fisher est une notion de statistique introduite par R.A. Fisher qui quantifie l information relative à un paramètre contenue dans une distribution. Soit f(x;θ) la distribution de vraisemblance d une grandeur x (qui peut être… … Wikipédia en Français
Information de fisher — L information de Fisher est une notion de statistique introduite par R.A. Fisher qui quantifie l information relative à un paramètre contenue dans une distribution. Soit f(x;θ) la distribution de vraisemblance d une grandeur x (qui peut être… … Wikipédia en Français
Information — as a concept has a diversity of meanings, from everyday usage to technical settings. Generally speaking, the concept of information is closely related to notions of constraint, communication, control, data, form, instruction, knowledge, meaning,… … Wikipedia
Information geometry — In mathematics and especially in statistical inference, information geometry is the study of probability and information by way of differential geometry. It reached maturity through the work of Shun ichi Amari in the 1980s, with what is currently … Wikipedia
Fisher, Rudolph — ▪ American writer in full Rudolph John Chauncey Fisher born May 9, 1897, Washington, D.C., U.S. died Dec. 26, 1934, New York, N.Y. American short story writer and novelist associated with the Harlem Renaissance whose fiction realistically… … Universalium
Information definitions — Wiener information on the well known definition: Information is information, not the material is not energy. Information exists generally in the nature and the human society moves, its manifestation by far is more complex than the material and… … Wikipedia
Fisher Community Unit School District 1 — is a unified school district located in the village of its namesake, Fisher, Illinois; the village, in turn, is located in the northwestern reaches of Champaign County. Fisher Community Unit School District 1, a district of just under 700… … Wikipedia
Fisher consistency — is a description of a statistical construct, used to describe probable outcomes within a certain set of consistent outcomes . [ cite journal|title=Fisher Consistency of AM Estimates of the Autoregression Parameter Using Hard Rejection Filter… … Wikipedia
Fisher Communications — (NASDAQ|FSCI) is a media company in the United States. Based in Seattle, Washington, the company owns a number of radio and television stations in the northwestern United States. History See KOMO (AM) Broadcast Stations Radio Stations Notes: : 1) … Wikipedia
Fisher Labs — Création 1931 Fondateurs Gerhard Fisher Siège social … Wikipédia en Français

Mark and share
Search through all dictionaries
Translate…
Search Internet

Share the article and excerpts