Théorème de Glivenko-Cantelli

Théorème de Glivenko-Cantelli: Le théorème de Glivenko-Cantelli est parfois appelé « le théorème fondamental de la statistique » car il exprime en quoi une loi de probabilité peut-être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.

Sommaire

1 Notations

2 Énoncé

3 Démonstration

4 À voir

4.1 Notes

4.2 Bibliographie

4.3 Pages liées

Notations

En statistiques, une fonction de répartition empirique est la fonction de répartition de la loi de probabilité discrète μ_n , qui attribue la probabilité 1/n à chacun des n termes d'un échantillon: soit
$X_1,\ldots,X_n$
un échantillon de variables iid à valeurs dans $\scriptstyle\ \mathbb{R},\$ variables iid dont la loi de probabilité commune, notons la μ , a pour fonction de répartition F(x). La fonction de répartition empirique $\scriptstyle\ F_n(x)\$ basée sur l'échantillon $X_1,\ldots,X_n$ est une fonction en escalier définie par
$\begin{align}F_n(x)&= \frac{ \mathrm{nombre~d'\acute el \acute ements}\ \leq x\ \mathrm{dans~ l'\acute echantillon}}{n}\\ &= \tfrac{1}{n} \sum_{i=1}^n I(X_i \le x),\end{align}$
où I(A) est la fonction indicatrice de l'événement A.

Le théorème de Glivenko-Cantelli stipule la convergence uniforme de la fonction de répartition empirique F_n , déduite d'un échantillon d'une loi de probabilité μ, vers la fonction de répartition F de cette loi de probabilité. Or on sait qu'une loi de probabilité est caractérisée par sa fonction de répartition, et, qui plus est, la convergence simple de F_n vers F entraine la convergence en loi de μ_n vers μ.

Remarque. La loi de probabilité μ_n définie plus haut comme combinaison linéaire de masses de Dirac :
$\mu_n\ =\ \tfrac1n\,\delta_{X_1}\ +\ \tfrac1n\,\delta_{X_2}\ +\ \dots\ +\ \tfrac1n\,\delta_{X_n},$
souvent appelée loi empirique, est une loi de probabilité aléatoire, ou encore une variable aléatoire à valeur mesure. En effet, soit $\scriptstyle\ \left(\Omega,\mathcal A,\mathbb P\right)\$ l'espace probabilisé sur lequel les variables aléatoires $\scriptstyle\ X_n,\ n\ge 1,\$ sont définies. Il faut alors écrire plus précisément, pour chaque $\scriptstyle\ \omega\in\Omega,\$
$\begin{align}F_n(x,\omega)&=\tfrac{1}{n} \sum_{i=1}^n I(X_i(\omega) \le x), \\ \mu_n(\omega)&=\tfrac1n\,\delta_{X_1(\omega)}\ +\ \tfrac1n\,\delta_{X_2(\omega)}\ +\ \dots\ +\ \tfrac1n\,\delta_{X_n(\omega)}.\end{align}$

Énoncé

Théorème de Glivenko-Cantelli^[1] — Presque sûrement, la convergence uniforme $\scriptstyle\ F_n\to F\$ a lieu, ou bien, de manière équivalente :
$\mathbb{P}\left(\lim_n\ \|F_n-F\|_\infty=0\right)=1.$

La loi forte des grands nombres, dans le cas de variables aléatoires de Bernoulli, implique que
$\forall x\in \R,\quad\mathbb{P}\left(\lim_n\ |F_n(x,\omega)-F(x)|=0\right)=1,$
mais il n'en découle pas nécessairement que
$\mathbb{P}\left(\forall x\in \R,\quad\lim_n\ |F_n(x,\omega)-F(x)|=0\right)=1,$
puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple, au lieu de la convergence uniforme stipulée par le théorème de Glivenko-Cantelli.

Démonstration

La preuve du théorème de Glivenko-Cantelli s'apparente à celle du deuxième théorème de Dini, bien que les hypothèses du théorème de Glivenko-Cantelli soient parfaitement générales, contrairement à celles du deuxième théorème de Dini : en particulier, ici, F n'est pas supposée continue.

Soit $\scriptstyle\ \left(\Omega,\mathcal A,\mathbb P\right)\$ l'espace probabilisé sur lequel les variables aléatoires $\scriptstyle\ X_n,\ n\ge 1,\$ sont définies. Comme toutes les fonctions de répartition de loi de probabilité, les fonctions $\scriptstyle\ x\to F_n(x,\omega)\$ et $\scriptstyle\ x\to F(x)\$ sont croissantes et continues à droite sur tout $\scriptstyle\ \R,\$ et par ailleurs elles tendent vers 0 (resp. vers 1) en $\scriptstyle\ -\infty\$ (resp. en $\scriptstyle\ +\infty\$ ). Ainsi, pour tout nombre réel x, et pour tout $\scriptstyle\ \omega\in\Omega,\$ les limites à gauches $\scriptstyle\ F_n(x-,\omega)\$ et $\scriptstyle\ F(x-)\$ sont-elles bien définies. De plus, comme
$\lim_{y\uparrow x} I(X_i(\omega) \le y)\ =\ I(X_i(\omega) < x),$
on en déduit que :
$F_n(x-,\omega)\ =\ \tfrac{1}{n} \sum_{i=1}^n I(X_i(\omega) < x).$
Ainsi, étant la somme de variables de Bernoulli indépendantes et de même loi, $\scriptstyle\ nF_n(x,\omega)\$ (resp. $\scriptstyle\ nF_n(x-,\omega)\$ ) suit une loi binomiale de paramètres n et $\scriptstyle\ F(x)=\mathbb P(X_i \le x)\$ (resp. de paramètres n et $\scriptstyle\ F(x-)=\mathbb P(X_i < x)\$ ). De plus, en vertu de la loi forte des grands nombres^[2], les ensembles
$A_{x}\ =\ \left\{\omega\in\Omega\ \left|\ \lim_{n}F_n(x,\omega)=F(x)\right.\right\},\quad B_{x}\ =\ \left\{\omega\in\Omega\ \left|\ \lim_{n}F_n(x-,\omega)=F(x-)\right.\right\}$
sont presque sûrs.

Notons G la réciproque généralisée de F, définie pour $\ \scriptstyle x \in]0,1[\$ par
$G(x)=\inf\left\{u\in\mathbb{R}\ |\ F(u)\ge x\right\},$
et, pour $\scriptstyle\ 1\le k\le m-1,\$ notons
$x(k,m)\ =\ G\left(\tfrac km\right)$
l'image de k/m par G. Par définition de G, en considérant, successivement, une suite strictement croissante de nombre réels convergeant vers x(k,m), puis une autre suite, cette fois strictement décroissante vers x(k,m), et en utilisant la continuité à droite de F, on obtient
$F(x(k,m)-)\ \le\ \frac km\ \le F(x(k,m)),$
et, par conséquent
$\begin{align}F(x(k,m)-)-F(x(k-1,m))&\le\ \frac 1m,\\F(x(1,m)-)&\le\ \frac 1m,\\1-F(x(m-1,m))&\le\ \frac 1m.\end{align}$
Ainsi, pour un nombre réel x tel que $\scriptstyle\ x(k,m)\le x<x(k+1,m),\ 1\le k\le m-2,\$ on a successivement
$\begin{align}F_{n}(x,\omega)-F(x)&\le\ F_{n}(x(k+1,m)-,\omega)-F(x)\\ &\le\ F_{n}(x(k+1,m)-,\omega)-F(x(k,m))\\ &\le\ F_{n}(x(k+1,m)-,\omega)-F(x(k+1,m)-)+\tfrac 1m,\\ F_{n}(x,\omega)-F(x)&\ge\ F_{n}(x(k,m),\omega)-F(x)\\ &\ge\ F_{n}(x(k,m),\omega)-F(x(k+1,m)-)\\ &\ge\ F_{n}(x(k,m),\omega)-F(x(k,m))-\tfrac 1m.\\ \end{align}$
Si $\scriptstyle\ x<x(1,m),\$ la première inégalité reste inchangée et la deuxième devient $\scriptstyle\ F_{n}(x,\omega)-F(x)\ \ge\ -\tfrac 1m.$ Si $\scriptstyle\ x\ge x(m-1,m),\$ c'est la deuxième inégalité qui reste inchangée, la première devenant $\scriptstyle\ F_{n}(x,\omega)-F(x)\ \le\ \tfrac 1m.$ Quoi qu'il en soit, on en déduit que pour tout réel x,
$\left|F_{n}(x,\omega)-F(x)\right|\le\ D_{n}(\omega)+\tfrac 1m,$
où $\scriptstyle\ D_{n}(\omega)\$ est le supremum de l'ensemble fini :
$\left\{|F_{n}(x(k,m)-),\omega)-F(x(k,m)-)|,\,|F_{n}(x(k,m)),\omega)-F(x(k,m))|,\ 1\le k\le m-1\right\}.$
En d'autres termes,
$\sup_{x\in\R}\left|F_{n}(x,\omega)-F(x)\right|=\|F_{n}(.,\omega)-F(.)\|_{\infty}\le\ D_{n}(\omega)+\tfrac 1m.$
Posons
$\Omega_{m}\ =\ \bigcap_{k=1}^{m-1} \left(A_{x(k,m)}\cap B_{x(k,m)}\right).$
L'ensemble $\scriptstyle\ \Omega_{m}\$ est presque sûr, comme intersection finie d'ensembles presque sûrs. Pour $\scriptstyle\ \omega\in\Omega_{m},\$
$lim n D n (ω) = 0,$
donc
$\limsup_{n} \|F_{n}(.,\omega)-F(.)\|_{\infty}\ \le \ \tfrac 1m+\limsup_{n}D_{n}(\omega) \ \le \ \tfrac 1m.$
Finalement l'ensemble
$\bar{\Omega}=\bigcap_{m\ge 1}\Omega_{m}$
est presque sûr, comme intersection dénombrable d'ensembles presque sûrs, et pour $\scriptstyle\ \omega\in\bar{\Omega},\$
$\limsup_{n} \|F_{n}(.,\omega)-F(.)\|_{\infty}\ \le\ \inf_{m\ge 1}\tfrac 1m\ =\ 0,$
ou, de manière équivalente,
$\lim_{n} \|F_{n}(.,\omega)-F(.)\|_{\infty}\ = \ 0.$
À voir

Notes

↑ p. 232 de Billingsley, Probability and measure.

↑ démontrée en 1909 dans le cas qui nous intéresse ici, i.e. le cas des variables de Bernoulli : Émile Borel, « Les probabilités dénombrables et leurs applications arithmétiques », dans Rendiconti del Circolo Matematico di Palermo, vol. 27, n^o 1, décembre 1909, p. 247-271 (ISSN 0009-725X et 1973-4409) [texte intégral, lien DOI] .

Bibliographie

(en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, Society for Industrial & Applied Mathematics, 4 septembre 2009, 998 p. (ISBN 0-89871-684-5 et 978-0898716849)

van der Vaart, A.W. and Wellner, J.A. (1996) "Weak Convergence and Empirical Processes", Springer. ISBN 0-387-94640-3.

Billingsley, Probability and measure, p. 232.

Pages liées

Fonction de répartition empirique

Fonction de répartition

Loi binomiale

Loi forte des grands nombres

Théorème de Dini

Statistiques

v · Probabilités et statistiques

Théorie des probabilités Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires Moyenne • Espérance • Médiane • Variance • Écart type

Loi de probabilité Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid

Convergence de lois Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli

Calcul stochastique Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés

Statistique mathématique Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne

Tests statistiques Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégories :
Statistiques
Théorème de mathématiques

Contenu soumis à la licence CC-BY-SA. Source : Article Théorème de Glivenko-Cantelli de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Théorème de Borel-Cantelli — Ne doit pas être confondu avec Théorème de Borel ni Lemme de Borel Carathéodory. Le théorème de Borel Cantelli ou lemme de Borel Cantelli, nommé d après les mathématiciens Émile Borel et Francesco Paolo Cantelli, est un résultat de théorie… … Wikipédia en Français
Théorème central limite — Pour les articles homonymes, voir TCL. La loi normale, souvent appelée la « courbe en cloche » Le théorème central li … Wikipédia en Français
Théorème d'arrêt de Doob — Le théorème d arrêt de Doob est dû à Joseph Leo Doob. Énoncé On considère un processus stochastique Théorème (a) Supposons que X est une surmartingale, et que T est un temps d arrêt. Alors, dès que l un des 3 ensembles d hypothèses… … Wikipédia en Français
Théorème de Darmois — Énoncé Soit une variable X dont le domaine de définition ne dépend pas de θ Une condition nécessaire et suffisante pour que l échantillon (X1,...,Xn) admette une statistique exhaustive est que la forme de la densité soit : (famille… … Wikipédia en Français
Théorème de Donsker — simulations de Xn de n=100 à n=800 avec U de loi uniforme sur l ensemble { 1,1} En Théorie des probabilités, le Théorème de Donsker établie la convergence en loi d une marche aléatoire vers un Processus stochastique gaussien. Il est parfois… … Wikipédia en Français
Loi forte des grands nombres — Une loi forte des grands nombres est une loi mathématique selon laquelle la moyenne des n premiers termes d une suite de variables aléatoires converge presque sûrement vers une constante (non aléatoire), lorsque n tend vers l infini. Lorsque ces… … Wikipédia en Français
Fonction de répartition empirique — En Statistiques, une fonction de répartition empirique est une fonction de répartition qui attribue la probabilité 1/n à chacun des n nombres dans un échantillon. Soit un échantillon de variables iid à valeurs dans avec pour fonction de… … Wikipédia en Français
Statistique mathématique — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. Les statistiques, dans le sens populaire du terme, traitent des populations. En statistique descriptive, on se contente de décrire un… … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français
Distribution empirique — Fonction de répartition empirique En Statistiques, une fonction de répartition empirique est une fonction de répartition qui attribue la probabilité 1/n à chacun des n nombres dans un échantillon. Soit un échantillon de variables iid à valeurs… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Théorème de Glivenko-Cantelli

Sommaire

Notations

Énoncé

Démonstration

À voir

Notes

Bibliographie

Pages liées

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Théorème de Glivenko-Cantelli

Sommaire

Notations

Énoncé

Démonstration

À voir

Notes

Bibliographie

Pages liées

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link