Variance (statistiques et probabilités)

Pour les articles homonymes, voir Variance.

En statistique et probabilité, la variance est une mesure arbitraire servant à caractériser la dispersion d'une distribution ou d'un échantillon.

Sommaire

1 Définition
2 Propriétés
3 Écart type
4 Cas discret
- 4.1 Simplification
- 4.2 Équiprobabilité
5 Cas continu
6 Variance d'un vecteur aléatoire
7 Estimation
8 Voir aussi

Définition

Soit X une variable aléatoire réelle dont le moment d'ordre 2, à savoir $\mathbb{E}\left(X^2\right)$ , existe.

Définition — $\operatorname{Var}(X)\equiv V(X) \equiv \mathbb{E}\left[(X-\mathbb{E}[X])^2\right]$

$\scriptstyle \mathbb{E}[\cdot]$ étant l'espérance mathématique ; l'existence du moment d'ordre 2 implique celle de $\scriptstyle \mathbb{E}[X]$

On peut interpréter la variance comme la moyenne des carrés des écarts à la moyenne (rigoureusement : l'espérance des carrés des écarts à l'espérance, informellement : moyenne des carrés moins le carré des moyennes). Elle permet de caractériser la dispersion des valeurs par rapport à la moyenne. Ainsi, une distribution avec une même espérance et une variance plus grande apparaîtra comme plus étalée. Le fait que l'on prenne le carré de ces écarts à la moyenne évite que des écarts positifs et négatifs ne s'annulent.

Notation — On note souvent: $\operatorname{Var}(X)\equiv \sigma^2_X$

Propriétés

La variance est toujours positive ou nulle.

Lorsque la variance est nulle, cela signifie que la variable aléatoire correspond à une constante (toutes les réalisations sont identiques).
Formule alternative de calcul de la variance:

Propriété — $\operatorname{Var}(X)=\mathbb{E}\left[X^2\right]-\mathbb{E}[X]^2$

Cette formule s'énonce ainsi : la variance est égale à l'espérance du carré de X moins le carré de l'espérance de X. La formule permet souvent un calcul plus simple de la variance que la définition.

Sa démonstration est faite dans le théorème de König-Huyghens.

Variance d'une transformation affine :

Propriété — $\operatorname{Var}(aX+b)=a^2\operatorname{Var}(X)$

Démonstration

Pour cette démonstration, il est utile de rappeler une des propriétés de l'espérance:

Propriété — $\operatorname{E}(aX + b)= a \operatorname{E}(X) + b\,$

On a alors:

$\begin{align}\operatorname{Var}(aX+b)& = E[(aX+b -E[aX+b])^2] \qquad \text{Selon definition de la variance}\\ & = E[(aX+b -aE[X]-b)^2] \\& = E[(aX -aE[X])^2]\\& = E[a^2(X -E[X])^2]\\& = a^2E[(X -E[X])^2] \\&= a^2\operatorname{Var}(X) \end{align}$

On remarque à travers cette propriété que le fait de déplacer simplement une distribution (ajouter +b) ne modifie pas sa variance. Par contre, changer l'échelle (multiplier par a) modifie la variance quadratiquement. Cette propriété permet également de confirmer la remarque établie précédemment que la variance d'une constante est nulle, en effet, $\operatorname{Var}(b)= 0$ .

Variance de la somme de deux variables

Si $\operatorname{cov}(X,Y)$ désigne la covariance des variables aléatoires

X

Y

, alors:

Propriété — $\operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{cov}(X,Y)$

Variance de la somme de deux variables indépendantes (et plus généralement non corrélées)

Propriété — $\operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$

Il faut faire attention au fait que $\operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$ ! Même si les variables sont soustraites, leur variances s'additionnent.

Bilinéarité

Propriété — $\operatorname{var}\left(\sum_{i=1}^n{X_i}\right) = \sum_{i=1}^n\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{cov}(X_i,X_j)$

Cette formule est classique pour une forme quadratique associée à une forme bilinéaire symétrique. Dans ce cas particulier, cela traduit le fait que la covariance est une forme bilinéaire symétrique positive (sur l'espace vectoriel $L^2(\Omega, \mathcal{B}, \mathbb{P})$ des variables aléatoires de carré intégrable), et que la forme quadratique associée est la variance. On a plus généralement

Propriété — $\operatorname{var}\left(\sum_{i=1}^n{a_i\,X_i}\right) = \sum_{i=1}^na_i^2\,\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\,a_ia_j\,\operatorname{cov}(X_i,X_j)$

Variance de la moyenne de variables indépendantes (ou 2 à 2 non corrélées) et de même variance $σ 2$

En définissant $\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i$

Propriété — $\operatorname{Var}\left(\overline{X}\right) = \frac{\sigma^2}{n}$

Démonstration

$\operatorname{Var}(\overline{X})=\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \frac {1}{n^2} n \operatorname{Var}(X) = \frac {\operatorname{Var}(X)} {n}$

Écart type

Article détaillé : écart type.

L'écart type est la racine carrée de la variance:

$\sigma_x = \sqrt{\operatorname{Var}(X)}$

Inégalité triangulaire

Inégalité — $\sigma (\sum_{i=1}^{n} X_i) \leqslant \sum_{i=1}^{n} \sigma (X_i)$

avec égalité si et seulement si toutes les variables sont identiques à un coefficient multiplicatif positif près.

Démonstration

En partant de la bilinéarité :

$\operatorname{Var}\left(\sum_{i=1}^n{X_i}\right) = \sum_{i=1}^n\operatorname{Var}(X_i) + \sum_{1\le i\ne j\le n}\operatorname{cov}(X_i,X_j)$

et en utilisant

$\operatorname{cov}(X_i,X_j) \leqslant \sigma (X_i) \sigma (X_j)$

il vient

$\operatorname{Var}\left(\sum_{i=1}^n{X_i}\right) \leqslant \sum_{i=1}^n\operatorname{Var}(X_i) + \sum_{1\le i\ne j\le n}\sigma (X_i) \sigma (X_j) =$

$= \sum_{i,j=1}^n \sigma (X_i) \sigma (X_j) = (\sum_{i=1}^n \sigma (X_i))^2.$

Il y a égalité si et seulement si $\operatorname{cov}(X_i,X_j) = \sigma (X_i) \sigma (X_j)$ pour tout couple.

Cas discret

La variance V(X) représente la moyenne des carrés des écarts à la moyenne : elle permet de caractériser, tout comme l'écart type, la dispersion des valeurs $x i$ par rapport à la moyenne, notée $\overline {x},$ ou encore E(X).

Soit une série statistique $(x_i, n_i)_{i = 1 \cdots k}$ de moyenne $\overline{x}$ et d'effectif total n (c’est-à-dire $n=\sum_{i=1}^k n_i$ et $p_i=\frac{n_i}{n}$ ).

La variance de cette série est alors :

$V(X)=\sum_{i=1}^k p_i(x_i-\overline{x})^2$

Simplification

La moyenne peut être considérée comme le barycentre de la série.

D'après le théorème de König, on a : $V(X)=\sum_{i=1}^kp_i(x_i^2)-\overline{x}^2$

Démonstration

$V(X)=\sum_{i=1}^k p_i(x_i-\overline{x})^2$

$V(X)=\sum_{i=1}^k p_i(x_i^2-2x_i\overline{x}+\overline{x}^2)$

$V(X)=\sum_{i=1}^k p_ix_i^2-2\overline{x}\sum_{i=1}^k p_ix_i+\sum_{i=1}^k p_i\overline{x}^2$

$V(X)=\sum_{i=1}^k p_ix_i^2-2\overline{x}\sum_{i=1}^k p_ix_i+ \overline{x}^2\sum_{i=1}^k p_i$

Or, $\sum_{i=1}^k p_i=1,$ et $\sum_{i=1}^k p_ix_i=\overline{x},$ donc on a:

$V(X)=\sum_{i=1}^k p_ix_i^2-\overline{x}^2$

Équiprobabilité

Dans le cas d'équiprobabilité,

$V(X) = \frac1n\sum_{i=1}^n(x_i-\bar x)^2 = \frac1n\sum_{i=1}^n x_i^2 - \bar x^2$

Cas continu

Dans le cas continu, la variance se calcule de la façon suivante :

$V(X)= \int_\mathbb R x^2 f(x) \mathrm dx - \left( \int_\mathbb R x f(x) \mathrm dx \right)^2$

Variance d'un vecteur aléatoire

Si l'on définit $X_{k\times 1}$ comme un vecteur aléatoire qui comporte k variables et $Μ$ comme le vecteur des k espérances de X, on définit alors la variance comme:

Définition — $\Sigma_{k\times k} \equiv \operatorname{Var}[X_{k\times 1}]\equiv \mathbb{E}\left[(X_{k\times 1}-\Mu)(X_{k\times 1}-\Mu)'\right]$

Il s'agit alors d'une matrice carrée de taille k, appelée matrice de variance-covariance, qui comporte sur sa diagonale les variances de chaque composante du vecteur aléatoire et en dehors de la diagonale les covariances. Cette matrice est symétrique et semi-définie positive ; elle est définie positive si et seulement si la seule combinaison linéaire certaine (c'est-à-dire presque sûrement constante) des composantes du vecteur aléatoire est celle dont tous les coefficients sont nuls.

On a les propriétés suivantes:

Propriété — Si V est une matrice carrée de taille $k, \operatorname{Var}[V_{k\times k}X_{k\times 1}]=V\operatorname{Var}[X]V'$

Estimation

Deux estimateurs sont généralement utilisés pour la variance:

$s_n^2 = \frac 1n \sum_{i=1}^n \left(y_i - \overline{y} \right)^ 2 = \left(\frac{1}{n} \sum_{i=1}^{n}y_i^2\right) - \overline{y}^2,$

$s^2_{n-1} = \frac{1}{n-1} \sum_{i=1}^n\left(y_i - \overline{y} \right)^ 2 = \frac{1}{n-1}\sum_{i=1}^n y_i^2 - \frac{n}{n-1} \overline{y}^2,$

Propriétés

Biais

L'estimateur $s^2_{n}$ est biaisé: $E(s^2_{n})=\frac{n-1}{n} \sigma^2$

Démonstration

L'estimateur $s^2_{n}$ est:

$\begin{align} s^2_{n} &\equiv\frac{1}{n} \sum_{i=1}^n \left( x_i - \overline{x}\right)^2 \\ & = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \overline{x}^2 \end{align}$ .

La deuxième égalité s'obtient d'après le théorème de König-Huyghens.

Nous allons calculer l'espérance de l'estimateur d'après la deuxième formule:

$E(s^2_{n}) = E\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - E(\overline{x}^2)$ .

Il faut donc étudier l'espérance des deux termes, on verra que:

$E\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right)=E(X)^2+V(X)$

Démonstration

$E\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right)=\frac{1}{n}E(\sum_{i=1}^n x_i^2)=\frac{1}{n}\sum_{i=1}^n E(x_i^2)=\frac{1}{n}n E(x_i^2)=E(x_i^2)$ .

On a supposé que tous les réalisations ont la même espérance: $E (x i) = E (X)$ En appliquant de nouveau la formule de König-Huyghens: $E(x_i^2)=E(X^2)= E(X)^2 +V(X)$ .

$E(\overline{x}^2)=E(X)^2+\frac{1}{n}V(X)$

Démonstration

Etudions au préalable l'espérance et la variance de la moyenne:

La moyenne $\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i$ de l'échantillon est une variable aléatoire (si on change les individus alors $\overline{x}$ varie):

-d'espérance $E(\overline{x}) = E(X)$

-de variance: $V(\overline{x})=\frac{1}{n} \cdot V(X)$ (la moyenne de n variables aléatoires fluctue moins qu'une seule variable aléatoire)

En appliquant de nouveau la formule de König-Huyghens: $E(\overline{x}^2)=E(\overline{x})^2+V(\overline{x})=E(X)^2+\frac{1}{n}V(X)$ .

On a donc $E(s^2_{n}) = E(X)^2+V(X) - E(X)^2-\frac{1}{n}V(X)=\frac{n-1}{n}V(X)$ .

La variance s de l'échantillon fluctue donc autour de $\frac{n-1}{n}V(X)$ et non autour de V(X) comme on aurait pu s'y attendre.

L'estimateur $s^2_{n-1}$ est sans biais.

Démonstration — En effet, il suffit de corriger l'estimateur $s^2_{n}$ en le multipliant par $\frac{n}{n-1}$ pour avoir un estimateur sans biais: $E\left[\frac{n}{n-1} s^2_{n}\right]= \frac{n}{n-1} E[s^2_{n}]=\frac{n}{n-1} \frac{n-1}{n}\sigma^2=\sigma^2$

Pourquoi n-1?

Le fait que l'estimateur de la variance doive être divisé par n-1 (et donc dans un certain sens moins précis) pour être sans biais provient du fait que l'estimation de la variance implique l'estimation d'un paramètre en plus, l'espérance. Cette correction tient compte donc du fait que l'estimation de l'espérance induit une incertitude de plus. En effet:

Théorème — si l'on suppose que l'espérance est connue, l'estimateur $S^2_{n}$ est sans biais

Démonstration

en reprenant la démonstration du biais de $S^2_{n}$ lorsque l'espérance est inconnue, on avait montré que: $E(s^2_{n}) = E\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - E(\overline{x}^2)$ . Puis calculé que:

$E\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right)=E(X)^2+V(X)$
$E(\overline{x}^2)=E(X)^2+\frac{1}{n}V(X)$

Cependant, le deuxième calcul est désormais différent: $E [X]$ étant connu, on pose que $E [X] = μ$ et on a: $E [μ 2] = E [μ] 2$

Donc on a directement: $E(\overline{x}^2)=E(X)^2$ .

La formule devient alors: $E(s^2_{n}) = E(X)^2+V(X)- E(X)^2=V(X)$

Convergence

Les estimateurs $s^2_{n}$ et $s^2_{n-1}$ sont convergents en probabilité.

Théorème — $s^2_{n}$ et $s^2_{n-1} \quad \xrightarrow{p} \quad \sigma^2$ si les observations sont iid $(μ, σ 2)$ .

Démonstration

Réecrivons l'estimateur:

$s_n^2 = \frac 1n \sum_{i=1}^n \left(y_i - \overline{y} \right)^ 2=\left(\frac{1}{n} \sum_{i=1}^{n}y_i^2\right) - \overline{y}^2$

Et étudions la convergence des termes séparément:

$\overline{y}^2 \xrightarrow{p} \quad \mu^2$ par le théorème de Slutsky.
$\frac 1n \sum_{i=1}^n \left(y_i - \overline{y} \right)^ 2 \xrightarrow{p} \quad \operatorname{E}[x^2]= \mu^2+\sigma^2$ par la loi des grands nombres.

Alors $s_n^2 \quad \xrightarrow{p} \quad \mu^2+\sigma^2-\mu^2 = \sigma^2$

Comme ce résultat est asymptotique, il s'applique également à $s^2_{n-1}$ , qui est asymptotiquement équivalent à $s^2_{n}$

Distribution des estimateurs

En tant que fonction de variables aléatoires, l'estimateur de la variance est également une variable aléatoire. Sous l'hypothèse que les $y i$ sont des observations indépendantes d'une loi normale, le théorème de Cochran (en) montre que $s^2_{n-1}$ suit une loi du χ²:

$(n-1)\frac{s^2_{n-1}}{\sigma^2}\sim\chi^2_{n-1}.$

En conséquence, il suit que $\operatorname{E}(s^2_{n-1})=\sigma^2.$ . Cette propriété d'absence de biais peut cependant être démontrée même sans l'hypothèse de normalité des observations.

Méthodes de calcul

Le calcul par ordinateur de la variance empirique peut poser certains problèmes, notamment à cause de la somme des carrés. La page anglaise: Algorithms for calculating variance décrit le problème ainsi que des algorithmes proposés.

Voir aussi

v · Probabilités et statistiques

Théorie des probabilités

Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires	Moyenne • Espérance • Médiane • Variance • Écart type
Loi de probabilité	Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid
Convergence de lois	Théorème central limite • Loi des grands nombres
Calcul stochastique	Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive	Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés
Statistique mathématique	Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne
Tests statistiques	Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications

Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégories :

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Variance (statistiques et probabilités) de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

Variance (statistiques et probabilites) — Variance (statistiques et probabilités) Pour les articles homonymes, voir Variance. En statistique et probabilité, la variance est une mesure arbitraire servant à caractériser la dispersion d une distribution ou d un échantillon. Sommaire 1… … Wikipédia en Français
Variance (statistiques) — Variance (statistiques et probabilités) Pour les articles homonymes, voir Variance. En statistique et probabilité, la variance est une mesure arbitraire servant à caractériser la dispersion d une distribution ou d un échantillon. Sommaire 1… … Wikipédia en Français
Statistiques élémentaires discrètes — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. Les statistiques élémentaires discrètes est un domaine des mathématiques élémentaires qui traite le cas où, dans une enquête statistique, le… … Wikipédia en Français
Statistiques élémentaires continues — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. Dans une enquête statistique, lorsque le caractère statistique peut prendre des valeurs multiples (taille, superficie, salaire…) le caractère … Wikipédia en Français
Probabilités (mathématiques élémentaires) — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. Les probabilités sont nées du désir de prévoir l imprévisible ou de quantifier l incertain. Mais il faut avant tout préciser ce qu elles ne… … Wikipédia en Français
Statistiques (mathématiques élémentaires) — Une enquête statistique consiste à observer une certaine population (élèves d’une classe, personnes âgées de 20 à 60 ans dans une région donnée, familles dans une région donnée, exploitations agricoles, appartements, travailleurs…) et à… … Wikipédia en Français
Statistiques/Archive1 — Statistiques Pour un article sur une statistique consultez l article statistique La statistique est à la fois une science d un point de vue théorique, une méthode et une technique. Elle comprend la collecte, l analyse, l interprétation de… … Wikipédia en Français
PROBABILITÉS (CALCUL DES) — Le calcul des probabilités est certainement l’une des branches les plus récentes des mathématiques, bien qu’il ait en fait trois siècles et demi d’existence. Après s’être cantonné dans l’étude des jeux de hasard, il s’est introduit dans presque… … Encyclopédie Universelle
Statistiques elementaires continues — Statistiques élémentaires continues Cet article fait partie de la série Mathématiques élémentaires Algèbre Logique Arithmétique Probabilités … Wikipédia en Français
Statistiques elementaires discretes — Statistiques élémentaires discrètes Cet article fait partie de la série Mathématiques élémentaires Algèbre Logique Arithmétique Probabilités … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Variance (statistiques et probabilités)

Sommaire

Définition

Propriétés

Écart type