Analyse de la variance

L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus d'une même population.

Ce test s'applique lorsque l'on mesure une ou plusieurs variables explicatives catégorielles (appelées alors facteurs de variabilité, leurs différentes modalités étant parfois appelées « niveaux ») qui ont de l'influence sur la distribution d'une variable continue à expliquer. On parle d'analyse à un facteur, lorsque l'analyse porte sur un modèle décrit par un facteur de variabilité, d'analyse à deux facteurs ou d'analyse multifactorielle.

Principe

L'analyse de la variance permet d'étudier le comportement d'une variable à expliquer continue en fonction d'une ou plusieurs variables explicatives catégorielle. Lorsque l'on souhaite étudier le comportement de plusieurs variables à expliquer en même temps, on utilisera une analyse de la variance multiple (MANOVA). Si un modèle contient des variables explicatives catégorielles et continues et que l'on souhaite étudier les lois liant les variables explicatives continues avec la variable à expliquer en fonction de chaque modalité des variables catégorielles, on utilisera alors une analyse de la covariance (ANCOVA).

Modèle

La première étape d'une analyse de la variance consiste à écrire le modèle théorique en fonction de la problématique à étudier. Il est souvent possible d'écrire plusieurs modèles pour un même problème, en fonction des éléments que l'on souhaite intégrer dans l'étude.

Le modèle général s'écrit :

$y_{ijk...} = \mu + f(i, j, k, ...) + \epsilon ~$

avec $Y i j k ...$ la variable à expliquer, $μ$ une constante, $f ()$ une relation entre les variables explicatives et $\epsilon$ l'erreur de mesure. On pose l'hypothèse fondamentale que l'erreur suit une loi normale : $\epsilon = N(0, \sigma^2)$ .

Variables explicatives

On distingue deux types de variables catégorielles : avec ou sans effet aléatoire.

Pour une variable à effet fixe, pour chaque modalité, il existe une valeur fixe correspondante. Elles s'écrivent dans le modèle théorique avec une lettre majuscule :

$y_i = \mu + A_i + \epsilon_i ~$

avec $A 0 = A$ pour i=0, $A 1 = A$ pour i=1, etc.

Dans le cas d'une variable à effet aléatoire, la variable est issue d'une loi supposée normale qui s'ajoute à la valeur fixe. Elles s'écrivent dans le modèle théorique avec une lettre grecque minuscule :

$y_i = \mu + \alpha_i + \epsilon_i ~$

avec $\alpha_i = \mu_a + \epsilon_\alpha$ et $\epsilon_\alpha = N(0, \sigma_\alpha^2)$

Un modèle basé seulement sur des variables explicatives à effets fixes et effets aléatoires est appelé modèle mixte.

Hypothèses fondamentales

La forme générale de l'analyse de variance repose sur le test de Fisher et donc sur la normalité des distributions et l'indépendance des échantillons.

Normalité de la distribution : on suppose, sous l'hypothèse nulle, que les échantillons sont issus d'une même population et suivent une loi normale. Il est donc nécessaire de vérifier la normalité des distributions et l'homoscédasticité (homogénéité des variances, par des tests de Bartlett ou de Levene par exemple). Dans le cas contraire, on pourra utiliser les variantes non paramétriques de l'analyse de variance (ANOVA de Kruskal-Wallis ou ANOVA de Friedman).

Indépendance des échantillons : on suppose que chaque échantillon analysé est indépendant des autres échantillons. En pratique, c'est la problématique qui permet de supposer que les échantillons sont indépendants. Un exemple fréquent d'échantillons dépendants est le cas des mesures avec répétitions (chaque échantillon est analysé plusieurs fois). Pour les échantillons dépendants, on utilisera l'analyse de variance à mesures répétées ou l'ANOVA de Friedman pour les cas non paramétriques.

Hypothèses à tester

L'hypothèse nulle correspond au cas où les distributions suivent la même loi normale.

L'hypothèse alternative est qu'il existe au moins une distribution dont la moyenne s'écarte des autres moyennes :

$\begin{cases} {H_0~:~m_{1}=m_{2}=...=m_{k}=m} \\ {H_1~:~\exists (i,j)~\text{tel que}~m_i \neq m_j} \end{cases}$ .

Décomposition de la variance

La première étape de l'analyse de la variance consiste à expliquer la variance totale sur l'ensemble des échantillons en fonction de la variance due aux facteurs (la variance expliquée par le modèle), de la variance due à l'interaction entre les facteurs et de la variance résiduelle aléatoire (la variance non expliquée par le modèle). $S_n^2$ étant un estimateur biaisé de la variance, on utilise la somme des carrés des écarts (SCE en français, SS pour Sum Square en anglais) pour les calculs et l'estimateur non biaisé de la variance $S_{n-1}^2$ (également appelé carré moyen ou CM).

L'écart (sous entendu l'écart à la moyenne) d'une mesure est la différence entre cette mesure et la moyenne :

$e = y_{ijk...} - \overline{y}$ .

La somme des carrés des écarts SCE et l'estimateur $S_{n-1}^2$ se calculent à partir des formules :

$SCE = \sum_{ijk...} (y_{ijk...} - \overline{y})^2 \qquad \text{et} \qquad S_{n-1}^2 = \frac{SCE}{n-1}$

Il est alors possible d'écrire la somme des carrés des écarts total $S C E total$ comme étant une composition linéaire de la somme des carrés des écarts de chaque variable explicative $S C E factor$ et de la somme des carrés des écarts pour chaque interaction $S C E interaction$ :

$SCE_\text{total} = \sum_i { SCE_{\text{facteur}_i} } + \sum_{ij} { SCE_{\text{interaction}_{ij}} }$

Cette décomposition de la variance est toujours valable, même si les variables ne suivent pas de loi normale.

Test de Fisher

Par hypothèse, la variable observée $y i$ suit une loi normale. La loi du χ² à $k$ degrés de liberté étant définie comme étant la somme de $k$ lois normales au carré, les sommes des carrés des écarts $S C E$ suivent des lois du χ², avec $D D L$ le nombre de degrés de liberté :

$SCE \sim \chi^2(DDL)~$

La loi de Fisher est définie comme le rapport de deux lois du χ². Dans le cas de l'hypothèse nulle $H 0$ , le rapport entre deux estimateurs non biaisés de la variance $S_{DDL}^2~$ doit donc suivre une Loi de Fisher :

$F = \frac {S^2_1} {S^2_2} = \frac {\dfrac {SCE_1} {DDL_1}} {\dfrac {SCE_2} {DDL_2}} \sim F(DDL_1, DDL_2)$

Si la valeur de $F$ n'est pas compatible avec cette loi de Fisher (c'est-à-dire que la valeur de $F$ est supérieure au seuil de rejet), alors on rejette l'hypothèse nulle : on conclut qu'il existe une différence statistiquement significative entre les distributions. Le facteur de variabilité ne sépare pas la population étudiée en groupes identiques. Pour rappel, la valeur de seuil de rejet $F α (D D L 1, D D L 2)$ est précalculée dans les tables de référence, en fonction du risque de première espèce $α$ et des deux degrés de libertés $D D l 1$ et $D D L 2$ .

Tests « post-hoc »

L'analyse de variance permet simplement de répondre à la question de savoir si tous les échantillons suivent une même loi normale. Dans le cas où l'on rejette l'hypothèse nulle, cette analyse ne permet pas de savoir quels sont les échantillons qui s'écartent de cette loi.

Pour identifier les échantillons correspondant, on utilise différents tests «post-hoc» (ou tests de comparaisons multiples, MCP pour Multiple Comparison Test). Ces tests obligent en général à augmenter les risques de l'analyse (en termes de risque statistique). Il s'agit d'une généralisation à k populations du test t de Student de comparaison de moyennes de deux échantillons avec ajustement de l'erreur (FDR, FWER, etc.) Par exemple : les tests LSD de Ficher, les tests de Newman-Keuls, les tests HSD de Tukey, les tests de Bonferroni et Sheffé.

Dans la biologie moderne, notamment, des tests MCP permettent de prendre en compte le risque de façon correcte malgré le grand nombre de tests effectués (par exemple pour l'analyse de biopuces).

Pourquoi ne pas faire directement ces tests, sans passer par une analyse de la variance avant ?

Lorsque l'on analyse plusieurs variables explicatives ayant plusieurs modalités chacune, le nombre de combinaison possible devient rapidement très grand.

Analyse de la variance à un facteur

Également appelé one-way ANOVA (en), l'analyse de la variance à un facteur s'applique lorsque l'on souhaite prendre en compte un seul facteur de variabilité.

Notation

Considérons I échantillons $Y i$ d'effectifs $n i$ , issu des I populations qui suivent I lois normales $\mathcal{N}(\mu_i, \sigma^2)$ de même variance. Chaque individu s'écrit $y i j$ , avec $i \in [1, I]$ et $j \in [1, n_i]$ . L'effectif total est $N = \sum_{i=1}^I n_i$ .

Les moyennes par échantillon et totale s'écrivent :

$\overline{y_{i.}} = \frac 1 n_i \sum_{j=1}^{n_i} {y_{ij}} \sim \mathcal{N}\left( \mu_i, \frac {\sigma^2} {n_i} \right)$ $\overline{y_{..}} = \frac 1 N \sum_{i=1}^I \sum_{j=1}^{n_i} {y_{ij}} \sim \mathcal{N}\left( \mu, \frac {\sigma^2} N \right) \qquad \text{avec} ~ N = \sum_{i=1}^I n_i ~ \text{et} ~ \mu = \frac 1 N \sum_{i=1}^I (n_i \mu_i)$

Décomposition de la variance

Le modèle s'écrit :

$y_{ij} = \alpha_i + \epsilon_{ij} ~$

Dans ces conditions, on montre que la somme des carrés des écarts (et donc la variance) peut être calculée simplement par la formule :

$SCE_\text{total} = SCE_\text{facteur} + SCE_\text{residu} ~$

La part de la variance totale $S C E total$ qui peut être expliquée par le modèle ( $S C E facteur$ , aussi appelée variabilité inter-classe, SSB ou Sum of Square Between class) et la part de la variance totale $S C E total$ qui ne peut être expliquée par le modèle ( $S C E residu$ aussi appelée variabilité aléatoire, variabilité intra-classe, bruit, SSW ou Sum of Square Within class) sont données par les formules :

$SCE_\text{facteur} = \sum_{i=1}^p n_i (\overline{y_i} - \overline{y})^2$ $SCE_\text{residu} = \sum_{i=1}^p \sum_{j=1}^{n_i} (y_{ij}- \overline{y_i})^2$

Démonstration

$SCE_{total} = \sum_{i=1}^p \sum_{j=1}^{n_i} (y_{ij} - \overline{y})^2$ .

En décomposant $~ y_{ij} - \overline{y} = (y_{ij} - \overline{y_i}) + (\overline{y_i} - \overline{y})$ ,

on peut écrire $~ SCE_{total} = \sum_{i=1}^p \sum_{j=1}^{n_i} ((y_{ij}- \overline{y_i}) + (\overline{y_i} - \overline{y}))^2$

$= \sum_{i=1}^p \sum_{j=1}^{n_i} (y_{ij}- \overline{y_i})^2 + \sum_{i=1}^p \sum_{j=1}^{n_i} (\overline{y_i} - \overline{y})^2 + \sum_{i=1}^p \sum_{j=1}^{n_i} 2( y_i^j - \overline{y_i}).(\overline{y_i} - \overline{y})$ .

En remarquant que $~ \sum_{i=1}^p \sum_{j=1}^{n_i} ( y_{ij} - \overline{y_i}).(\overline{y_i} - \overline{y}) = \sum_{i=1}^p (\overline{y_i} \sum_{j=1}^{n_i} (y_{ij} - \overline{y_i}) - \overline{y} \sum_{j=1}^{n_i} (y_{ij} - \overline{y_i})) = 0$ ,

on peut écrire $~ SCE_{total} = \sum_{i=1}^p \sum_{j=1}^{n_i} (y_{ij} - \overline{y_i})^2 + \sum_{i=1}^p \sum_{j=1}^{n_i} (\overline{y_i} - \overline{y})^2$

$= \sum_{i=1}^p \sum_{j=1}^{n_i} (y_{ij} - \overline{y_i})^2 + \sum_{i=1}^p n_i (\overline{y_i} - \overline{y})^2$

$= SCE_\text{residu} + SCE_\text{facteur} ~$ .

Analyse des résidus

Il est toujours possible que le modèle ne soit pas correct et qu'il existe un facteur de variabilité inconnu (ou supposé a priori inutile) qui ne soit pas intégré dans le modèle. Il est possible d'analyser la normalité de la distribution des résidus pour rechercher ce type de biais. Les résidus, dans le modèle, doivent suivre une loi normale $\mathcal{N}(0, \sigma^2)~$ ). Tout écart significatif par rapport à cette loi normale peut être testé ou visualisé graphiquement :

Script R

layout(matrix(1:3, 1, 3))

produc ← c(20.1, 19.8, 21.3, 20.7, 22.6, 24.1, 23.8, 22.5, 23.4, 24.5, 22.9, 31.2, 31.6, 31.0, 32.1, 31.4, 22.8, 21.7, 23.3, 23.1, 24.1, 22.3, 22.7, 23.1, 22.9, 21.9, 23.4, 23.0, 31.7, 33.1, 32.5, 35.1, 32.2, 32.6)

race ← as.factor(c("A", "A", "A", "A", "B", "B", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C", "A", "A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C", "C"))

plot(residuals(lm(produc~race)), ylab="Residus", col="blue")

abline(0, 0, col="red")

hist(residuals(lm(produc~race)), nclass=20, xlab="Residus", ylab="Frequence", xlim=c(-3,3), pro=T, col="blue", main="Analyse des residus")

lines(seq(-3,3,le=100), dnorm(seq(-3,3,le=100), 0, sqrt(var(residuals(lm(produc~race))))), col="red")

qqnorm(residuals(lm(produc~race)))

qqline(residuals(lm(produc~race)), col="red")

Article détaillé : Tests de normalité.

Test de Fisher

Degrés de liberté et variances

Par hypothèse, la variable observée $y i$ suit une loi normale. La loi du χ² à $k$ degrés de liberté étant définie comme étant la somme de $k$ lois normales au carré, les sommes des carrés des écarts $S C E$ suivent les lois du χ² suivantes, avec $p$ le nombre de niveaux du facteur de variabilité et $n$ le nombre total d'individu :

$SCE_\text{facteur} = \sum_{i=1}^p n_i (\overline{y_i} - \overline{y})^2 \sim \chi^2(DDL_\text{facteur}) \qquad \text{avec} ~ DDL_\text{facteur} = \sum_{i=1}^{p-1} 1 = p-1$ $SCE_\text{residu} = \sum_{i=1}^p \sum_{j=1}^{n_i} (y_i^j - \overline{y_i})^2 \sim \chi^2(DDL_\text{residu}) \quad \text{avec} ~ DDL_\text{residu} = \sum_{i=1}^p (n_i - 1) = (n_1-1)+(n_2-1)+\cdots+(n_p-1) = n - p$

Les variances s'obtiennent en faisant le rapport de la somme des carrés des écarts sur le nombre de degrés de liberté :

$S^2_\text{facteur} = \frac {SCE_\text{facteur}} {p-1} = \frac 1 {p-1} \sum_{i=1}^p n_i (\overline{y_i} - \overline{y})^2$ $S^2_\text{residu} = \frac {SCE_\text{residu}} {n-p} = \frac 1 {n-p} \sum_{i=1}^p \sum_{j=1}^{n_i} (y_i^j - \overline{y_i})^2$

La Loi de Fisher étant défini comme le rapport de deux lois du χ², le rapport $\frac {S^2_\text{facteur}} {S^2_\text{residu}}$ soit donc une Loi de Fisher :

$F = \frac {S^2_\text{facteur}} {S^2_\text{residu}} = \frac {\dfrac {SCE_\text{facteur}} {p-1}} {\dfrac {SCE_\text{residu}} {n-p}} \sim F(p-1, n-p)$

Remarque

Pour les amateurs de géométrie vectorielle, la décomposition des degrés de liberté correspond à la décomposition d'un espace vectoriel de dimension nm en sous espaces supplémentaires et orthogonaux de dimensions respectives $m - 1$ et $m (n - 1)$ . Voir par exemple le cours dispensé par Toulouse III : univ-tlse1.fr pages 8 et 9. On peut se reporter aussi au livre classique de Scheffé (1959)

Test d'adéquation à la loi de Fisher

$F = \frac {\frac {SCE_\text{facteur}} {DDL_\text{facteur}}} {\frac {SCE_\text{total}} {DDL_\text{total}}}$

Il se trouve (comme on peut le voir dans la décomposition mathématique) que les deux termes sont tous les deux une estimation de la variabilité résiduelle si le facteur A n'a pas d'effet. De plus, ces deux termes suivent chacun une loi de χ², leur rapport suit donc une loi de F (voir plus loin pour les degrés de liberté de ces lois). Résumons :

Si le facteur A n'a pas d'effet, le rapport de $S a$ et $S r$ suit une loi de F et il est possible de vérifier si la valeur du rapport est « étonnante » pour une loi de F
Si le facteur A a un effet, le terme $S a$ n'est plus une estimation de la variabilité résiduelle et le rapport $\frac{S_{a}}{S_{r}}$ ne suit plus une loi de F. On peut comparer la valeur du rapport à la valeur attendue pour une loi de F et voir, là aussi, à quel point le résultat est « étonnant ».

Résumer les choses ainsi permet de clarifier l'idée mais renverse la démarche : on obtient en pratique une valeur du rapport $\frac{S_{a}}{S_{r}}$ qu'on compare à une loi de F, en se donnant un risque α (voir l'article sur les tests et leurs risques). Si la valeur obtenue est trop grande, on en déduit que le rapport ne suit vraisemblablement pas une loi de F et que le facteur A a un effet. On conclut donc à une différence des moyennes.

$C M B$ est l'estimateur $S A$ présenté au paragraphe précédent (première approche technique) et $C M W$ l'estimateur $S B$ . On en déduit le F de Fisher, dont la distribution est connue et tabulée sous les hypothèses suivantes :

Les résidus $\epsilon$ sont distribués normalement
Avec une espérance nulle
Avec une variance $σ 2$ indépendante de la catégorie i
Avec une covariance nulle deux à deux (indépendance)

Le respect de ces hypothèses assure la validité du test d'analyse de la variance. On les vérifie a posteriori par diverses méthodes (tests de normalité, examen visuel de l'histogramme des résidus, examen du graphique des résidus en fonction des estimées) voir condition d'utilisation ci-dessous.

Table d'ANOVA

La table d'ANOVA permet de résumer les calculs nécessaires :

Source de la variance	Sommes des carrés des écarts	Degrés de liberté	Variance	F	p-value
Inter-classes	$S C E facteur$	$D D L facteur$	$S^2_\text{facteur} = \frac {SCE_\text{facteur}} {DDL_\text{facteur}}$	$F = \frac {S^2_\text{facteur}} {S^2_\text{residu}}$	$P_{H_0}(F>F_{obs})$
Intra-classe	$S C E residu$	$D D L residu$	$S^2_\text{residu} = \frac {SCE_\text{residu}} {DDL_\text{residu}}$
Total	$S C E total$	$D D L total$

Exemple illustratif

Prenons un exemple pour illustrer la méthode. Imaginons un éleveur qui souhaite acheter de nouvelles vaches pour sa production laitière. Il possède trois races différentes de vaches et se pose donc la question de savoir si la race est importante pour son choix. Il possède comme informations la race de chacune de ses bêtes (c'est la variable explicative discrète ou facteur de variabilité, qui peut prendre 3 valeurs différentes) et leurs productions de lait journalières (c'est la variable à expliquer continue, qui correspond au volume de lait en litre).

Dans notre exemple, l'hypothèse nulle revient à considérer que toutes les vaches produisent la même quantité de lait journalière (au facteur aléatoire près) quelle que soit la race. L'hypothèse alternative revient à considérer qu'une des races produit significativement plus ou moins de lait que les autres.

Supposons que les productions sont :

Pour la race A : 20,1 ; 19,8 ; 21,3 et 20,7
Pour la race B : 22,6 ; 24,1 ; 23,8 ; 22,5 ; 23,4 ; 24,5 et 22,9
Pour la race C : 31,2 ; 31,6 ; 31,0 ; 32,1 et 31,4

Race	Taille	Moyenne	Variance
A	4	20,475	0,4425
B	7	23,4	0,59333
C	5	31,46	0,178
Total	16	25,1875	20,90117

Table d'ANOVA

Source de la variance	Sommes des carrés des écarts	Degrés de liberté	Variance	F	p-value
Inter-classes	307,918	2	153,959	357,44	4,338e-12
Intra-classe	5,6	13	0,431
Total	313.518	15

Analyse réalisée avec R

> produc ← c(20.1, 19.8, 21.3, 20.7, 22.6, 24.1, 23.8, 22.5, 
23.4, 24.5, 22.9, 31.2, 31.6, 31.0, 32.1, 31.4)
> race ← as.factor(c("A", "A", "A", "A", "B", "B", "B", "B", "B", 
"B", "B", "C", "C", "C", "C", "C"))

# Regardons les moyennes par groupe:
> tapply(produc, race, mean)
A         B         C 
20.475    23.400    31.460
# On remarque des différences entre groupes, mais sont-elles statistiquement significatives?

# Testons le par l'ANOVA:
> anova(lm(produc~race))
Analysis of variance Table

Response: produc
             Df     Sum Sq    Mean Sq    F value       Pr(>F)
race          2    307.918    153.959     357.44    4.338e-12 ***
Residuals    13      5.600      0.431 

Signif. Codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Les résultats de l'analyse sont présentés dans un tableau (les couleurs ont été ajoutées pour faciliter l'explication). Le tableau contient 3 lignes : la première contient les titres des colonnes, la dernière contient l'analyse des résidus. Le tableau contient également une ligne par facteur de variabilité (une seule dans cet exemple).

La première colonne (en rouge) indique les facteurs analysés : le facteur "race" et les résidus ("Residuals" (en)).
La seconde colonne (en bleu) indique le nombre de degrés de liberté : 3 races différentes - 1 = 2 degrés de libertés pour le facteur "race" ; 16 individus dans l'étude - 3 niveaux pour le facteur "race" = 13 degrés de liberté pour les résidus.
La cinquième colonne (en vert) indique le $F$ calculé dans cet exemple.
La sixième colonne (en marron) indique la probabilité que l'hypothèse nulle soit vraie (p-value). Dans cet exemple, la valeur très basse indique que l'on peut rejeter l'hypothèse nulle avec très peu de risque : l'agriculteur peut conclure "les 3 races de vaches ne produisent pas la même quantité journalière de lait". Le nombre d'étoiles à côté de la valeur de $p$ indique la confiance que l'on peut accorder au résultat : 3 étoiles indiquent que le résultat est très sûr (p-value < 0,001).

Analyse de la variance à deux facteurs

Également appelé two-way ANOVA (en), l'analyse de la variance à deux facteurs s'applique lorsque l'on souhaite prendre en compte deux facteurs de variabilité.

Décomposition de la variance

Soit un premier facteur de variabilité pouvant prendre les niveaux $i = 1.. p$ , un second facteur de variabilité pouvant prendre les niveaux $j = 1.. q$ , $n i j$ le nombre d'individu dans le niveau $i$ du premier facteur et le niveau $j$ du second facteur, $n$ le nombre d'individu total et $r$ le nombre d'individu dans chaque sous-groupe (pour un niveau i et un niveau j donné). La variable à expliquer s'écrit $y i j k$ avec $i = 1.. p$ , $j = 1.. n i$ et $k = 1.. m j$ .

La variable à expliquer peut être modélisée par la relation :

$Y_{ijk} = \alpha_i + \beta_j + \gamma_{ij} + \epsilon_{ijk} ~$

avec $α i$ l'effet du niveau $i$ du premier facteur, $β j$ l'effet du niveau $j$ du second facteur, $γ i j$ l'effet d'interaction entre les deux facteurs et $\epsilon_{ijk}$ l'erreur aléatoire (qui suit alors une loi normale $\mathcal{N}(0, \sigma^2)~$ ).

Le calcul présenté dans le cas à un facteur peut être transposé au cas à deux facteurs :

$SCE_\text{total} = SCE_\text{facteur 1} + SCE_\text{facteur 2} + SCE_\text{interaction} + SCE_\text{residu}~$

La part de la variance totale expliquée par le premier facteur ( $S C E facteur 1$ ), la part de la variance totale expliquée par le second facteur ( $S C E facteur 2$ ), l'interaction entre les deux facteurs ( $S C E interaction$ ) et la part de la variance totale qui ne peut être expliquée par le modèle ( $S C E residu$ , appelé aussi variabilité aléatoire ou bruit) sont données par les formules :

$SCE_\text{facteur 1} = rq \sum_{i=1}^p (\overline{y_i} - \overline{y})^2$	$SCE_\text{facteur 2} = rp \sum_{j=1}^q (\overline{y_j} - \overline{y})^2$
$SCE_\text{interaction} = r \sum_{i=1}^p \sum_{j=1}^q (\overline{y_{ij}} - \overline{y_i} - \overline{y_j} + \overline{y})^2$	$SCE_\text{residu} = \sum_{i=1}^p \sum_{j=1}^q \sum_{k=1}^{n_{ij}} (y_{ijk} - \overline{y_{ij}})^2$

L'analyse de l'interaction entre facteurs est relativement complexe^[1]. Dans le cas où les facteurs sont indépendants, on peut s'intéresser qu'aux effet principaux des facteurs. La formule devient alors :

$SCE_\text{total} = SCE_\text{facteur 1} + SCE_\text{facteur 2} + SCE_\text{residu} ~$

Exemple illustratif

Notre exploitant laitier souhaite améliorer la puissance de son analyse en augmentant la taille de son étude. Pour cela, il inclut les données provenant d'une autre exploitation. Les chiffres qui lui sont fournis sont les suivants :

Pour la race A : 22,8 ; 21,7 ; 23,3 ; 23,1 ; 24,1 ; 22,3 et 22,7
Pour la race B : 23,1 ; 22,9 ; 21,9 ; 23,4 et 23,0
Pour la race C : 31,7 ; 33,1 ; 32,5 ; 35,1 ; 32,2 et 32,6

Analyse réalisée avec R :

> produc ← c(20.1, 19.8, 21.3, 20.7, 22.6, 24.1, 23.8, 22.5, 23.4, 
24.5, 22.9, 31.2, 31.6, 31.0, 32.1, 31.4, 22.8, 21.7, 23.3, 23.1, 
24.1, 22.3, 22.7, 23.1, 22.9, 21.9, 23.4, 23.0, 31.7, 33.1, 32.5, 
35.1, 32.2, 32.6)

> race ← as.factor(c("A", "A", "A", "A", "B", "B", "B", "B", "B", 
"B", "B", "C", "C", "C", "C", "C", "A", "A", "A", "A", "A", "A", 
"A", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C", "C"))

> centre ← as.factor(c(rep("premier", 16), rep("second", 18)))

> anova(lm(produc~race*centre))
Analysis of variance Table

Response: produc
               Df    Sum Sq    Mean Sq     F value       Pr(>F)    
race            2    696.48     348.24    559.6811    < 2.2e-16 ***
centre          1      8.46       8.46     13.6012    0.0009636 ***
race:centre     2     12.23       6.11      9.8267    0.0005847 ***
Residuals      28     17.42       0.62                       
---
Signif. Codes:    0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Analyse de la variance multifactorielle

Décomposition de la variance

On peut encore décomposer la variance en ajoutant un terme pour chaque facteur et un terme pour chaque interaction possible :

$Y_i = \mu + \sum_j \alpha_j + \sum_{j,k} \gamma_{jk} + \epsilon_i$

avec $α j$ l'effet du j^ème facteur et $γ j k$ l'interaction entre le j^ème et le k^ème facteur.

L'analyse de la variance dans le cas de plusieurs facteurs de variabilité est relativement complexe : il est nécessaire de définir un modèle théorique correct, étudier les interactions entre les facteurs, analyser la covariance^[1].

Limites d'utilisation de l'analyse de la variance

Normalité des distributions

La décomposition de la variance est toujours valable, quelle que soit la distribution des variables étudiées. Cependant, lorsqu'on réalise le test de Fisher, on fait l'hypothèse de la normalité de ces distributions. Si les distributions s'écartent légèrement de la normalité, l'analyse de la variance est assez robuste pour être utilisée. Dans le cas où les distributions s'écartent fortement de la normalité, on pourra effectuer un changement de variables (par exemple, en prenant les variables $y'_i = log(y_i)~$ ou $y''_i = y_i^2$ ) ou utiliser un équivalent non paramétrique de l'analyse de la variance.

Article détaillé : Tests de normalité.

Homoscédasticité

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité. L'ANOVA y est très sensible. Il est donc nécessaire de la tester avant toute utilisation.

Contrairement à ce que le nom de cette méthode laisse penser, celle-ci ne permet pas d'analyser la variance de la variable à expliquer mais de comparer les moyennes des distributions de la variable à expliquer en fonction des variables explicatives.

Approches non paramétriques

Lorsque les pré-supposés de l'ANOVA ne sont pas respectés (homoscédasticité par exemple), on entend souvent dire qu'il peut être plus judicieux d'utiliser l'équivalent non-paramétrique de l'ANOVA: le test de Kruskal Wallis pour le cas à un facteur ou, pour le cas à deux facteurs sans répétition, le test de Friedman. Pourtant, ces tests ne regardent pas la même chose. Comme il est écrit plus haut, l'ANOVA permet de comparer une mesure univariée entre des échantillons d'au moins deux populations statistiques. Le test de Kruskal-Wallis a pour hypothèse nulle l'homogénéité stochastique, c'est-à-dire que chaque population statistique est égale stochastiquement (on peut dire 'aléatoirement' pour simplifier) à une combinaison des autres populations. Ce test s'intéresse donc à la distribution contrairement à l'ANOVA et ne peut donc pas être considéré comme un équivalent au sens strict.

Voir aussi

Test (statistique)
Analyse de la covariance (ANCOVA) pour les modèles de régression avec variables explicatives catégorielles.
Analyse de la variance multiple (MANOVA) pour les modèles à plusieurs variables à expliquer.

Sources

SCHERRER, B. (1984). Comparaison des moyennes de plusieurs échantillons indépendants. Tiré de "Biostatistiques". Gaëtan Morin Éditeur. p. 422–463.
RUXTON, G.D. & BEAUCHAMP, G. (2008). Some suggestions about appropriate use of the Kruskal-Wallis test. Animal Behaviour 76, 1083-1087.

Notes et références

↑ ^{a et b} Voir par exemple : Cours et TD de statistique de Lyon 1 pour un exemple d'analyse d'interaction dans un modèle à deux facteurs.

v · Probabilités et statistiques

Théorie des probabilités

Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires	Moyenne • Espérance • Médiane • Variance • Écart type
Loi de probabilité	Variable aléatoire • Loi de Poisson • Loi normale • Loi de Student • Loi de Fisher • Variables iid
Convergence de variables aléatoires	Théorème central limite • Loi des grands nombres
Processus stochastique	Marche aléatoire • Chaîne de Markov • Processus de Markov • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive	Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés
Statistique mathématique	Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne
Tests statistiques	Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications

Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégorie :

Statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Analyse de la variance de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

Analyse De La Variance — L analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus d une même population. Ce test s applique lorsque que l on … Wikipédia en Français
Analyse En Composantes Principales — Pour les articles homonymes, voir ACP. L Analyse en Composantes Principales (ACP) est une Analyse Factorielle de la famille de l Analyse des données et de la Statistique Multivariée, qui consiste à transformer des variables liées entre elles… … Wikipédia en Français
Analyse en composante principale — Analyse en composantes principales Pour les articles homonymes, voir ACP. L Analyse en Composantes Principales (ACP) est une Analyse Factorielle de la famille de l Analyse des données et de la Statistique Multivariée, qui consiste à transformer… … Wikipédia en Français
variance — [ varjɑ̃s ] n. f. • 1904; de variant, p. prés. de varier, d apr. invariant, covariant 1 ♦ Sc. Nombre de conditions définissant un système physique ou chimique et que l on peut faire varier arbitrairement sans détruire l état d équilibre du… … Encyclopédie Universelle
Analyse en composantes principales — Pour les articles homonymes, voir ACP. L Analyse en Composantes Principales (ACP) est une méthode de la famille de l analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre… … Wikipédia en Français
Analyse des données — L’analyse des données est un domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique … Wikipédia en Français
Analyse canonique généralisée — L Analyse canonique généralisée au sens de Caroll (d après J.D.Caroll) étend l Analyse canonique ordinaire à l étude de p Groupes de variables (p > 2) appliquées sur le même espace des individus. Elle admet comme cas particuliers l ACP, l AFC… … Wikipédia en Français
Analyse conjointe — L’analyse conjointe (Trade off en anglais) est une méthode employée en statistique appliquée au marketing pour révéler les attentes des consommateurs à l’égard d’un produit ou service et modéliser leur choix. Sommaire 1 Application 2 Le choix des … Wikipédia en Français
Analyse Discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble… … Wikipédia en Français
Analyse discriminante descriptive — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Analyse de la variance

Sommaire

Principe

Modèle

Variables explicatives

Hypothèses fondamentales

Hypothèses à tester

Décomposition de la variance

Test de Fisher

Tests « post-hoc »

Analyse de la variance à un facteur

Décomposition de la variance

Analyse des résidus

Test de Fisher

Table d'ANOVA

Exemple illustratif

Analyse de la variance à deux facteurs

Décomposition de la variance

Exemple illustratif

Analyse de la variance multifactorielle

Décomposition de la variance

Limites d'utilisation de l'analyse de la variance

Voir aussi

Sources

Notes et références

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Analyse de la variance

Sommaire

Principe

Modèle

Variables explicatives

Hypothèses fondamentales

Hypothèses à tester

Décomposition de la variance

Test de Fisher

Tests « post-hoc »

Analyse de la variance à un facteur

Décomposition de la variance

Analyse des résidus

Test de Fisher

Table d'ANOVA

Exemple illustratif

Analyse de la variance à deux facteurs

Décomposition de la variance

Exemple illustratif

Analyse de la variance multifactorielle

Décomposition de la variance

Limites d'utilisation de l'analyse de la variance

Voir aussi

Sources

Notes et références

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link