Droite de régression

Régression linéaire

Pour les articles homonymes, voir Régression.

Un exemple graphique

En statistiques, étant donné un échantillon aléatoire $(Y_i, X_i), \, i = 1, \ldots, n$ un modèle de régression simple suppose la relation affine suivante entre $Y i$ et $X i$ :

$Y_i = a X_i + b, \qquad i = 1, \ldots, n$

La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables explicatives de ce modèle est donnée par

$Y_i = a_0 + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip}$

et s'appelle la régression linéaire multiple.

Sommaire

1 Situation
2 Définitions
3 Résultat de la régression
4 Erreur commise
5 Coefficient de corrélation linéaire
6 Démonstration des formules par étude d'un minimum
7 Démonstration des formules grâce aux espaces vectoriels de dimension n
8 Généralisation: le cas matriciel
9 Voir aussi
10 Liens externes

Situation

Empiriquement, à partir d'observations $(y_i, x_i), \, i = 1, \ldots, n$ , on a représenté dans un graphe l'ensemble de ces points représentant des mesures d'une grandeur $y i$ en fonction d'une autre $x i$ , par exemple la taille $y i$ des enfants en fonction de leur âge $x i$ .

Les points paraissent alignés. On peut alors proposer un modèle linéaire, c'est-à-dire chercher la droite dont l'équation est $y i = a x i + b$ et qui passe au plus près des points du graphe.

Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des carrés des écarts des points à la droite

$\sum_{i = 1}^n (y_i - ax_i - b)^2 \,$

où (y_i - ax_i - b)² représente le carré de la distance verticale du point expérimental $(y i, x i)$ à la droite considérée comme la meilleure.

Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.

Définitions

Moyenne empirique des x_i : $\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i$ .
Moyenne empirique des y_i : $\overline{y}=\frac{1}{n}\sum_{i=1}^n y_i$ .
Point moyen: $G(\overline{x},\overline{y})$ .
Variance empirique des x_i : $S_X^2 =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2$ .
Ecart-type empirique des x_i : $S_X = \sqrt{S_X^2}=\sqrt{V(x)}$ .
Variance empirique des y_i : $S_Y^2 =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2$ .
Ecart-type empirique des y_i : $S_Y = \sqrt{V(y)}$ .
Covariance empirique des x_i, y_i : $S_{XY} = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y}$ .

La formule de la variance se retient par la mnémonique : La moyenne des carrés moins le carré de la moyenne

de même pour la covariance : La moyenne du produit moins le produit des moyennes.

Résultat de la régression

La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur $\frac{S_{XY}}{S_X^2}$ . Son équation est donc :

$y_i = \frac{S_{XY}}{S_X^2}(x_i -\overline{x})+\overline{y}$

soit

$a = \frac{S_{XY}}{S_X^2}$

$b = \overline{y} - \frac{\overline{x} \cdot S_{XY}}{S_X^2} = \overline{y} - a \cdot \overline{x}$

Erreur commise

Si l'on appelle ε_i l'écart vertical entre la droite et le point (x_i, y_i)

$\varepsilon_i = y_i - a x_i - b$

alors l'estimateur de la variance résiduelle σ²_ε est :

$\hat{\sigma}_\varepsilon^2 = \frac{1}{n-2} \cdot \sum_{i = 1}^n \varepsilon_i^2$

la variance de a, σ²_a, est estimée par

$\hat{\sigma}_a^2 = \frac{\hat{\sigma}_\varepsilon^2}{n \cdot V(x)}$ .

On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau de confiance α donné, on estime que l'erreur sur a est :

$\Delta a = \hat{\sigma}_a \cdot t^{n-2}_{(1-\alpha)/2}$

où t^n-2_(1-α)/2 est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté.

L'erreur commise en remplaçant la valeur mesurée y_i par le point de la droite ax_i + b est :

$\Delta y = \hat{\sigma}_\varepsilon \cdot t^{n-2}_{(1-\alpha)/2}$

À titre d'illustration, voici quelques valeurs de quantiles.

Exemples de quantiles de la loi de Student
n	niveau de confiance
n	90 %	95 %	99 %	99,9 %
5	2,02	2,57	4,032	6,869
10	1,812	2,228	3,169	4,587
100	1,660	1,984	2,626	3,390

Lorsque le nombre de points est important (plus de 100), on prend souvent une erreur à 3σ, qui correspond à un niveau de confiance de 99,7 %.

Voir aussi : Erreur (métrologie).

Coefficient de corrélation linéaire

On peut aussi chercher la droite D' : x = a'y + b' qui rende minimale la somme :

$\sum_{i=1}^n (x_i-a'y_i-b')^2$

On trouve alors une droite qui passe aussi par le point moyen G et telle que

$a' = \frac{S_{XY}}{S_Y^2}$ .

On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si

a' = 1/a,

c'est-à-dire si

aa' = 1.

Les droites sont confondues si et seulement si

$\frac{S_{XY}^2}{S_X^2 S_Y^2}=1$

c'est-à-dire si et seulement si

$\frac{S_{XY}}{S_X S_Y} =\pm 1$

On appelle cette quantité $R = \frac{S_{XY}}{S_X S_Y}$ le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.

En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à $\sqrt{3}/2$

Voir également : Corrélation (mathématiques).

Démonstration des formules par étude d'un minimum

Pour tout réel a, on pose $f_a(b) = \sum_{i=1}^n (y_i-ax_i-b)^2$ . Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:

$f_a(b) = nb^2-2\left(\sum_{i=1}^n (y_i-ax_i)\right)b+ \sum_{i=1}^n (y_i-ax_i)^2$

Ce polynôme atteint son minimum en

$b = \frac{1}{n}\sum_{i=1}^n (y_i-ax_i) = \overline{y} - a\overline{x}$

Ce qui signifie que la droite passe par le point moyen G

Il reste à remplacer dans la somme de départ, b par cette valeur.

Pour tout réel a, $S(a) = \sum_{i=1}^n ((y_i-\overline{y}) - a(x_i-\overline{x}))^2$ . Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient

$S(a) = \left(\sum_{i=1}^n (x_i-\overline{x})^2\right)a^2 - 2\left(\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})\right)a + \sum_{i=1}^n (y_i - \overline{y})^2$

$S(a)= n\times V(x)\times a^2-2\times n\times cov(x,y)\times a + n\times V(y)$ .

Ce polynôme atteint son minimum en

$a=\frac{cov(x,y)}{V(x)}$

La droite de régression est bien la droite passant par G et de coefficient directeur $a=\frac{cov(x,y)}{V(x)}$ .

Démonstration des formules grâce aux espaces vectoriels de dimension n

Dans l'espace $\mathbb{R}^n$ , muni du produit scalaire canonique, on considère le vecteur X de coordonnées $(x 1, x 2,..., x n)$ , le vecteur Y de coordonnées $(y 1, y 2,..., y n)$ , le vecteur U de coordonnées (1, 1, ..., 1).

On peut remarquer que :

$X.U = n\overline{x}$
$Y.U = n\overline{y}$
$||X-\overline{x}U||^2 = n.V(x)$
$||Y-\overline{y}U||^2 = n.V(y)$
$(Y-\overline{y}U).(X-\overline{x}U)=n.cov(x,y)$

On note alors $\overline{X}$ le vecteur $\overline{x}U$ et $\overline{Y}$ le vecteur $\overline{y}U$

Le vecteur Z de coordonnées $(a x 1 + b, a x 2 + b,..., a x n + b)$ appartient à l'espace vectoriel engendré par X et U.

La somme $\sum_{i=1}^n (y_i-ax_i-b)^2$ représente le carré de la norme du vecteur $Y - Z$ .

Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U).

Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si $(Z - Y). U = 0$ et $(Z-Y).(X - \overline{X})=0$ .

Or $(Z-Y).U=aX.U+bU^2-Y.U=n(a\overline{x}+b-\overline{y})$ donc (Z-Y).U=0 signifie que $b= \overline{y} - a\overline{x}$ .

En remplaçant dans $(Z-Y).(X - \overline{X})$ , on obtient

$(a(X-\overline{X})-(Y-\overline{Y})).(X - \overline{X}) = naV(x) - ncov(x,y)$ donc $(Z-Y).(X - \overline{X})=0$ signifie que $a = \frac{cov(x,y)}{V(x)}$

Enfin le coefficient de corrélation linéaire s'écrit alors $\frac{(X-\overline{X}).(Y-\overline{Y})}{||X-\overline{X}||\times||Y-\overline{Y}||}$ . Cette quantité représente le cosinus de l'angle formé par les vecteurs $X-\overline{X}$ et $Y-\overline{Y}$ .

On retrouve alors les résultats suivants:

si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs $X-\overline{X}$ et $Y-\overline{Y}$ sont colinéaires de coefficient de colinéarité $a$ et $Y = aX + \overline{Y}-a\overline{X}$ . L'ajustement linéaire est parfait.
si le coefficient de corrélation linéaire est en valeur absolue supérieur à $\sqrt{3}/2$ alors l'angle formé par les deux vecteurs est compris entre $- π / 6$ et $π / 6$ ou entre $5π / 6$ et $7π / 6$ .

Généralisation: le cas matriciel

Article détaillé : Régression linéaire multiple.

Lorsqu'on dispose de plusieurs variables explicatives dans une régression linéaire, il est souhaitable d'avoir recours aux notations matricielles. Si l'on dispose d'un jeu de n données $(y i) i = 1.. n$ que l'on souhaite expliquer par k variables explicatives (y compris la constante) $(1; x_{1,i}; \cdots ; x_{k-1,i})_{i=1..n}$ , on peut poser:

$\mathbf{y} = \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix} \,\mbox{et}\, \mathbf{X} = \begin{bmatrix} 1 & x_{1,1} & \cdots & x_{k-1,1} \\ 1 & x_{1,2} & \cdots & x_{k-1,2}\\ \vdots & \vdots & \vdots \\ 1 & x_{1,n} & \cdots & x_{k-1,n} \end{bmatrix}$

La régression linéaire s'exprime sous forme matricielle:

$\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}$

et il est question d'estimer le vecteur de coefficients k × 1 $\boldsymbol{\beta}$ .

Son estimateur par moindre carré est:

$\boldsymbol{\widehat{\beta}} = (\mathbf{X}^{T} \mathbf{X})^{-1} \mathbf{X}^{T} \mathbf{y}$

Il faut que la matrice X soit de plein rang ( ${\rm rang}(\mathbf{X})=k$ ) afin que $\mathbf{X}^{T} \mathbf{X}$ soit inversible.

L'estimation de la matrice (symétrique) de variance-covariance de cet estimateur est:

$\boldsymbol{\widehat{\sigma}_{\widehat{\beta}}} = \begin{bmatrix} \hat{\sigma}^2_{\hat{\beta}_1} & \widehat{cov}(\hat{\beta}_1,\hat{\beta}_2) & \cdots & \widehat{cov}(\hat{\beta}_1,\hat{\beta}_k) \\ \widehat{cov}(\hat{\beta}_2,\hat{\beta}_1) & \widehat{\sigma}^2_{\hat{\beta}_2} & \cdots & \widehat{cov}(\hat{\beta}_2,\hat{\beta}_k) \\ \vdots & \vdots & \vdots & \vdots \\ \widehat{cov}(\hat{\beta}_n,\hat{\beta}_2) & \cdots & \cdots & \widehat{\sigma}^2_{\hat{\beta}_n}\end{bmatrix} = \frac{\mathbf{\widehat{e}}^{T} \mathbf{\widehat{e}}}{(n-k)} (\mathbf{X}^{T} \mathbf{X})^{-1}$

Le terme $\mathbf{\widehat{e}}^{T} \mathbf{\widehat{e}}$ représente la somme des carrés des résidus $\mathbf{\widehat{e}} = y - \widehat{\mathbf{y}} = \mathbf{X} \boldsymbol{\widehat{\beta}}$ .

La qualité de l'ajustement linéaire se mesure encore par un coefficient de corrélation $R 2$ , défini ici par:

$R^2 = \frac{{\rm SCE}}{{\rm SCT}}$

où SCE (respectivement SCT) représente la somme des carrés expliqués (respectivement la somme des carrés totaux). Ces sommes se donnent par ${\rm SCE} = \widehat{\mathbf{y}}^{T} \widehat{\mathbf{y}} = \sum_i \widehat{y}_i^2$ et ${\rm SCT} = \mathbf{y}^T \mathbf{y}= \sum_i y_i^2$ .

Voir aussi

Statistiques
Statistique (mathématiques élémentaires)
Régression mathématique
Corrélation (mathématiques)
Régression linéaire multiple, la généralisation à p variables explicatives de la régression linéaire $y = f(x_1, x_2, ..., x_p)\,$ .
Modèles de régression multiple postulés et non postulés

Liens externes

http://yves.demur.free.fr/guppy/file/reglin/reglin0108.pdf (utilisation pratique de la régression linéaire, + programmes test en C sur le site http://yves.demur.free.fr/guppy/articles.php?lng=fr&pg=84)
http://www.unilim.fr/pages_perso/jean.debord/math/reglin/reglin.pdf La régression linéaire

Portail des probabilités et des statistiques

Ce document provient de « R%C3%A9gression lin%C3%A9aire ».

Catégorie : Estimation (statistique)

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Droite de régression de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

Droite de régression — ● Droite de régression représentation d un ensemble ou d un nuage de points figuratifs à l aide d une droite dont la somme des carrés des distances aux divers points figuratifs est minimale, ces distances étant comptées parallèlement à l axe des… … Encyclopédie Universelle
Regression lineaire — Régression linéaire Pour les articles homonymes, voir Régression. Un exemple graphique En statistiques, étant donné un échantillon aléatoire … Wikipédia en Français
régression — [ regresjɔ̃ ] n. f. • 1374 « retour »; repris XVIIIe, puis XIXe; lat. regressio 1 ♦ (1765) Rhét. Inversion de l ordre des mots. 2 ♦ (1877) Évolution vers le point de départ. ⇒ recul. L histoire est faite de progressions et de régressions.… … Encyclopédie Universelle
Regression lineaire multiple — Régression linéaire multiple Pour les articles homonymes, voir Régression. Sommaire 1 Modèle théorique 1.1 Exemple 1.2 E … Wikipédia en Français
Régression multilinéaire — Régression linéaire multiple Pour les articles homonymes, voir Régression. Sommaire 1 Modèle théorique 1.1 Exemple 1.2 E … Wikipédia en Français
Régression linéaire multiple — Pour les articles homonymes, voir Régression. La régression linéaire multiple est une analyse statistique qui décrit les variations d une variable endogène associée aux variations de plusieurs variables exogènes. Par exemple, une analyse de… … Wikipédia en Français
Regression (statistiques) — Régression (statistiques) Pour les articles homonymes, voir Régression. La régression est une méthode statistique très utilisée pour analyser la relation d une variable par rapport à une ou plusieurs autres. On recourt à une estimation des… … Wikipédia en Français
Régression mathématique — Régression (statistiques) Pour les articles homonymes, voir Régression. La régression est une méthode statistique très utilisée pour analyser la relation d une variable par rapport à une ou plusieurs autres. On recourt à une estimation des… … Wikipédia en Français
Régression multivariée par spline adaptative — La Régression multivariée par spline adaptative (en anglais MARS pour « Multivariate adaptive regression splines ») est une méthode statistique; plus précisément, c est une forme de modèle de régression présentée pour la première fois… … Wikipédia en Français
Corrélation linéaire — Régression linéaire Pour les articles homonymes, voir Régression. Un exemple graphique En statistiques, étant donné un échantillon aléatoire … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Droite de régression

Régression linéaire

Sommaire

Situation

Définitions

Résultat de la régression

Erreur commise

Coefficient de corrélation linéaire

Démonstration des formules par étude d'un minimum

Démonstration des formules grâce aux espaces vectoriels de dimension n

Généralisation: le cas matriciel

Voir aussi

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Droite de régression

Régression linéaire

Sommaire

Situation

Définitions

Résultat de la régression

Erreur commise

Coefficient de corrélation linéaire

Démonstration des formules par étude d'un minimum

Démonstration des formules grâce aux espaces vectoriels de dimension n

Généralisation: le cas matriciel

Voir aussi

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link