Test de Kolmogorov-Smirnov

Test de Kolmogorov-Smirnov

En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse utilisé pour déterminer si un échantillon suit bien une loi donnée connue par sa fonction de répartition continue, ou bien si deux échantillons suivent la même loi.

Sommaire

Principe

Ce test repose sur les propriétés des Fonction de répartition empirique : si (x_1,\dots,x_n) est un échantillon de n variables aléatoires indépendantes à valeurs réelles, alors la fonction de répartition empirique de cet échantillon est définie par F_n(x)={1 \over n}\sum_{i=1}^n \delta_{x_i\leq x} avec \delta_{x_i\leq x} = \left\{\begin{matrix}1 & \mathrm{si}\ x_i\leq x, \\ 0 & \mathrm{sinon}.\end{matrix}\right.

La fonction de répartition empirique est un processus qui prend ses valeurs dans l'espace des fonctions croissantes comprises entre 0 et 1. Grâce à ses propriétés, on a la convergence suivante :


\mathbb{P}\left[
\sup_{x} |F_n(x)-F(x)|>\frac{c}{\sqrt{n}}
\right]\xrightarrow[n\to\infty]{} \alpha(c)=
2\sum_{r=1}^{+\infty} (-1)^{r-1}\exp(-2r^2c^2)

pour toute constante c > 0. Le terme α(c) vaut 0.05 pour c = 1.36. Remarquons que la limite à droite ne dépend pas de F. Cela découle du fait que \sqrt{n}(F_n(x)-F(x)) converge en loi vers un pont brownien changé de temps par l'inverse F − 1 de F. La série α(c) se déduit des propriétés de ce dernier processus.

Il est ainsi facile de proposer un test d'hypothèse pour décider si un échantillon provient bien d'une loi donnée, ou si deux échantillons ont la même loi, lorsque leurs fonction de répartitions sont continues.

On peut aussi considérer max x(Fn(x) − F(x)) et max x(F(x) − Fn(x)).

Le test de Kolmogorov-Smirnov est par exemple utilisé pour tester la qualité d'un générateur de nombres aléatoires[1].

Exemple

On illustre le test en simulant trois variables aléatoires: x et y de loi normale, z de loi uniforme. On applique ensuite le test de même distribution sur les trois paires puis le test d'adéquation à une distribution connue, en utilisant la fonction ks.test() du logiciel libre de statistiques R.

Génération de variables aléatoires x, y et z

x <- rnorm(50) #Simulation de 50 observations d'une loi normale
y <- rnorm(40) #Simulation de 40 observations d'une loi normale
z <- runif(30) #Simulation de 30 observations d'une loi uniforme 

Test d'adéquation de distribution de deux échantillons

Test de x et y

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data: x and y

D = 0.135, p-value = 0.7652

alternative hypothesis: two-sided

ks.test(x, y)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons proviennent d'une même loi), alors la probabilité d'observer une statistique D autant éloignée de 0 (qui correspondrait à une parfaite adéquation des deux échantillons) ou plus éloignée, vaut 0.7 (les chiffres obtenus en reproduisant l'exemple peuvent varier!).

Test de x et z

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data: x and z

D = 0.48, p-value = 0.0002033

alternative hypothesis: two-sided

ks.test(x, z)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons x et z proviennent d'une même loi), alors la probabilité d'observer une statistique D autant éloignée de 0 (qui correspondrait à une parfaite adéquation des deux échantillons) ou plus éloignée, est extrêmement petite et vaut moins de 0.1%. Il s'agit donc d'un cas très improbable (il est très rare que D soit si grand si l'hypothèse nulle est vraie) qui nous incite à rejeter l'hypothèse de même distribution.

Test de y et z

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data: y and z

D = 0.55, p-value = 2.889e-05

alternative hypothesis: two-sided

ks.test(y, z)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons y et z proviennent d'une même loi), alors la probabilité d'observer une statistique D autant éloignée de 0 (qui correspondrait à une parfaite adéquation des deux échantillons) ou plus éloignée, est extrêmement petite et vaut moins de 0.1%. Il s'agit donc d'un cas très improbable (il est très rare que D soit si grand si l'hypothèse nulle est vraie) qui nous incite à rejeter l'hypothèse de même distribution.

Test d'adéquation d'un échantillon à une distribution connue

Test si x suit une loi normale

Résultat affiché Code R

One-sample Kolmogorov-Smirnov test

data: x

D = 0.0824, p-value = 0.8586

alternative hypothesis: two-sided

ks.test(x, "pnorm")

La probabilité est ici de 80%, on ne rejette donc pas l'hypothèse (qui est vraie puisque x est généré selon une loi normale) que x suit une loi normale.

Test si x suit une loi uniforme

Résultat affiché Code R

One-sample Kolmogorov-Smirnov test

data: x

D = 0.5501, p-value = 1.033e-14

alternative hypothesis: two-sided

ks.test(x, "punif")

La probabilité est ici de moins de 0.01%, on rejette donc l'hypothèse (qui est fausse puisque x est généré selon une loi normale) que x suit une loi uniforme.

Voir aussi

Références

  • (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, Philadelphie, Society for Industrial & Applied Mathematics, 4 septembre 2009, 998 p. (ISBN 978-0-89871-684-9) (LCCN 2009025143) .
  • (en) David Williams, Weighing the Odds: a Course in Probability and Statistics, Cambridge University Press, 2001, 548 p. (ISBN 0-521-80356-X).

Notes

  1. (en) Donald E. Knuth, The Art of Computer Programming, vol. 2, 3e éd., Addison-Wesley Professional, 784 p. (ISBN 0-201-89684-2), p. 48–55.

Liens externes

  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Test de Kolmogorov-Smirnov de Wikipédia en français (auteurs)

Поможем сделать НИР

Regardez d'autres dictionnaires:

  • Test de kolmogorov-smirnov — En statistiques, le test de Kolmogorov Smirnov est un test d hypothèse utilisé pour déterminer si un échantillon suit bien une loi donnée connue par sa fonction de répartition continue, ou bien si deux échantillons suivent la même loi. Sommaire 1 …   Wikipédia en Français

  • Kolmogorov-Smirnov test — In statistics, the Kolmogorov ndash;Smirnov test (also called the K S test for brevity) is a form of minimum distance estimation used as a nonparametric test of equality of one dimensional probability distributions used to compare a sample with a …   Wikipedia

  • Prueba de Kolmogórov-Smirnov — En estadística, la prueba de Kolmogórov Smirnov (también prueba K S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre sí. En el caso de que queramos verificar la… …   Wikipedia Español

  • Kolmogorov-Smirnov-Anpassungstest — Der Kolmogorow Smirnow Anpassungstest, KS Test oder KSA Test (nach Andrei Nikolajewitsch Kolmogorow und Nikolaj Wassiljewitsch Smirnow) ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen. Das kann ein Vergleich… …   Deutsch Wikipedia

  • Kolmogorov-Smirnov-Test — Der Kolmogorow Smirnow Anpassungstest, KS Test oder KSA Test (nach Andrei Nikolajewitsch Kolmogorow und Nikolaj Wassiljewitsch Smirnow) ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen. Das kann ein Vergleich… …   Deutsch Wikipedia

  • Kolmogorov-Smirnov test — Kol·mo·gor·ov Smir·nov test (kol″mo gorґof smērґnof) [Andrei Nicolaievich Kolmogorov, Russian mathematician, 1903–1987; Nicolai Vasilievich Smirnov, Russian mathematician, 1900–1966] see under test …   Medical dictionary

  • Kolmogorov-Smirnov test — a statistical test of goodness of fit of a sample to a specified theoretical distribution function, based on the size of the maximum difference between the cumulative distribution functions of the sample and theoretical distributions and using… …   Medical dictionary

  • Test d'hypothese — Test d hypothèse En statistiques, un test d hypothèse est une démarche consistant à rejeter (ou plus rarement à accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d un jeu de données (échantillon). On cherche par exemple à… …   Wikipédia en Français

  • Test (statistique) — Pour les articles homonymes, voir Test. En statistiques, un test d hypothèse est une démarche consistant à rejeter ou à ne pas rejeter (rarement accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d un jeu de données… …   Wikipédia en Français

  • Kolmogorov — Andreï Kolmogorov Andreï Kolmogorov Andreï Nikolaïevitch Kolmogorov (en russe : Андрей Николаевич Колмогоров ; 25 avril 1903 à Tambov 20 octobre 1987 à …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”