Estimation par noyau

Estimation par la méthode du noyau d'un échantillon de 100 nombres aléatoires distribués selon la loi normale pour différentes valeurs de la fenêtre.

En statistique, l’estimation par noyau (ou encore méthode de Parzen-Rozenblatt) est une méthode non-paramétrique d’estimation de la densité de probabilité d’une variable aléatoire. Elle se base sur un échantillon d’une population statistique et permet d’estimer la densité en tout point du support. En ce sens, cette méthode généralise astucieusement la méthode d’estimation par un histogramme.

Sommaire

1 Définition
2 Intuition
3 Propriétés
4 Implémentations en informatique
5 Bibliographie
6 Voir aussi
- 6.1 Articles connexes
- 6.2 Liens externes

Définition

Si x₁, x₂, ..., x_N ~ ƒ est un échantillon i.i.d. d'une variable aléatoire, alors l'estimateur non-paramétrique par la méthode du noyau de la densité est

$\widehat{f}_h(x)=\frac{1}{Nh}\sum_{i=1}^N K\left(\frac{x-x_i}{h}\right)$

où K est un noyau (kernel en anglais) et h un paramètre nommé fenêtre, qui régit le degré de lissage de l'estimation. Bien souvent, K est choisi comme étant la densité d'une Fonction gaussienne standard (espérance nulle et variance unitaire):

$K(x) = {1 \over \sqrt{2\pi} }\,e^{-\frac{1}{2}x^2}.$

Intuition

L'idée derrière la méthode de Parzen est une généralisation de la méthode d'estimation par histogramme. Dans la seconde méthode, la densité en un point x est estimée par la proportion d'observations x₁, x₂, ..., x_N qui se trouvent à proximité de x. Pour cela, on trace une boîte en x et dont la largeur est gouvernée par un paramètre de lissage h; on compte ensuite le nombre d'observations qui appartiennent à cette boîte. Cette estimation, qui dépend du paramètre de lissage h, présente de bonnes propriétés statistiques mais est par construction non-continue.

La méthode du noyau consiste à récupérer la continuité: pour cela, on remplace la boîte centrée en x et de largeur h par une courbe en cloche centrée en x. Plus une observation est proche du point de support x plus la courbe en cloche lui donnera une valeur numérique importante. A l'inverse, les observations trop éloignées de x se voient affecter une valeur numérique négligeable. L'estimateur est formé par la somme (ou plutôt la moyenne) des courbes en cloche. Comme indiqué sur l'image suivante, il est clairement continu.

Six courbes en cloche gaussiennes (rouge) et leur somme (bleu). L'estimateur à noyau de la densité f(x) est en fait la moyenne (on divise par le nombre de courbes en cloche, 6). La variance des normales est posée à 0,5. Notons enfin que plus il y a d'observations dans le voisinage d'un point, plus sa densité est élevée.

Propriétés

On peut montrer que, sous des hypothèses faibles, il n'existe pas d'estimateur non-paramétrique qui converge plus vite que l'estimateur à noyau. Notons que la vitesse de convergence n^−4/5 est plus faible que la vitesse typique des méthodes paramétriques, généralement n⁻¹.

L'utilisation pratique de cette méthode requiert deux choses:

le noyau K (généralement la densité d'une loi statistique);
le paramètre de lissage h.

Si le choix du noyau est réputé comme peu influent sur l'estimateur, il n'en est pas de même pour le paramètre de lissage. Un paramètre trop faible provoque l'apparition de détails artificiels apparaissant sur le graphe de l'estimateur. Pour une valeur de h trop grande, la majorité des caractéristiques est au contraire effacée. Le choix de h est donc une question centrale dans l'estimation de la densité.

Une façon répandue d'obtenir une valeur de h est de supposer que l'échantillon est distribué selon une loi paramétrique donné, par exemple selon la loi normale N(μ ; σ²). Alors, on peut prendre

$h = 1,06 \widehat{\sigma} n^{-1/5}.$

Malheureusement, l'estimation gaussienne n'est pas toujours efficace, par exemple lorsque n est petit.

Une autre façon d'opérer est de chercher à fixer h de manière optimale. Soit $\scriptstyle R(f,\hat f(x))$ la fonction de risque de l'espace L² pour ƒ. Sous des hypothèses faibles sur ƒ et K,

$R(f,\hat f(x)) \approx \frac{1}{4}\sigma_k^4h^4\int(f''(x))^2\,\mathrm{d}x + \frac{\int K^2(x)\,\mathrm{d}x}{nh}$

où

$\sigma_K^2 = \int x^2K(x)\,\mathrm{d}x$ .

La fenêtre optimale est obtenue en minimisant la fonction de risque et vaut:

$h^* = \frac{c_1^{-2/5}c_2^{1/5}c_3^{-1/5}}{n^{1/5}}$

où

$c_1 = \int x^2K(x)\,\mathrm{d}x$

$c_2 = \int K(x)^2\,\mathrm{d}x$

$c_3 = \int (f''(x))^2\,\mathrm{d}x$

Le paramètre h est toujours proportionnel à $n - 1 / 5$ : c'est la constante que l'on doit rechercher. La méthode précédente n'est pas opérante dans le sens où $c 3$ dépend de la densité ƒ elle-même, qui est justement inconnue.

Il existe dans la littérature différentes méthodes plus sophistiquées; on se reportera avec intérêt à l'article présenté dans la bibliographie.

Implémentations en informatique

MATLAB: la méthode est codée par la fonction ksdensity;
R (logiciel): la méthode est codée par les scripts density et kde2d;
SAS: il faut utiliser proc kde pour les densités univariée ou bivariée.

Bibliographie

Parzen E. (1962). On estimation of a probability density function and mode, Ann. Math. Stat. 33, pp. 1065-1076.
Richard O. Duda, Peter E. Hart, David G. Stork, Pattern classification, Wiley-interscience, 2001 (ISBN 0-471-05669-3) [détail des éditions]
Wasserman, L. (2005). All of Statistics: A Concise Course in Statistical Inference, Springer Texts in Statistics.
B.W. Silverman. Density Estimation. London: Chapman and Hall, 1986.

Voir aussi

Liens externes

Une introduction à l'estimation par noyau;
librairie Matlab pour l'estimation en dimension 1 et 2;
Calculateur en ligne: calcule l'estimation par noyau avec différents noyaux possibles: Gaussien, Epanechnikov, Rectangulaire, Triangulaire, Biweight, Cosinus, et Optcosinus;
FIGTree est une librairie efficace C++ et Matlab pour le calcul de l'estimation par noyau avec une gaussienne;
Différentes méthodes pour sélectionner le paramètre de lissage.

v · Probabilités et statistiques

Théorie des probabilités

Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires	Moyenne • Espérance • Médiane • Variance • Écart type
Loi de probabilité	Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid
Convergence de lois	Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli
Calcul stochastique	Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive	Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés
Statistique mathématique	Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne
Tests statistiques	Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications

Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégorie :

Statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Estimation par noyau de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

Estimateur par noyau — Estimation par noyau Estimation par la méthode du noyau d un échantillon de 100 nombres aléatoires distribués selon la Loi normale pour différentes valeurs de la fenêtreKernel. En statistique, l estimation par noyau (ou encore méthode de Parzen… … Wikipédia en Français
Noyau (statistiques) — Pour les articles homonymes, voir Noyau. Un noyau est une fonction de pondération utilisée dans les techniques d estimation non paramétrique. Les noyaux interviennent dans l Estimateur par noyau pour estimer la Densité de probabilité d une… … Wikipédia en Français
Noyau 6001 — Windows Vista Famille Microsoft Windows Type de noyau Noyau hybride État du proje … Wikipédia en Français
Imagerie par résonance magnétique — Pour les articles homonymes, voir IRM et MRI. L imagerie par résonance magnétique (IRM) est une technique d imagerie médicale permettant d obtenir des vues 2D ou 3D de l intérieur du corps de façon non invasive avec une résolution relativement… … Wikipédia en Français
Gestion de Maintenance Assistee par Ordinateur — Gestion de maintenance assistée par ordinateur La gestion de maintenance assistée par ordinateur (souvent abrégée en GMAO) est une méthode de gestion assistée d un logiciel destiné aux services de maintenance d une entreprise afin de l aider dans … Wikipédia en Français
Gestion de Maintenance Assistée par Ordinateur — La gestion de maintenance assistée par ordinateur (souvent abrégée en GMAO) est une méthode de gestion assistée d un logiciel destiné aux services de maintenance d une entreprise afin de l aider dans ses missions. Sommaire 1 Fonctionnalités d une … Wikipédia en Français
Gestion de la maintenance assistée par ordinateur — Gestion de maintenance assistée par ordinateur La gestion de maintenance assistée par ordinateur (souvent abrégée en GMAO) est une méthode de gestion assistée d un logiciel destiné aux services de maintenance d une entreprise afin de l aider dans … Wikipédia en Français
Gestion de maintenance assistée par ordinateur — La gestion de maintenance assistée par ordinateur (souvent abrégée en GMAO) est une méthode de gestion assistée d un logiciel destiné aux services de maintenance d une entreprise afin de l aider dans ses activités. Sommaire 1 Fonctionnalités d… … Wikipédia en Français
Mesure de texture par diffraction de rayons X — Diffractométrie de rayons X La diffractométrie de rayons X (DRX, on utilise aussi souvent l abréviation anglaise XRD pour X ray diffraction) est une technique d analyse basée sur la diffraction des rayons X sur la matière. La diffraction n ayant… … Wikipédia en Français
Gestion Par Volumes Logiques — La gestion par volumes logiques (en anglais, logical volume management ou LVM) est une méthode et un logiciel de découpage, de concaténation et d utilisation des espaces de stockage d un serveur. Il permet de gérer, sécuriser et optimiser de… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Estimation par noyau

Sommaire

Définition

Intuition

Propriétés

Implémentations en informatique

Bibliographie

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Estimation par noyau

Sommaire

Définition

Intuition

Propriétés

Implémentations en informatique

Bibliographie

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link