- Quantile
-
Les quantiles sont des points essentiels pris à des intervalles réguliers verticaux d'une fonction de répartition d'une variable aléatoire. Diviser des données ordonnées en q sous-jeux de données de dimension essentiellement égale est la motivation des q-quantiles ; les quantiles sont les valeurs de données marquant les limites entre deux sous-jeux consécutifs.
Certains quantiles ont des noms spéciaux :
- Les 100-quantiles sont appelés centiles ou percentiles selon un anglicisme fréquent ;
- Les 10-quantiles sont appelés déciles ;
- Les 5-quantiles sont appelés quintiles ;
- Les 4-quantiles sont appelés quartiles ;
- Les 3-quantiles sont appelés terciles ;
- Le 2-quantile est appelé médiane.
Certains programmes informatiques définissent le quantile minimum et le quantile maximum par respectivement le quantile d'ordre 0 et le quantile d'ordre 100. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique. Pour une population infinie, le p-ième q-quantile est la valeur des données où la fonction de distribution cumulative vaut p/q. Pour un nombre fini N de tirages, il faut calculer Np/q--si ce n'est pas un entier, alors il faut arrondir à l'entier supérieur pour obtenir une valeur approchée (en supposant que les tirages sont ordonnés par valeur croissante) ; si c'est un entier alors n'importe quelle valeur depuis la valeur de ce tirage jusqu'à la valeur du prochain tirage peut être choisie pour le quantile, et conventionnellement (mais c'est tout-à-fait arbitraire) on prend la moyenne de ces deux valeurs.
Plus formellement : le p-ième q-quantile de la distribution de la variable aléatoire X peut être défini comme la valeur(s) x telle que:Si au lieu de prendre p et q comme des entiers, le p-quantile est basé sur un nombre réel p avec 0<p<1 alors ceci devient:
un p-quantile de la distribution de la valeur aléatoire X peut être défini comme une valeur x telle que :
Les résultats standardisés de tests sont communément mal interprétés: Nous disons souvent "dans le 80e centile". En fait, nous disons cela comme si le 80e centile était un intervalle dans lequel nous devions nous placer, ce qui n'est pas le cas. On peut se placer sur un quelconque centile ou entre deux centiles, mais pas dans un centile.
Si une distribution est symétrique, alors la médiane est la moyenne, mais ce n'est pas généralement le cas.
Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63% d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.
Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.
La régression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.
Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que si m est la médiane d'une variable aléatoire X alors 2m est la médiane de 2X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles.
Calcul des quantiles
Il existe différentes méthodes pour estimer les quantiles :
Soit N le nombre de valeurs non manquantes de la population échantillonnée, et soit les valeurs ordonnées de la même population, telles que x1 est la plus petite valeur, etc. Pour la k-ième q-quantile, nous avons p = k / q.
- Fonction de distribution empirique
j est la partie entière de Np et g la partie fractionnelle.
- Fonction de distribution empirique avec mise à la moyenne
j est la partie entière de Np et g est la partie fractionnelle.
- Moyenne pondérée
- xj + 1 + g(xj + 2 − xj + 1)
j est la partie entière de (N − 1)p et g est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel.
- Échantillon de numéro le plus proche de (N-1)p+1
j est la partie entière de (N − 1)p + 1 et g est la partie fractionnelle.
Voir aussi
- Portail des probabilités et des statistiques
Wikimedia Foundation. 2010.