Distribution de Pareto

Distribution de Pareto
Pareto
Densité de probabilité / Fonction de masse
Fonctions de masse pour divers k
Fonctions de masse pour plusieurs k  avec xm = 1. L'axe horizontal symbolise le paramètre x . Lorsque k→∞ la distribution s'approche de δ(x − xm) où δ est la fonction Delta de Dirac.
Fonction de répartition
Fonctions de répartition pour divers k
Fonctions de répartition pour plusieurs k  avec xm = 1. L'axe horizontal symbolise le paramètre x 

Paramètres xm > 0 location (réel)
k > 0 forme (réel)
Support x \in [x_m; +\infty)\!
Densité de probabilité (fonction de masse) \frac{k\,x_m^k}{x^{k+1}}\!
Fonction de répartition 1-\left(\frac{x_m}{x}\right)^{k}\!
Espérance \frac{k\,x_m}{k-1}\! pour k > 1
Médiane (centre) x_m \sqrt[k]{2}
Mode xm
Variance \frac{x_m^2k}{(k-1)^2(k-2)}\! pour k > 2
Asymétrie \frac{2(1+k)}{k-3}\,\sqrt{\frac{k-2}{k}}\! pour k > 3
Kurtosis normalisé \frac{6(k^3+k^2-6k-2)}{k(k-3)(k-4)}\! pour k > 4
Entropie \ln\left(\frac{k}{x_m}\right) - \frac{1}{k} - 1\!
Fonction génératrice des moments non définie pour les réels strictement positifs
Fonction caractéristique k( − ixmt)kΓ( − k, − ixmt)

La distribution de Pareto est la formalisation de la loi de Pareto, aussi appelée principe des 80-20, courbe A-B-C. Cette distribution de probabilité suit une loi de puissance.

Cet outil d'aide à la décision détermine les facteurs (environ 20 %) cruciaux qui influencent la plus grande partie (80 %) de l'objectif.

Sommaire

Historique

L'économiste italien Vilfredo Pareto (1848-1923) observa au début du XXe siècle que 20 % de la population italienne possédait 80 % de la richesse nationale d'où le nom de la loi 80-20 ou 20-80.

Cette observation fut généralisée plus tard par Joseph Juran.

Formalisme

Soit la variable aléatoire X qui suit une loi de Pareto de paramètres (xmin ,k), alors la distribution est caractérisée par :

{\rm P}(X>x)=\left(\frac{x}{x_{\min}}\right)^{-k} avec x \geq x_{\min}

Applications

Cette loi est un outil fondamental en gestion de la qualité. Elle est aussi utilisée en réassurance. La théorie des files d'attente s'est intéressée à cette distribution, lorsque des recherches des années 1990 ont montré que cette loi régissait aussi nombre de grandeurs observées dans le trafic Internet (et plus généralement sur tous les réseaux de données à grande vitesse). Ce phénomène a de sévères répercussions sur les performances des systèmes (routeurs en particulier).

Cette loi permet aussi d'analyser les phénomènes de concentration des entreprises industrielles et commerciales en fonction de leur tailles exprimées en nombres d'employés. Une des représentations graphiques habituelle est obtenue en utilisant une double échelle logarithmique (log-log), représentation qu'avait lui même utilisé Wilfredo Pareto. Dans ce cas la courbe se transforme en une ligne droite au-delà d'une certaine taille (tout comme pour la distribution des revenus des ménages qu'avait étudié Pareto.) Autres domaines d'application distribution des ordinateurs en fonction de diverses mesures de leur taille : taille de la mémoire centrale, taille de la mémoire du disque dur... Distribution des centraux téléphoniques privés en fonction du nombre de postes connectés.

Exemples

  • Fiscalité : 20 % des personnes imposables génèrent 80 % de la trésorerie publique. [réf. nécessaire]
  • Sport : 20 % de l'effort à l'entraînement permet d'atteindre 80 % de la performance.
  • Service après-vente : 80 % des réclamations proviennent de 20 % des clients
  • Population : 20 % de la superficie française rassemble 80 % de la population (calcul effectué sur les 9000 communes les plus denses) [réf. nécessaire]
  • Contrôle de gestion : 20 % des indicateurs fournissent 80 % de l'information. Souvent contraint à une décision rapide, le manager préférera une information partielle au bon moment, plutôt qu'une information complète qui arriverait trop tard. Ce constat retiendra l'attention des concepteurs de tableaux de bord, où l'on peut recommander de n'intégrer que des indicateurs pertinents, c'est-à-dire non seulement à même de confirmer que l'entreprise est en bonne voie vers l'atteinte des objectifs fixés, mais également rapidement disponibles (ne pas négliger le coût d'obtention d'une information). Toutefois, le manager est responsable de ses décisions et devra donc mesurer le risque lié à la relative imprécision de l'information dont il dispose.
  • Trafic Internet : la taille des fichiers échangés, la durée des sessions FTP ou HTTP et d'autres ont des distributions proches de celle de Pareto.

Cette loi n'est cependant pas applicable à toutes les situations :

  • sur les quelque 10 000 céréales cultivables, moins de 10 génèrent la quasi-totalité de la production.

Distributions de probabilité

Les distributions de Pareto sont des distributions continues. La loi de Zipf, parfois nommée distribution Zeta, peut être considérée comme l'équivalent discret de la loi de Pareto.

Soit une variable aléatoire X suivant une distribution de Pareto, alors la probabilité que X soit plus grande qu'un réel x est donnée par :

P(X>x)=\left(\frac{x}{x_\mathrm{m}}\right)^{-k}

pour tout xxm, où xm est la valeur minimale (positive) que peut prendre X, etk est un réel positif.

Il suit que la densité de probabilité de X suit :f(x;k,x_\mathrm{m}) = k\,\frac{x_\mathrm{m}^k}{x^{k+1}}\ \mbox{pour}\ x \ge x_\mathrm{m}. \,

La distribution de Pareto est définie par deux paramètres, xm et k. Le paramètre k est souvent nommé indice de Pareto.

Moments

L'espérance d'une variable aléatoire suivant une loi de Pareto est

E(X)=\frac{kx_m}{k-1} \,

(si k ≤ 1, l'espérance est infinie).

Sa variance est

\mathrm{var}(X)=\left(\frac{x_m}{k-1}\right)^2 \frac{k}{k-2}

(De nouveau : si k \le 2, la variance est infinie).

Les moments d'ordre supérieur sont donnés par :

\mu_n'=\frac{kx_\mathrm{m}^n}{k-n} \,

mais ils ne sont définis que pour k > n.

Cela signifie que la fonction génératrice (la série de Taylor en x où les μn' / n! sont pris pour coefficients) n'est pas définie. Cette propriété est vraie en général pour les variables aléatoires présentant le caractère « heavy tail ».

La fonction caractéristique est donnée par :

φ(t;k,xm) = k( − ixmt)kΓ( − k, − ixmt)

où Γ(a,x) est la fonction gamma incomplète.

La distribution de Pareto est reliée à la distribution exponentielle par :

f(x;k,x_\mathrm{m})=\mathrm{Exponentielle}(\ln(x/x_\mathrm{m});k)\,

La fonction delta de Dirac est un cas limite de la distribution de Pareto :

\lim_{k\rightarrow \infty} f(x;k,x_\mathrm{m})=\delta(x-x_\mathrm{m}).

Propriétés

La distribution de Pareto est heavy tailed, ce qui signifie que :

\lim_{x\rightarrow \infty} P(X>x+y|X>x)=1 pour y > 0.

Par exemple, si X est le temps de vie d'un composant, plus il a vécu (X>x) plus il a de chances de vivre longtemps : le système rajeunit.

On peut pallier l'inconvénient « longue queue » dans d'autres applications des distributions de Pareto telles que la distribution par taille des entreprises exprimée en nombre d'employés ou en chiffre d'affaires ou d'autres entités mesurables par taille dont la limite théorique est infinie en utilisant une échelle log-log après transformations appropriées des données analysées. Le phénomène longue queue étant causé par une variable pouvant atteindre des valeurs très grandes, valeurs pour lesquelles le nombre d'observations devient très petit. En revanche le nombre d'observations pour les petites valeurs de la taille analysée sont souvent très élevées. Dans ce cas, on a le phénomène symétrique de la longue queue : le long pic initial. Dans le cas de distributions de Pareto, le passage en coordonnées log-log transforme en ligne droite la courbe dont la forme originale est une hyperbole très étirée en abscisse (longue queue ou heavytailed) et ordonnée (hautes valeurs à la base)...

Estimation des paramètres

Fonction de vraisemblance : Maximum de vraisemblance : Estimation de l'indice : estimateur de Hill

Courbe ABC

On classe traditionnellement les facteurs dans trois zones. Les facteurs prépondérants sont dits en zone A, les facteurs négligeables en zone C et les facteurs intermédiaires en zone B. Les facteurs de la zone A sont ceux dont les effets sont supérieurs à la moyenne. Les facteurs de la zone B sont ceux dont les effets sont supérieurs à la moyenne des effets des facteurs hors zone A.

Sources

Voir aussi

Liens connexes

Notes et références



Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Distribution de Pareto de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

  • Distribution De Pareto — Pareto Densité de probabilité / Fonction de masse Fonctions de masse pour plusieurs k  avec xm = 1. L axe horizontal symbolise le paramètre x . Lorsque k→∞ la distribution s approche de δ(x − x …   Wikipédia en Français

  • Distribution de pareto — Pareto Densité de probabilité / Fonction de masse Fonctions de masse pour plusieurs k  avec xm = 1. L axe horizontal symbolise le paramètre x . Lorsque k→∞ la distribution s approche de δ(x − x …   Wikipédia en Français

  • Pareto distribution — Probability distribution name =Pareto type =density pdf cdf Pareto cumulative distribution functions for various k with x m = 1. The horizontal axis is the x parameter. parameters =x mathrm{m}>0, scale (real) k>0, shape (real) support =x in [x… …   Wikipedia

  • Distribution Zeta — Zéta Densité de probabilité / Fonction de masse Fonction de répartition …   Wikipédia en Français

  • Pareto efficiency — Pareto efficiency, or Pareto optimality, is an important concept in economics with broad applications in game theory, engineering and the social sciences. The term is named after Vilfredo Pareto, an Italian economist who used the concept in his… …   Wikipedia

  • Pareto interpolation — is a method of estimating the median and other properties of a population that follows a Pareto distribution. It is used in economics when analysing the distribution of incomes in a population, when one must base estimates on a relatively small… …   Wikipedia

  • Pareto — can refer to:*Vilfredo Pareto (1848–1923), Italian sociologist, economist and philosopher; *Paula Pareto (born 1986), Argentine judokaSeveral things named after Vilfredo Pareto:*Pareto chart, an ordered bar chart used in statistical quality… …   Wikipedia

  • Pareto analysis — is a statistical technique in decision making that is used for selection of a limited number of tasks that produce significant overall effect. It uses the Pareto principle the idea that by doing 20% of work you can generate 80% of the advantage… …   Wikipedia

  • Pareto-optimal — Pa‧re‧to op‧ti‧mal [pəˌriːtəʊ ˈɒptml ǁ pəˌreɪtoʊ ˈɑːp ] adjective ECONOMICS if available resource S (= things that you need to make or do something) have been given to people in a Pareto optimal way, this is the most effective way of using them …   Financial and business terms

  • Pareto principle — The Pareto principle (also known as the 80 20 rule, the law of the vital few and the principle of factor sparsity) states that, for many events, 80% of the effects come from 20% of the causes. Business management thinker Joseph M. Juran suggested …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”