Loi des nombres anormaux

Loi des nombres anormaux

Loi de Benford

La loi de Benford, également appelée loi des nombres anormaux (car elle est surprenante lorsqu'on la découvre), montre que dans une liste de nombre de donnée statistique (par exemple impôt sur le revenu), le 1er chiffre non nul le plus fréquent est 1, puis 2, qui lui-même est plus fréquent que 3, etc.

De façon générale, la loi donne la valeur théorique f de la fréquence d'apparition du premier chiffre d'un nombre d d'un résultat de mesure exprimé dans une base b donnée au moyen d'une unité.

f = \log_{b} \left(1 + \frac 1 d\right )

Sommaire

Système décimal

En particulier, pour le système décimal (base 10), on a donc :

f = \log_{10} \left(1 + \frac 1 d\right )

Ce qui aboutit au tableau de résultats suivants :

d 1 2 3 4 5 6 7 8 9
f 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Fréquences relatives d'apparition du 1er chiffre (base 10) (%)
d 1 2 3 4 5 6 7 8 9
f 30,1 47,7 60,2 69,9 77,8 84,5 90,3 95,4 100
Fréquences cumulées d'apparition du 1er chiffre (base 10) (%)
Loi de Benford freq relat.PNG
Loi de Benford freq cumul.PNG

Il existe également une discrète sur-présentation des premiers chiffres en ce qui concerne le second chiffre significatif du nombre. Cette sur-présentation tend à s'annuler au delà.

Les exemples illustrant cette loi sont nombreux : prenez la suite des 100 premiers carrés, la fréquence des nombres commençant par 1 est nettement supérieure aux fréquences des carrés commençant par 2, 3,4 etc etc. En constituant la liste de 100 nombres, produits de deux ou trois nombres tirés au hasard (dans un grand intervalle), de nouveau la fréquence des nombres commençant par 1 est nettement plus élevée que les autres fréquences.

Les suites numériques qui convergent exactement comme le stipule la loi de Benford sont, en fait, assez rares : parmi celles ci, on peut citer la suite de Fibonacci, la suite des n !... Dans la vie réelle, la décroissance des probabilités suivant le premier chiffre est largement constatée mais la convergence vers les valeurs de la loi de Benford n'est qu'approximative.

Au contraire, cette loi n'est pas vérifiée si la série de données comporte des contraintes quant à l'échelle des valeurs vraisemblables : la taille des individus ne suit, à l'évidence, pas la loi de Benford puisque la quasi totalité des mesures commence par le chiffre « 1 ».

Explication

Les explications les plus classiques supposent que les suites habituelles admettent des caractéristiques particulières :

La forme précise de la loi de Benford peut par exemple être expliquée si l'on admet que les logarithmes des nombres sont uniformément distribués. Cela signifie qu'un nombre a autant de chances d'être entre 100 et 1000 (logarithme entre 2 et 3) qu'il a de chances de se trouver entre 10 000 et 100 000 (logarithme entre 4 et 5). Pour de nombreux ensembles de nombres, et tout particulièrement ceux qui croissent exponentiellement, comme les chiffres d'affaire d'entreprises et les cours de bourse, cette supposition est raisonnable.[réf. nécessaire]

On peut en particulier l'appuyer par le raisonnement suivant: si une loi générale de distribution des nombres existe, elle doit être indépendante d'un choix d'unité (donc rester valable après multiplication par une constante) et d'un choix de base. L'équidistribution des logarithmes satisfait ces conditions, et est donc un candidat crédible.[1]

Si une variable résulte de la multiplication entre elles d'un grand nombre de variables indépendantes, alors elle suit à peu près la loi de Benford (exactement à la limite)[2].

Mais ces explications sont à la fois spécifiques (à un certain type de données) et spéculatives (pourquoi supposer que les facteurs agissent multiplicativement ou que le logarithme suit une loi uniforme ?). Récemment, Gauvrit et Delahaye[3] ont proposé une explication plus simple et générale de la loi de Benford. Selon les chercheurs, c'est le caractère étalé et régulier de la plupart des variables utilisées qui explique la loi de Benford. Ils suggèrent d'ailleurs qu'un équivalent de cette loi, fondé sur d'autres fonctions que le logarithme, fonctionnerait tout aussi bien.

Ébauche de démonstration

Choisissons un nombre réel stictement positif appartenant à un intervalle I.

On cherche la probabilité de son premier chiffre non nul, indépendamment de toute autre caractéristique.

Cela correspond à la recherche d'une mesure m sur l'ensemble I, supposé mesurable, avec :

  1. P(\mathrm{1^{er}~chiffre = 1}) = \frac{m( I\cap\{\ldots\cup[10;20[\cup[1;2[\cup[0.1;0.2[\cup[0.01;0.02[\cup[0.001;0.002[\cup\ldots\})}{m(I)}
  2. P(\mathrm{1^{er}~chiffre = 2}) = \frac{m( I\cap\{\ldots\cup[20;30[\cup[2;3[\cup[0.2;0.3[\cup[0.02;0.03[\cup[0.002;0.003[\cup\ldots\})}{m(I)}
  3. P(\mathrm{1^{er}~chiffre = 3}) = \frac{m( I\cap\{\ldots\cup[30;40[\cup[3;4[\cup[0.3;0.4[\cup[0.03;0.04[\cup[0.003;0.004[\cup\ldots\})}{m(I)}
  4. etc.

On suppose que I est construit comme une union de produits de l'intervalle [1;10[ par des réels ai > 0 ; c'est-à-dire : I = ∪ ai × [1;10[ pour des ai > 0. Donc, on travaille dans le groupe multiplicatif des réels strictement positifs (car c'est ainsi que la topologie de ce groupe est construite).

L'ensemble des réels strictement positifs muni de la multiplication étant un groupe topologique séparable et localement compact, il existe une et une seule mesure (à un coefficient multiplicateur près) qui soit invariante par la loi de groupe : la mesure de Haar du groupe.

Cette mesure est m = \tfrac{\mathrm dx}{x}.

Prenons I = [1;10[, on a :

m(I) = \int_1^{10} \frac{\mathrm dx}{x} = \ln(10) - \ln(1) = \ln(10)

Et on a :

P(\mathrm{1^{er}~chiffre} = k) = \frac{m( [k;k+1[)}{m(I)} = \ldots = \frac{\ln(k+1)-\ln(k)}{\ln10} = \frac{\ln(1+\frac{1}{k})}{\ln10}

Comme la mesure m est invariante par le produit, en prenant I = ∪ ai × [1;10[ avec ai = 10n , on arrive au même résultat (on peut aussi le vérifier par le calcul).

Ébauche faite à partir d'un travail exposé sur le site de l'Université Paris 5[4]. Il manque dans ces deux exposés un argument convaincant sur la nécessité d'utiliser la mesure de Haar.

Historique

Cette distribution aurait été découverte une première fois en 1881 par Simon Newcomb, un astronome américain, après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Frank Benford, aux alentours de 1938, remarqua à son tour cette usure inégale, crut être le premier à formuler cette loi qui porte indûment son nom aujourd'hui et arriva aux même résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc).

Application

La loi de Benford est utilisée aux États-Unis, ainsi que dans d'autres pays, dont la France, pour détecter des fraudes fiscales, suite aux idées exposées en 1972 par Hal Varian.

Références

  1. Theodore P. Hill, Base invariance implies Benford's Law, Proceedings of the American Mathematical Society 123, 887-895 (1995). Free web link.
  2. Boyle, J. "An Application of Fourier Series to the Most Significant Digit Problem." Amer. Math. Monthly 101, 879-886, 1994.
  3. http://msh.revues.org/document10363.html
  4. La loi de Benford

Bibliographie

  • F. Benford, The law of anomalous numbers, Proceedings of the American Philosophical Society, 78 (1938), p. 551
  • N. Gauvrit, J.-P. Delahaye, Pourquoi la loi de Benford n'est pas mystérieuse, Mathématiques et Sciences Humaines, 182, été 2008, p7-15.
  • T. Hill, The first digit phenomenon, American Scientist 86 (July-August 1998), p. 358.
  • H. Varian, Benford's law, American Statistician 26, p.65.
  • JP Delahaye, L'étonnante loi de Benford, Pour la Science, janvier 2007, p90-95
  • Portail des mathématiques Portail des mathématiques

Ce document provient de « Loi de Benford ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Loi des nombres anormaux de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

  • Loi De Benford — La loi de Benford, également appelée loi des nombres anormaux (car elle est surprenante lorsqu on la découvre), montre que dans une liste de nombre de donnée statistique (par exemple impôt sur le revenu), le 1er chiffre non nul le plus fréquent… …   Wikipédia en Français

  • Loi de benford — La loi de Benford, également appelée loi des nombres anormaux (car elle est surprenante lorsqu on la découvre), montre que dans une liste de nombre de donnée statistique (par exemple impôt sur le revenu), le 1er chiffre non nul le plus fréquent… …   Wikipédia en Français

  • Loi de Benford — La loi de Benford, également appelée loi des nombres anormaux, énonce que dans une liste de données statistiques, le 1er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Puis le 2 est lui même plus fréquent que 3… et… …   Wikipédia en Français

  • POPULATIONS (GÉNÉTIQUE DES) — La génétique des populations est la discipline biologique qui étudie, au niveau collectif des populations d’organismes, les conséquences des trois propriétés fondamentales du matériel génétique: l’aptitude à la reproduction conforme, l’aptitude à …   Encyclopédie Universelle

  • norme — [ nɔrm ] n. f. • 1160 mettre norme à « régler »; rare av. XIXe; lat. norma « équerre, règle » 1 ♦ Littér. Type concret ou formule abstraite de ce qui doit être. ⇒ 2. canon, 2. idéal, 1. loi, modèle, principe, règle. Norme juridique, sociale. 2 ♦… …   Encyclopédie Universelle

  • normé — norme [ nɔrm ] n. f. • 1160 mettre norme à « régler »; rare av. XIXe; lat. norma « équerre, règle » 1 ♦ Littér. Type concret ou formule abstraite de ce qui doit être. ⇒ 2. canon, 2. idéal, 1. loi, modèle, principe, règle. Norme juridique, sociale …   Encyclopédie Universelle

  • Faux positif — Un faux positif ou fausse alarme est un résultat d une prise de décision à deux choix (positif/négatif), déclaré positif, là où il est en réalité négatif. Le résultat peut être issu d un test d hypothèse, d un algorithme de classification… …   Wikipédia en Français

  • Paul Kammerer — Pour les articles homonymes, voir Kammerer. Paul Kammerer (1880 1923). Photographie conservée à la bibliothèque du Congrès des États Unis. Paul Kammerer, né le …   Wikipédia en Français

  • GÉNÉTIQUE — À quelques rares exceptions près, il n’est nul besoin d’être un biologiste professionnel pour discerner au premier coup d’œil un être vivant d’un objet inerte. Cette identification est liée à la perception d’un petit nombre d’attributs familiers …   Encyclopédie Universelle

  • de — 1. de [ də ] prép. • 842; lat. class. de qui s est substitué en bas lat. à l emploi du génitif ♦ Mot invariable qui sert à établir des rapports variés entre deux mots ou groupes de mots. REM. De s élide généralt en d devant une voyelle ou un h… …   Encyclopédie Universelle

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”