Inférence bayésienne

Inférence bayésienne

On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d'un événement. Cette démarche est régie en particulier par théorème de Bayes. Dans la perspective bayésienne, une probabilité n'est pas interprétée comme le passage à la limite d'une fréquence, mais comme la simple traduction numérique d'un état de connaissance (le degré de confiance accordé à une hypothèse, par exemple ; voir théorème de Cox-Jaynes).

Jaynes utilisait à ce sujet avec ses étudiants la métaphore d'un robot à logique inductive. On trouvera un lien vers un de ses écrits dans l'article Intelligence artificielle.

Sommaire

La manipulation des probabilités : notation et règles logiques

L'inférence bayésienne est fondée sur la manipulation d'énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est particulièrement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standards par l'application systématique de règles formelles de raffinement des probabilités. Avant de passer à la description de ces règles, familiarisons-nous avec la notation employée.

Notation des probabilités

Prenons l'exemple d'une femme cherchant à savoir si elle est enceinte. On définira d'abord un événement E (elle est enceinte) dont on cherche la probabilité p(E). Un élément de calcul de cette probabilité est le résultat du test de grossesse.

Supposons qu'on ait observé que pour des femmes enceintes, le test se montrait positif 9 fois sur 10 et que pour des femmes non-enceintes, il se montrait négatif dans un ratio de 19/20. Si l'on définit les hypothèses :

  • TP : "le test est positif",
  • TN : "le test est négatif",

on peut interpréter les résultats précédents de manière probabiliste :

La probabilité de l'hypothèse TP sachant que la femme est enceinte est de 0,9, ce qui s'écrit p(TP | E) = 0,9. De la même manière p(T_N|\bar{E})=0,95 signifie que la probabilité que le test soit négatif pour une femme qui n'est pas enceinte (\bar{E}) est de 0,95. On suit ici la convention classique associant un énoncé certainement vrai à une probabilité de 1, un énoncé certainement faux à une probabilité de 0.

En plus de l'opérateur "sachant que" noté "|", les opérateurs logiques ET et OU ont leur notation propre. Ainsi, la probabilité simultanée de deux événements se note de façon plus concise \cap. L'expression p(E \cap T_P) décrit ainsi la probabilité d'être enceinte ET d'obtenir un test positif. Pour l'opérateur logique OU, le signe \cup est généralement utilisé. L'expression p(E \cup \bar{E}) signifie donc la probabilité que la femme soit enceinte ou non. Cette probabilité est nécessairement de 1, puisque \bar{E} est le complémentaire de E. (c'est-à-dire que les événements sont disjoints et leur union représente tous les états possibles)

Les règles de la logique des probabilités

Il existe seulement deux règles pour combiner les probabilités, à partir desquelles est bâti tout l'édifice bayésien. Ces règles sont les règles d'addition et de multiplication.

La règle d'addition p(A \cup B|C) = p(A|C) + p(B|C) - p(A \cap B|C)

La règle de multiplication p(A \cap B) = p(A|B)p(B) = p(B|A)p(A)

Le théorème de Bayes, ou de probabilité des causes, s'en dérive aussitôt en mettant à profit la symétrie de la règle de multiplication p(A|B) = \frac{p(B|A)p(A)}{p(B)}.

En d'autres termes, si on connaît dans le détail les causes possibles d'une conséquence observée, l'observation des effets permet de remonter aux causes.

Dans le cas précédent de la femme enceinte, sachant le résultat du test, il est possible de calculer la probabilité que la femme soit enceinte en utilisant le théorème de Bayes. En effet, dans le cas d'un test positif, p(E|T_P) = \frac{p(T_P|E)p(E)}{p(T_P)}. Remarquez que l'inversion de la probabilité introduit le terme p(E), la probabilité a priori d'être enceinte. La probabilité a priori est la probabilité de l'hypothèse, indépendamment du résultat du test. Une femme qui utilise des moyens de contraception choisirait un p(E) très faible, puisqu'elle n'a pas de raison de croire qu'elle est enceinte. Par contre, une femme ayant eu récemment des relations sexuelles non-protégées et souffrant de vomissements fréquents adopterait une probabilité a priori plus élevée. Le résultat du test est donc pesé, ou nuancé, par cette estimation indépendante de la probabilité d'être enceinte (un homme, ayant choisi un p(E) nul, aura ainsi une probabilité nulle d'être enceinte, quelque soient les résultats de son test).

C'est cette estimation a priori qui est systématiquement ignorée par les méthodes statistiques standards.

Notation d'évidence

Cette notation est souvent attribuée à I. J. Good. Ce dernier en attribuait cependant la paternité à Alan Turing et, indépendamment, à d'autres chercheurs dont Harold Jeffreys.

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, seule l'observation d'éléments considérés eux-mêmes comme très improbables est susceptible de la modifier.

On définit l'évidence par : Ev(p) =\log\frac{p}{(1-p)} =\log{p}-\log(1-p). Pour mieux fixer les choses, on travaille souvent en décibels (dB), avec l'équivalence suivante : Ev(p) = 10\,\log_{10} \frac{p}{(1-p)}. Une évidence de -40 dB correspond à une probabilité de 10-4, etc. Si on prend le logarithme en base 2, Ev(p) = \log_{2} \frac{p}{(1-p)}, l'évidence est exprimée en bits. On a Ev_{dB}= \approx 3,0103\, Ev_{bits}\quad (10^3\approx 2^{10}). L'intérêt de cette notation, outre qu'elle évite de cette manière d'avoir trop de décimales au voisinage de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids de témoignage (weight of evidence) pour faire passer un évènement d'une plausibilité de -40 dB (10-4) à -30 dB (10-3) que pour le faire passer de -10 dB (0,1) à 0 dB (0,5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :

Table d'équivalence
Probabilité Évidence (dB) Évidence (bits)
0,0001 -40,0 -13,3
0.0010 -30,0 -10,0
0,0100 -20,0 -6,6
0,1000 -9,5 -3,2
0,2000 -6,0 -2,0
0,3000 -3,7 -1,2
0,4000 -1,8 -0,6
0,5000 0,0 0,0
0,6000 1,8 0,6
0,7000 3,7 1,2
0,8000 6,0 2,0
0,9000 9,5 3,2
0,9900 20,0 6,6
0,9990 30,0 10,0
0,9999 40,0 13,3

Ev est une abréviation pour weight of evidence, parfois traduit en français par le mot évidence ; la formulation la plus conforme à l'expression anglaise d'origine serait le mot à mot poids de témoignage, mais par une coïncidence amusante « évidence » se montre très approprié en français pour cet usage précis.

C'est peu après les publications de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

D'autres unités de mesure que le décibel ou le bit ont été parfois utlisées : le hartley avec des logarithmes à base 10 sans multiplicateur, les NATS utilisant les logarithmes népériens, dits aussi naturels

Comparaison avec la statistique classique

Différence d'esprit

Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que

  • les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour des probabilités personnelles, dites aussi subjectives (une probabilité est en fait toujours subjective, lorsqu'on analyse ses fondements),
  • les méthodes statistiques utilisent des méthodes personnelles pour traiter des fréquences impersonnelles.

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement en donnant des poids de plus en plus faibles aux aprioris au fur et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite.

La possibilité de diminuer automatiquement le poids des aprioris au fur et à mesure de l’acquisition des données a permis aux modèles bayésiens d'être largement utilisés en data mining. En effet, contrairement aux méthodes classiques, il ne nécessitent que peu d'intervention humaines pour redéfinir les hypothèses lorsque ces dernières sont mauvaises.

Quand utiliser l'une ou l'autre ?

Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler[1]. En cas de profusion de données, les résultats sont asymptotiquement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. En revanche, la bayésienne permet de traiter des cas où la statistique ne disposerait pas suffisamment de données pour qu'on puisse en appliquer les théorèmes limites.

Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution par rapport à des observations) est asymptotiquement convergent avec le χ² des statistiques classiques à mesure que le nombre d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi parfaitement justifié a posteriori par le raisonnement bayésien (source : Myron Tribus, op. cit.)

Exemples d'inférence bayésienne

D'où vient ce biscuit ?

(cet exemple est tiré de l'article anglophone)

Imaginons deux boîtes de biscuits.

  • L'une, A, comporte 30 biscuits au chocolat et 10 ordinaires.
  • L'autre, B, en comporte 20 de chaque sorte.

On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée par le théorème de Bayes :

Notons HA la proposition « le gâteau vient de la boîte A » et HB la proposition « le gâteau vient de la boîte B ».

Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons P(HA) = P(HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0,5 pour chaque proposition.

Notons D l'événement désigné par la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, nous savons que :

  • P(D | HA) = 30/40 = 0,75 (évidence 4,77 dB, soit 1,44 bit)
  • P(D | HB) = 20/40 = 0,5 (évidence 0 dB, soit 0 bit)

Note: « P(A | B) » se dit « la probabilité de A sachant B ».

Résolution

La formule de Bayes nous donne donc :


\begin{matrix} P(H_A | D) &=& \frac{P(H_A) \cdot P(D | H_A)}{P(H_A) \cdot P(D | H_A) + P(H_B) \cdot P(D | H_B)} \\  \\  \ & =& \frac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\  \\  \ & =& 0,6 \end{matrix}


P(HA|D) représente la probabilité d'avoir choisi la boîte A sachant que le gâteau est au chocolat.


Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était P(HA), soit 0,5.

Après l'avoir regardé, nous révisons cette probabilité à P(HA|D), qui est 0,6 (1,76 dB ou 0,53 bit).

L'observation nous a donc apporté 1,76 dB (0,53 bit).

Et puisque P(HA|D) + P(HB|D) = 1 (pas d'autre possibilité que d'avoir choisi la boîte A ou la boîte B sachant que le gâteau est au chocolat), la probabilité d'avoir choisi la boîte B sachant que le gâteau est au chocolat est donc de 1 − 0,6 = 0,4

Si nous imposons une probabilité a priori quelconque de suspecter une boîte particulière plutôt que l'autre, le même calcul effectué avec cette probabilité a priori fournit également 0,53 bit. C'est là une manifestation de la règle de cohérence qui constituait l'un des desiderata de Cox.

Cette pièce est-elle biaisée ?

On lance quatre fois une pièce et elle tombe quatre fois du même côté. Est-elle biaisée ?

La position des statistiques classiques est de dire qu'on ne peut pas tirer de conclusion significative de trois tirages (en effet, un côté étant déterminé par le premier lancer, on a bien une probabilité 1/8ème d'avoir les trois tirages suivants du côté identique avec une pièce parfaitement honnête, ce qui ne fournit pas les 95% de certitude demandés traditionnellement).

L'approche bayésienne mesurera simplement que cette probabilité de 1/16ème déplace linéairement de 10 log10 (1/8 / 7/8) = - 8,45 dB l'évidence d'honnêteté de la pièce. Si nous lui accordions 40 dB (pièce sortie par exemple de notre propre porte-monnaie), cette évidence passe à 31,55 dB. En d'autres termes, la probabilité subjective de sa normalité reste élevée (30 dB correspondent à une probabilité de 10^-3 environ que la pièce soit biaisée).

Si en revanche la pièce est fournie par un individu que nous jugeons louche et que nous estimions à 0 dB son évidence d'honnêteté (autant de chances d'être bonne que biaisée), cette évidence passe à -8,45 dB, ce qui correspond maintenant à une probabilité subjective de 85,7% que la pièce soit biaisée et nous serions avisés de mettre fin au jeu.

(exemple cité par Myron Tribus)

Où en sont les immatriculations du moment ?

Supposons qu'un pays numérote les plaques minéralogiques de ses véhicules de 1 en 1 en partant de 1. Nous observons N plaques portant des numéros S1, ... SN. Pour N supérieur à 3, on démontre par la méthode de Bayes que le meilleur estimateur du numéro en cours K ne dépend que de N et de la plus haute immatriculation trouvée Smax, selon la formule suivante :

K = Smax × (N-1)/(N-2)

Plus intéressant encore, la variance de cette estimation devient exponentiellement petite avec la valeur de N. La démonstration est donnée dans Tribus, Décisions rationnelles dans l'incertain.

Références

  1. Estimation de la teneur d'un gisement minier ou pétrolifère, par exemple

Enseignement de l'outil

  • Bernardo, J. and Smith, A.F.M. (1994) Bayesian Theory. John Wiley, New York (LA référence de l'approche formelle de la théorie bayésienne via les fonctions de perte et la théorie de la décision)
  • Tribus, Myron (1974) Décisions rationnelles dans l'incertain, trad. de Jacques Pézier, Masson (épuisé, mais lisible à la Bibliothèque publique d'information)
  • Robert, C.P. (1992) L'Analyse Statistique Bayésienne. Economica, Paris
  • Documentation et programmes à télécharger
  • Robert, C.P. (1994). The Bayesian Choice: A Decision Theoretic Motivation. New York: Springer Verlag (première édition, en français : L'Analyse Statistique Bayésienne, Paris: Economica, 1992, mais typographie moins soignée et donc lisibilité moins grande. Traduit en français en 2006 par Springer-Verlag, Paris)
  • Jaynes, E.T. (2003) Probability Theory : The Logic of Science (en anglais).
  • Francisco J. Samaniego, A Comparison of the Bayesian and Frequentist Approaches to Estimation, 2010, ISBN 978-1-4419-5940-9

Utilisation de l'outil

Les ouvrages relatifs à l'utilisation sont plus rares pour la raison suivante : on utilise les méthodes bayésiennes là où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments...). Ce sont dans les deux cas cités des sociétés privées (pétroliers, laboratoires pharmaceutiques...) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations qui ont coûté cher à leurs actionnaires.

Cependant, des analyses bayésiennes de problèmes concrets apparaissent dans la plupart des numéros des grands journaux de statistiques, comme Journal of the Royal Statistical Society, Journal of the American Statistical Association, Biometrika, Technometrics ou Statistics in Medicine.

Annexe historique

L'usage de probabilités a priori a entraîné quelques reproches récurrents aux méthodes bayésiennes lors de leur introduction. On devait alors rappeler systématiquement les quatre points suivants :

  1. L'effet de la distribution a priori s'estompe à mesure que les observations sont prises en compte
  2. Il existe des lois impersonnelles, comme la maximisation d'entropie ou l'invariance de groupe indiquant l'unique distribution possible sans ajouter d'information propre à l'expérimentateur.
  3. Les probabilités a priori sont souvent dans d'autres méthodes utilisées inconsciemment (critère de Wald, critère du minimax...)
  4. Comme pour tout autre modèle, les effets de différents choix a priori peuvent être considérés de front.

Ces méthodes sont aujourd'hui passées dans les mœurs.

Voir aussi

  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Inférence bayésienne de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Inference bayesienne — Inférence bayésienne On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d une hypothèse. Cette démarche est régie par l utilisation de règles strictes de combinaison des probabilités, desquelles… …   Wikipédia en Français

  • Inférence Bayésienne — On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d une hypothèse. Cette démarche est régie par l utilisation de règles strictes de combinaison des probabilités, desquelles dérive le théorème de… …   Wikipédia en Français

  • Inférence statistique — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. L inférence statistique consiste à induire les caractéristiques inconnues d une population à partir d un échantillon issu de cette population …   Wikipédia en Français

  • bayésienne — ● bayésien, bayésienne adjectif (de T. Bayes, nom propre) Méthodes bayésiennes, statistique bayésienne, méthodes d inférence statistique fondées sur une évaluation des probabilités des hypothèses, préalablement à l observation d un événement… …   Encyclopédie Universelle

  • Probabilité bayésienne — Théorème de Bayes Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que… …   Wikipédia en Français

  • Classification naïve bayesienne — La classification naïve bayésienne est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur …   Wikipédia en Français

  • Méthodes bayésiennes, statistique bayésienne — ● Méthodes bayésiennes, statistique bayésienne méthodes d inférence statistique fondées sur une évaluation des probabilités des hypothèses, préalablement à l observation d un événement aléatoire …   Encyclopédie Universelle

  • Théorème de Bayes — Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait… …   Wikipédia en Français

  • Théorème de bayes — Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait… …   Wikipédia en Français

  • Probabilité — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. La probabilité (du latin probabilitas) est une évaluation du caractère probable d un évènement. En mathématiques, l étude des probabilités… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”