Probabilité bayésienne

Probabilité bayésienne

Théorème de Bayes

Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que lon appellerait actuellement la distribution a posteriori de la probabilité p dune loi binomiale. Ses travaux ont été édités et présentés à titre posthume (1763) par son ami Richard Price dans Un essai pour résoudre un problème dans la théorie des risques (An Essay towards solving a Problem in the Doctrine of Chances). Les résultats de Bayes ont été repris et étendus par le mathématicien français Laplace dans un essai de 1774, lequel nétait apparemment pas au fait du travail de Bayes.

Le résultat principal (la Proposition 9 de lessai) obtenu par Bayes est le suivant : en considérant une distribution uniforme du paramètre binomial p et une observation m d'une loi binomiale {\mathcal B}(n+m,p), m est donc le nombre dissues positives observées et n le nombre déchecs observés, la probabilité que p soit entre a et b sachant m vaut :

 
\frac {\displaystyle{\int_a^b C_{n+m}^m \,p^m (1-p)^n\,dp}}
      {\displaystyle{\int_0^1 C_{n+m}^m \,p^m (1-p)^n\,dp}}

Ses résultats préliminaires, en particulier les propositions 3, 4 et 5 impliquent le résultat que lon appelle théorème de Bayes (énoncé plus bas) mais il ne semble pas que Bayes se soit concentré ou ait insisté sur ce résultat.

Ce qui est « bayésien » (au sens actuel du mot) dans la Proposition 9, cest que Bayes ait présenté cela comme une probabilité sur le paramètre p. Cela revient à dire quon peut déterminer, non seulement des probabilités à partir dobservations des issues dune expérience, mais aussi les paramètres relatifs à ces probabilités. Cest le même type de calcul analytique qui permet de déterminer par inférence les deux. En revanche, si lon en croit une interprétation fréquentiste, il ne peut pas exister de probabilité de distribution du paramètre p et par conséquent, on ne peut raisonner sur p quavec un raisonnement dinférence non-probabiliste.

Sommaire

Le théorème de Bayes en Statistique

Le théorème de Bayes est utilisé dans linférence statistique pour mettre à jour ou actualiser les estimations dune probabilité ou dun paramètre quelconque, à partir des observations et des lois de probabilité de ces observations. Il y a une version discrète et une version continue du théorème.

  • Lécole bayésienne utilise les probabilités comme moyen de traduire numériquement un degré de connaissance (la théorie mathématique des probabilités noblige en effet nullement à associer celles-ci à des fréquences, qui nen représentent quune application particulière résultant de la loi des grands nombres). Dans cette optique, le théorème de Bayes peut sappliquer à toute proposition, quelle que soit la nature des variables et indépendamment de toute considération ontologique.
  • Lécole fréquentiste utilise les propriétés de long terme de la loi des observations et ne considère pas de loi sur les paramètres, inconnus mais fixés.

En théorie des probabilités, le théorème de Bayes énonce des probabilités conditionnelles : étant donné deux évènements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si lon connaît les probabilités :

  • de A ;
  • de B ;
  • de B sachant A.

Ce théorème élémentaire (originellement nommé « de probabilité des causes ») a des applications considérables.

Pour aboutir au théorème de Bayes, on part dune des définitions de la probabilité conditionnelle :

 P(A\vert B) P(B) = P(A\cap B) = P(B\vert A) P(A)

en notant P(A\cap B) la probabilité que A et B aient tous les deux lieu. En divisant de part et dautre par P(B), on obtient :

P(A|B) = \frac{P(B | A) P(A)}{P(B)}

soit le théorème de Bayes.

Chaque terme du théorème de Bayes a une dénomination usuelle.

Le terme P(A) est la probabilité a priori de A. Elle est « antérieure » au sens quelle précède toute information sur B. P(A) est aussi appelée la probabilité marginale de A. Le terme P(A|B) est appelée la probabilité a posteriori de A sachant B (ou encore de A sous condition B) . Elle est « postérieure », au sens quelle dépend directement de B. Le terme P(B|A), pour un B connu, est appelé la fonction de vraisemblance de A. De même, le terme P(B) est appelé la probabilité marginale ou a priori de B.

Autres écritures du théorème de Bayes

On améliore parfois le théorème de Bayes en remarquant que

P(B) = P(A\cap B) + P(A^C \cap B) = P(B|A) P(A) + P(B|A^C) P(A^C)

afin de réécrire le théorème ainsi :

P(A|B) = \frac{P(B | A) P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)}

AC est le complémentaire de A. Plus généralement, si {Ai} est une partition de lensemble des possibles,

P(A_i|B) = \frac{P(B | A_i) P(A_i)}{\sum_j P(B|A_j)P(A_j)}\, ,

pour tout Ai de la partition.

Voyez aussi le théorème des probabilités totales.

La démarche dI. J. Good

I. J. Good reprend une idée dAlan Turing : les probabilités deviennent plus faciles à manier si au lieu de raisonner sur une probabilité p, on travaille sur une quantité construite de la façon suivante :

Ev(p) = ln (p/(1-p)) ou Ev(p) = log (p/(1-p))

quil nomme weight of evidence, terme auquel on peut donner différentes traductions : « poids de témoignage », « valeur de plausibilité », etc. Ce qui est intéressant à en retenir est ceci :

  • Une evidence peut varier de moins linfini à plus linfini.
  • On travaille souvent par commodité en décibels (dB), 10 log10 (p/(1-p))
  • Lobservation dun phénomène se traduit par une variation devidence qui constitue une translation devidence, la valeur de cette translation ne dépendant pas des probabilités a priori de lutilisateur. Une observation apporte donc une information objective qui est la même pour tous les observateurs, ce que la loi de Bayes ne mettait pas en... évidence.

En calculs de fiabilité, il faut manier des probabilités très grandes (1-ε) et très petites (ε), travailler en termes devidences permet une visualisation bien plus claire des classes de sécurité : une évidence de -70 dB correspond à une probabilité de 10-7, etc. On peut également travailler en gardant en toutes circonstances le même nombre de décimales et sans manipuler dexposants, ce qui améliore la lisibilité des calculs.

Théorème de Bayes pour des densités de probabilité

Il existe aussi une version du théorème pour les distributions continues, qui se déduit simplement de la densité jointe des observations et des paramètres, produit de la vraisemblance par la densité a priori sur les paramètres, par application de la définition des lois et des densités conditionnelles.

La forme continue du théorème de Bayes peut aussi s'interpréter comme indiquant que la distribution a posteriori sobtient en multipliant la distribution a priori, par la vraisemblance, et en effectuant une normalisation (du fait qu'il s'agit d'une densité de probabilité). En calcul bayésien, on prend donc l'habitude de travailler avec des signes de proportionnalité plutôt que des égalités pour diminuer la complexité des expressions puisque les constantes manquantes se retrouvent par intégration (en principe). Les techniques de simulation de type Monte Carlo et MCMC n'utilisent d'ailleurs pas ces constantes de normalisation.

Exemple 1  :

Lexemple le plus connu est le suivant : si lon observe K numéros de séries dappareils, que le plus grand est S, et quon les suppose numérotés à partir de 1, quelle est la meilleure estimation du nombre N dappareils existants ? On démontre[réfnécessaire] que le meilleur estimateur simple est N = S.(K 1) / (K 2), et surtout que la précision de cette estimation croît très vite, même avec de petites valeurs de K.


Exemple 2  :

Autre exemple possible : supposons quune proportion p inconnue délecteurs vote « oui » avec p [0,1]. On tire de la population un échantillon de n électeurs parmi lesquels un nombre x a voté « oui ». La fonction de vraisemblance vaut donc :

L(p) = \text{(constante a) } \times p^{x} (1-p)^{n-x}

En multipliant cela par la fonction de densité de probabilité a priori de p et en normalisant, on calcule la distribution de probabilité a posteriori de p, ce qui injecte l'information des nouvelles données du sondage. Ainsi, si la probabilité a priori de p est uniforme sur l'intervalle [0,1], alors la probabilité a posteriori aura la forme d'une fonction bêta.

f(p|x)=\text{(constante b) } \times p^{x} (1-p)^{n-x}

la constante étant différente de celle de la fonction de vraisemblance.

La fonction bêta se retrouve avec une grande régularité dans ces questions destimation. Le calcul de la variation dentropie entre lancienne et la nouvelle distribution permet de quantifier exactement, en bits, linformation obtenue.

Voir aussi l'article Plan d'expérience et le problème dit du bandit manchot.

Inférence bayésienne

Article détaillé : Inférence bayésienne.

Les règles de la théorie mathématique des probabilités sappliquent à des probabilités en tant que telles, pas uniquement à leur application en tant que fréquences relatives dévènements aléatoires. On peut décider de les appliquer à des degrés de croyance en certaines propositions. Ces degrés de croyance saffinent au regard dexpériences en appliquant le théorème de Bayes.

Le Théorème de Cox-Jaynes justifie aujourdhui très bien cette approche, qui neut longtemps que des fondements intuitifs et empiriques.

Exemples

De quelle urne vient la boule ?

À titre dexemple, imaginons deux urnes remplies de boules. La première contient dix (10) boules noires et trente (30) blanches ; la seconde en a vingt (20) de chaque. On tire sans préférence particulière une des urnes au hasard et dans cette urne, on tire une boule au hasard. La boule est blanche. Quelle est la probabilité qu'on ait tiré cette boule dans la première urne sachant qu'elle est blanche?

Intuitivement, on comprend bien qu'il est plus probable que cette boule provienne de la première urne, que de la seconde. Donc, cette probabilité devrait être supérieure à 50 %. La réponse exacte vient du théorème de Bayes.

Soit H1 lhypothèse « On tire dans la première urne. » et H2 lhypothèse « On tire dans la seconde urne. ». Comme on tire sans préférence particulière, P(H1) = P(H2) ; de plus, comme on a certainement tiré dans une des deux urnes, la somme des deux probabilités vaut 1 : chacune vaut 50 %.

Notons 'D' linformation donnée « On tire une boule blanche. » Comme on tire une boule au hasard dans une des urnes, la probabilité de D sachant/sous lhypothèse H1 vaut :

P(D | H_1) = \frac{30}{40} = 75\,\%

De même si lon considère H2,

P(D | H_2) = \frac{20}{40} = 50\,\%

La formule de Bayes dans le cas discret nous donne donc.


\begin{matrix} P(H_1 | D) &=&
\frac{P(H_1) \cdot P(D | H_1)}{P(H_1) \cdot P(D | H_1) + P(H_2) \cdot P(D | H_2)}
\\  \\  \ & =&
\frac{50\% \cdot 75\%}{50\% \cdot 75\% + 50\% \cdot 50\%}
\\  \\  \ & =& 60\%
\end{matrix}

Avant que lon regarde la couleur de la boule, la probabilité davoir choisi la première urne est une probabilité a-priori, P(H1) soit 50 %. Après avoir regardé la boule, on révise notre jugement et on considère P(H1|D), soit 60 %.

Pronostics contradictoires

  • Une station météo A prévoit du beau temps pour demain.
  • Une autre, B, prévoit au contraire de la pluie.
  • On sait que dans le passé A sest trompée 25% du temps dans ses prévisions, et B 30% du temps.
  • On sait aussi quen moyenne 40% des jours sont de beau temps et 60% de pluie.

Qui croire, et avec quelle probabilité?

Cette approche bayésienne est utilisée par les centres anti-poison pour détecter le plus vite possible et avec le maximum de précision le type dempoisonnement dont souffre probablement un patient.

Aspects sociaux, juridiques et politiques

Un problème régulièrement soulevé par lapproche bayésienne est le suivant : si une probabilité de comportement (délinquance, par exemple) est fortement dépendante de certains facteurs sociaux, culturels ou héréditaires, alors :

  • dun côté, on peut se demander si cela ne suppose pas une partielle réduction de responsabilité, morale à défaut de juridique des délinquants. Ou, ce qui revient au même, à une augmentation de responsabilité de la société, qui na pas su ou pas pu neutraliser ces facteurs.
  • dun autre côté, on peut souhaiter utiliser cette information pour orienter au mieux une politique de prévention, et il faut voir si lintérêt public ou la morale saccommoderont de cette discrimination de facto des citoyens (fût-elle positive).

« Faux positifs » médicaux

Les faux positifs sont une difficulté inhérente à tous les tests : aucun test nest parfait. Parfois, le résultat sera positif à tort, ce que lon nomme parfois risque du premier ordre ou risque alpha.

Par exemple, quand on teste une personne pour savoir si elle est infectée par une maladie, il y a un risque généralement infime que le résultat soit positif alors que le patient na pas contracté la maladie. Le problème alors nest pas de mesurer ce risque dans labsolu (avant de procéder au test), il faut encore déterminer la probabilité quun test positif le soit à tort. Nous allons montrer comment, dans le cas dune maladie très rare, le même test par ailleurs très fiable peut aboutir à une nette majorité de positifs illégitimes.

Imaginons un test extrêmement fiable :

  • si un patient a contracté la maladie, le test le fait remarquer, cest-à-dire est positif, presque systématiquement, 99 % des fois, soit avec une probabilité 0,99 ;
  • si un patient est sain, le test est correct, cest-à-dire négatif dans 95 % des cas, soit avec une probabilité 0,95 ;

Imaginons que la maladie ne touche quune personne sur mille, soit avec une probabilité 0,001. Cela peut paraître peu mais dans le cas dune maladie mortelle, cest considérable. Nous avons toutes les informations nécessaires pour déterminer la probabilité quun test soit positif à tort, ce qui peut causer un surdiagnostic.

Désignons par A lévènement « Le patient a contracté la maladie » et par B lévènement « Le test est positif ». La seconde forme du théorème de Bayes dans le cas discret donne alors :


\begin{matrix}
P(A|B) &= &
\frac{0,99 \times 0,001}{0,99\times 0,001 + 0,05\times 0,999}\, ,\\ \\ &\approx &0,019\,
\end{matrix}

Sachant que le test est positif, la probabilité que le patient soit sain vaut donc environ : (1 0,019) = 0,981. Du fait du très petit nombre de malades,

  • pratiquement tous les malades présentent un test positif, mais
  • pratiquement aussi, tous les tests positifs désignent des porteurs sains.

Si le traitement est très lourd, coûteux ou dangereux pour un patient sain, il peut être alors inopportun de traiter tous les patients positifs sans risque ou test complémentaire (qui sera sans doute plus précis et plus coûteux, le premier test nayant servi quà écarter les cas les plus évidents).

On a tout de même réussi avec le premier test à isoler une population vingt fois moindre qui contient pratiquement tous les malades. En procédant à dautres tests, on peut espérer améliorer la fiabilité du test. Le théorème de Bayes nous montre que dans le cas dune probabilité faible de la maladie recherchée, le risque dêtre déclaré positif à tort a un impact très fort sur la fiabilité. Le dépistage d'une maladie rare telle que le cancer peut causer le surdiagnostic.

Références

Différentes versions de lessai original, en anglais

  • (en) T. Bayes (1763), « An Essay towards solving a Problem in the Doctrine of Chances », Philosophical Transactions of the Royal Society of London, 53:370-418.
  • (en) T. Bayes (1763/1958) « Studies in the History of Probability and Statistics: IX. Thomas Bayess Essay Towards Solving a Problem in the Doctrine of Chances », Biometrika 45:296-315 (Bayess essay in modernized notation)

Commentaires en anglais

  • (en) G.A. Barnard. (1958) « Studies in the History of Probability and Statistics: IX. Thomas Bayes's Essay Towards Solving a Problem in the Doctrine of Chances », Biometrika 45:293-295 (biographical remarks)
  • (en) S.M. Stigler (1982) « Thomas Bayes' Bayesian Inference, » Journal of the Royal Statistical Society, Series A, 145:250-258 (Stigler argues for a revised interpretation of the essay -- recommended)

Autres références

  • (en) P.S. Laplace (1774) « Mémoire sur la Probabilité des Causes par les Événements, » Savants Étranges 6:621-656, also Œuvres 8:27-65.
  • (en) P.S. Laplace (1774/1986), « Memoir on the Probability of the Causes of Events », Statistical Science, 1(3):364--378.
  • (en) S.M. Stigler (1986), « Laplace's 1774 memoir on inverse probability, » Statistical Science, 1(3):359--378.
  • (en) A. Papoulis (1984), Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill.

Articles connexes

  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques
Ce document provient de « Th%C3%A9or%C3%A8me de Bayes ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Probabilité bayésienne de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • PROBABILITÉ SUBJECTIVE — Utilisée parfois par les mathématiciens pour désigner la probabilité «bayésienne» (cf. calcul des PROBABILITÉS), l’expression de probabilité subjective comporte en elle même une ambiguïté. Elle désigne en effet soit la logique propre de la… …   Encyclopédie Universelle

  • Probabilite — Probabilité La probabilité (du latin probabilitas) est une évaluation du caractère probable d un évènement. En mathématiques, l étude des probabilités est un sujet de grande importance donnant lieu à de nombreuses applications. La probabilité d… …   Wikipédia en Français

  • Probabilité et statistique — Probabilité La probabilité (du latin probabilitas) est une évaluation du caractère probable d un évènement. En mathématiques, l étude des probabilités est un sujet de grande importance donnant lieu à de nombreuses applications. La probabilité d… …   Wikipédia en Français

  • Probabilité — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. La probabilité (du latin probabilitas) est une évaluation du caractère probable d un évènement. En mathématiques, l étude des probabilités… …   Wikipédia en Français

  • Probabilité du Hasard — Hasard Cet article possède un paronyme, voir : Azhar. De choses répandues au hasard, le plus bel ordre, l ordre du monde. Héraclite d Éphèse (vers 500) …   Wikipédia en Français

  • Probabilité du hasard — Hasard Cet article possède un paronyme, voir : Azhar. De choses répandues au hasard, le plus bel ordre, l ordre du monde. Héraclite d Éphèse (vers 500) …   Wikipédia en Français

  • Classification naïve bayesienne — La classification naïve bayésienne est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur …   Wikipédia en Français

  • Inférence bayésienne — On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d un événement. Cette démarche est régie en particulier par théorème de Bayes. Dans la perspective bayésienne, une probabilité n est pas… …   Wikipédia en Français

  • Inference bayesienne — Inférence bayésienne On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d une hypothèse. Cette démarche est régie par l utilisation de règles strictes de combinaison des probabilités, desquelles… …   Wikipédia en Français

  • Inférence Bayésienne — On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d une hypothèse. Cette démarche est régie par l utilisation de règles strictes de combinaison des probabilités, desquelles dérive le théorème de… …   Wikipédia en Français

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/1374486 Do a right-click on the link above
and select “Copy Link”