Théorème de Cox-Jaynes

Théorème de Cox-Jaynes: Le théorème de Cox-Jaynes (1946) est une codification des processus d'apprentissage à partir d'un certain ensemble de postulats. Cette codification se trouve coïncider au terme de ces considérations avec celle — historiquement d'origine toute différente — de probabilité. Il tient son nom du physicien Richard Threlkeld Cox (en) qui en a formulé la version originale.

Elle induit donc une interprétation « logique » des probabilités indépendante de celle de fréquence. Elle fournit également une base rationnelle au mécanisme d'induction logique, et donc de l'apprentissage par des machines. Qui plus est, le théorème invalide — dans les conditions des postulats — toute autre forme de représentation de la connaissance comme biaisée. Il s'agit donc d'un résultat extrêmement fort. (source : Myron Tribus, Décisions rationnelles dans l'incertain, Masson, 1974)

Les résultats de Cox n'avaient touché qu'une audience réduite avant qu'Edwin Thompson Jaynes ne redécouvre ce théorème et n'en défriche une série d'implications pour les méthodes bayésiennes, et Irving John Good pour l'intelligence artificielle.

Sommaire

1 Problèmes de validité de la démarche inductive avant Cox

1.1 Réserves de Bertrand Russell

1.2 Paradoxe de Hempel

2 Les « desiderata » (axiomes)

2.1 Les degrés de plausibilité sont représentés par des nombres réels

2.2 Les règles d'inférence ne doivent pas contredire les règles d'inférence communes

2.3 Règle de cohérence

2.4 Règle d'honnêteté

2.5 Règle de reproductibilité

3 Les règles quantitatives (lois de composition interne)

3.1 La règle de somme

3.2 La règle de produit

4 Les résultats

4.1 Exemple

4.2 La notation d'I.J Good (weight of evidence)

4.2.1 Échelle en décibels (dB)

4.2.2 En bits

5 Conséquences du théorème

5.1 Unification de l'algèbre de Boole et de la théorie des probabilités

5.2 Abandon du paradigme « fréquentiste »

5.3 Bases rationnelles de l'apprentissage machine

6 Limitations importantes du théorème

6.1 Un paradoxe apparent

6.2 Le rôle du langage (formatage)

7 Notes et références

8 Voir aussi

8.1 Articles connexes

8.2 Liens externes

Problèmes de validité de la démarche inductive avant Cox

Réserves de Bertrand Russell

Dans le chapitre « La science est-elle superstitieuse ? » de son ouvrage Science et religion, Bertrand Russell énonce le problème — il ose même le mot de scandale — posé par l'induction :

Au nom de quoi affirmer, même de façon provisoire, que ce qui a été vérifié dans un nombre limité de cas se vérifiera aussi dans les cas qui n'ont pas été testés ?

Au nom de quoi supposer, même sur ce qui a été mesuré, que ce qui a été vrai hier le sera toujours demain ?

Paradoxe de Hempel

Ce paradoxe visait à montrer une faille dans le mécanisme d'induction, qui imposait que le domaine de validité de celui-ci fût précisé de façon plus rigoureuse : le contexte de ce dont on parle doit être toujours mentionné. Ainsi le comptage des oiseaux à la fois non-blancs et non-corbeaux dans une chambre ne renseigne pas sur la probabilité que tous les corbeaux soient blancs, mais que tous les corbeaux soient blancs dans cette chambre — affirmation parfaitement exacte quand il n'y a aucun corbeau dans la chambre, en vertu de la relation (qui définit l'implication)

$(p \Rightarrow q) \Leftrightarrow ((p \wedge q) \vee \neg p )$

Détails dans l'article Paradoxe de Hempel, dit de l'ornithologie en chambre.

Les « desiderata » (axiomes)

Cox cherche à poser les desiderata souhaitables pour un robot qui raisonnerait selon une logique inductive :

Les degrés de plausibilité sont représentés par des nombres réels

Il faut bien en effet pouvoir à tout moment dire de deux plausibilités laquelle est plus grande que l'autre, ce qui suggère une représentation quantitative, et la forme numérique semble commode.

Une représentation entière poserait un problème de bruit discret, aucune plausibilité ne pouvant se glisser entre deux représentées par des entiers successifs.

Des rationnels conviendraient certes, mais si tous les réels ne sont pas des rationnels, tous les rationnels sont en revanche bien des réels.

La convention adoptée, arbitrairement, est que des plausibilités plus grandes seront représentées par des nombres plus grands.

Les règles d'inférence ne doivent pas contredire les règles d'inférence communes

En d'autres termes, ce qui nous paraît évident ne doit pas être contredit par le modèle (à la différence de ce qui se passe avec le paradoxe de Condorcet).

Exemple :

si A est préférable à B,

et B préférable à C,

toutes choses égales par ailleurs et en l'absence de B, A doit être préféré à C.

Pour les cinq sections suivantes, toutes les formules sont ici :

Cox-Jaynes (PDF)

Règle de cohérence

Si une conclusion peut être obtenue par plus d'un moyen, alors tous ces moyens doivent bien donner le même résultat.

Cette règle élimine du champ d'examen les heuristiques multiples dès lors qu'elles pourraient contenir entre elles des contradictions (comme le font par exemple parfois les critères de Wald et du minimax en théorie des jeux).

Règle d'honnêteté

Le robot doit toujours prendre en compte la totalité de l'information qui lui est fournie. Il ne doit pas en ignorer délibérément une partie et fonder ses conclusions sur le reste. En d'autres termes, le robot doit être totalement non idéologique, neutre de point de vue.

Règle de reproductibilité

Le robot représente des états de connaissance équivalents par des plausibilités équivalentes. Si deux problèmes sont identiques à un simple étiquetage de propositions près, le robot doit assigner les mêmes plausibilités dans les deux cas.

Cela signifie en particulier que des propositions seront considérées a priori comme de plausibilité équivalente quand elles ne se distinguent que par leur nom - ce qui n'arrive guère que dans des cas très particuliers, comme une pièce ou un dé ayant satisfait à des critères de non-pipage.

Les règles quantitatives (lois de composition interne)

La règle de somme

Sans rentrer dans les équations, l'idée est que lorsque deux plausibilités du même état se composent, la plausibilité composée est nécessairement égale ou supérieure à la plus grande des deux^[1].

La règle de produit

Il s'agit ici du cas inverse : quand deux plausibilités doivent toutes deux être vérifiées pour qu'un état puisse exister, cet état ne peut avoir de plausibilité plus grande que la plus petite des deux précédentes^[2].

Les résultats

Exemple

La notation d'I.J Good (weight of evidence)

Alan Turing avait fait remarquer en son temps que l'expression des probabilités était beaucoup plus facile à manier en remplaçant une probabilité p variant de 0 à 1 par l'expression ln (p/(1-p)) variant entre moins l'infini et plus l'infini. En particulier, sous cette forme, un apport d'information par la règle de Bayes se traduit par l'ajout d'une quantité algébrique unique à cette expression (que Turing nommait log-odd), cela quelle que soit la probabilité a priori de départ avant l'observation.

Échelle en décibels (dB)

Irving John Good reprit cette idée, mais pour faciliter le travail avec ces nouvelles quantités :

utilisa un logarithme décimal plutôt que naturel, afin que l'ordre de grandeur de la probabilité associée apparaisse à simple lecture.

adopta un facteur 10 afin d'éviter la complication de manier des quantités décimales, là où une précision de 1% suffisait.

Il nomma la mesure correspondante, W = 10 log₁₀ (p/(1-p)), weight of evidence parce qu'elle permettait de « peser » le témoignage des faits en fonction des attentes - manifestées par des probabilités « subjectives » antérieures à l'observation - de façon indépendante de ces attentes^[3].

En bits

Les évidences sont parfois exprimées aussi en bits, en particulier dans les tests de validité de lois scalantes. Quand une loi comme la loi de Zipf ou de Mandelbrot s'ajuste en effet mieux aux données qu'une autre loi ne nécessitant pas de tri préalable, il faut en effet tenir compte du fait que ce tri a représenté un apport d'information de l'ordre de N log₂N et que c'est peut-être lui seul qui est responsable de ce meilleur ajustement ! Si le gain d'évidence apporté par le tri représente moins de bits que celui qu'a coûté le tri, cela signifie que l'information apportée par la considération d'une loi scalante est en fait nulle.

Conséquences du théorème

Unification de l'algèbre de Boole et de la théorie des probabilités

On remarque que l'algèbre de Boole est isomorphe à la théorie des probabilités réduite aux seules valeurs 0 et 1.

Et logique = produit de probabilités

Ou logique = somme moins produit de deux probabilités (p+p'-p.p')

Non logique = inversion d'une probabilité (p → 1-p)

Cette considération conduisit à l'invention dans les années 1970 des calculateurs stochastiques promus par la société Alsthom (qui s'écrivait avec un h à l'époque) et qui entendaient combiner le faible coût des circuits de commutation avec la puissance de traitement des calculateurs analogiques. Quelques-uns furent réalisés à l'époque.

Abandon du paradigme « fréquentiste »

Myron Tribus propose de considérer la probabilité comme la simple traduction numérique d'un état de connaissance et nom comme le passage à la limite de la notion de fréquence. À l'appui, il prend l'image classique du dé dont la probabilité de sortie de chaque face est considérée au départ de 1/6ème même si le dé est en glace, donc ne peut être lancé plus d'un petit nombre de fois, ce qui interdit tout passage à la limite.

Il imagine alors l'objection d'un interlocuteur : "Si je me représente mentalement mille dés, je peux bel et bien envisager un passage à la limite", à laquelle il répond : "Tout à fait. Et donc si vous vous les représentez simplement mentalement, c'est qu'il s'agit bien d'un état de connaissance^[4].

Les divergences entre approches fréquentistes et bayésiennes ont beaucoup affecté les années 70, où elles prenaient presque l'aspect d'une guerre de religion. Leur coexistence est aujourd'hui admise, chacune ayant son domaine d'efficacité maximale et les deux approches convergeant de toute façon lorsqu'on passe aux grands nombres d'observations^[5] (il n'y a pas de conflit pour les petits nombres, les méthodes fréquentistes (statistiques) ne concenant pas ce domaine d'application).

Néanmoins, le corpus fréquentiste ayant déjà été largement établi et condensé du XVIIème siècle à nos jours, les pages de la Toile concernent davantage aujourd'hui l'approche bayésienne.

Bases rationnelles de l'apprentissage machine

Edwin Thompson Jaynes, dans sa reprise et son approfondissement du théorème de Cox, utilise celui-ci pour montrer que tout apprentissage devra nécesairement soit utiliser l'inférence bayésienne (à un homomorphisme près si on le désire, comme un passage par une transformation logarithme simplifiant les calculs pratiques), soit donner quelque part des résultats incohérents et être en conséquence inadapté. Ce résultat extrêmement fort nécessite l'acceptation de cinq desiderata simples, dont celui de la continuité de méthode (ne pas changer brusquement d'algorithme simplement parce qu'une donnée est modifiée de façon infinitésimale).

Son ouvrage est publiquement lisible en PDF sur la Toile^[6], conformément à la demande de Jaynes, décédé en 1998. Il existe aussi en ouvrage papier^[7].

Limitations importantes du théorème

Un paradoxe apparent

Chaque discipline possède ses mesures favorites : si la thermique s'occupe principalement de températures, la thermodynamique sera plus attachée à des mesures de quantité de chaleur, voire d'entropie. L'électrostatique s'intéresse plus aux tensions qu'aux intensités, tandis que c'est l'inverse pour les courants faibles, et qu'en électrotechnique c'est davantage en termes de puissance qu'on aura tendance à raisonner. Selon sa discipline d'origine, chaque expérimentateur tendra à effectuer ses estimations sur les unités auxquelles il est habitué.

Dans le cas d'un montage électrique, un spécialiste d'électrotechnique fera peut-être une estimation de puissance dissipée (Ri²) tandis qu'un autre de courants faibles préférera estimer l'intensité elle-même (i). Si la convergence à terme des estimations est assurée dans les deux cas, elle ne se fera pas de la même façon, même avec des distributions a priori identiques, car l'espérance mathématique d'un carré n'est pas mathématiquement liée au carré d'une espérance. Il s'agit là de la principale pierre d'achoppement des méthodes bayésiennes.

Le rôle du langage (formatage)

Indépendamment des probabilités a priori que nous attribuons aux événements, nos estimations sont également en partie « formatées » par le langage et la « déformation professionnelle » qui s'y attachent. Concrètement, cela rappelle qu'il n'existe pas seulement une, mais deux sources d'arbitraire dans les méthodes bayésiennes : celle, de mesure, qui entache les probabilités a priori choisies et celle, de méthode, qui correspond à notre représentation du problème. En revanche, l'arbitraire se limite à ces deux éléments, et les méthodes bayésiennes sont ensuite totalement impersonnelles.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cox's theorem » (voir la liste des auteurs)

↑ Le raisonnement plausible

↑ Les règles quantitatives

↑ Myron Tribus, Décisions rationnelles dans l'incertain, Traduction française de Jacques Pézier, Masson, 1974

↑ Myron Tribus, Décisions rationnelles dans l'incertain, traduction de Jacques Pézier, Masson, 1974. En anglais : Rational descriptions, decisions and designs.

↑ http://nb.vse.cz/kfil/elogos/science/vallverdu08.pdf

↑ http://bayes.wustl.edu/etj/prob/book.pdf

↑ E.T. Jayes, Probability Theory : The Logic of Science, ISBN 978-0521592710

Voir aussi

Bioinformatics: the machine learning approach, Pierre Baldi, Søren Brunak, MIT Press, 2.2 The Cox-Jayes approach, pages 50-57

Articles connexes

Probabilité

Théorème de Bayes

Inférence bayésienne

Bertrand Russell

Liens externes

Niels Henrik Abel "Untersuchung der Functionen zweier unabhängig veränderlichen Gröszen x und y, wie f(x, y), welche die Eigenschaft haben, dasz f[z, f(x,y)] eine symmetrische Function von z, x und y ist.", Jour. Reine u. angew. Math. (Crelle's Jour.), 1, 11–15, (1826).

R. T. Cox, "Probability, Frequency, and Reasonable Expectation," Am. Jour. Phys., 14, 1–13, (1946).

R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).

Janos Aczél (en), Lectures on Functional Equations and their Applications, Academic Press, New York, (1966).

Terrence L. Fine, Theories of Probability; An examination of foundations, Academic Press, New York, (1973).

Edwin Thompson Jaynes, Probability Theory: The Logic of Science, Cambridge University Press (2003). — preprint version (1996) ; Chapters 1 to 3 of published version

Joseph Y. Halpern, "A counterexample to theorems of Cox and Fine," Journal of AI research, 10, 67–85 (1999)

Joseph Y. Halpern, "Technical Addendum, Cox's theorem Revisited", Journal of AI research, 11, 429–435 (1999)

Stefan Arnborg and Gunnar Sjödin, On the foundations of Bayesianism, Preprint: Nada, KTH (1999) ps, pdf

Stefan Arnborg and Gunnar Sjödin, A note on the foundations of Bayesianism, Preprint: Nada, KTH] (2000a) ps, pdf

Stefan Arnborg and Gunnar Sjödin, "Bayes rules in finite models," in European Conference on Artificial Intelligence, Berlin, (2000b) — ps— pdf

Michael Hardy, "Scaled Boolean algebras", Advances in Applied Mathematics, August 2002, pages 243–292 (or preprint)

Kevin S. Van Horn, "Constructing a logic of plausible inference: a guide to Cox’s theorem", International Journal of Approximate Reasoning, Volume 34, Issue 1, September 2003, Pages 3–24. (Or through Citeseer page.)

Portail des mathématiques

Catégories :
Probabilités
Théorème d'informatique
Apprentissage automatique

Contenu soumis à la licence CC-BY-SA. Source : Article Théorème de Cox-Jaynes de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Theoreme de Cox-Jaynes — Théorème de Cox Jaynes Le théorème de Cox Jaynes (1946) est une codification des processus d apprentissage à partir d un certain ensemble de postulats. Cette codification se trouve coïncider au terme de ces considérations avec celle… … Wikipédia en Français
Théorème de cox-jaynes — Le théorème de Cox Jaynes (1946) est une codification des processus d apprentissage à partir d un certain ensemble de postulats. Cette codification se trouve coïncider au terme de ces considérations avec celle historiquement d origine toute… … Wikipédia en Français
Théorème de cox — Pour les articles homonymes, voir Cox. Le théorème de Cox est un théorème de logique établi en 1946 par le physicien Richard Threlkeld Cox. Cox formalise la notion intuitive de plausibilité sous une forme numérique et démontre que, si les… … Wikipédia en Français
Théorème de Cox — Pour les articles homonymes, voir Cox. Le théorème de Cox est un théorème de logique établi en 1946 par le physicien Richard Threlkeld Cox. Cox formalise la notion intuitive de plausibilité sous une forme numérique et démontre que, si les… … Wikipédia en Français
Théorème de bayes — Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait… … Wikipédia en Français
Theoreme de Radon — Théorème de Radon Les projections des rayons X sont clairement visibles dans cette coupe prise par un scanneur. Le théorème de projection de Radon établit la possibilité de reconstituer une fonction réelle à deux variables (assimilable à une… … Wikipédia en Français
Théorème de radon — Les projections des rayons X sont clairement visibles dans cette coupe prise par un scanneur. Le théorème de projection de Radon établit la possibilité de reconstituer une fonction réelle à deux variables (assimilable à une image) à l aide de la… … Wikipédia en Français
Théorème de Bayes — Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait… … Wikipédia en Français
Théorème de Radon — Les projections des rayons X sont clairement visibles dans cette coupe prise par un scanneur. Le théorème de projection de Radon établit la possibilité de reconstituer une fonction réelle à deux variables (assimilable à une image) à l aide de la… … Wikipédia en Français
Edwin Thompson Jaynes — vers 1960 Edwin Thompson Jaynes (5 juillet 1922 20 avril 1998) a été professeur de physique à l université Washington à Saint Louis. Il a abondamment écrit au sujet de l inférence bayésienne et son travail a contribué à en répandre les méthodes… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Théorème de Cox-Jaynes

Sommaire

Problèmes de validité de la démarche inductive avant Cox

Réserves de Bertrand Russell

Paradoxe de Hempel

Les « desiderata » (axiomes)

Les degrés de plausibilité sont représentés par des nombres réels

Les règles d'inférence ne doivent pas contredire les règles d'inférence communes

Règle de cohérence

Règle d'honnêteté

Règle de reproductibilité

Les règles quantitatives (lois de composition interne)

La règle de somme

La règle de produit

Les résultats

Exemple

La notation d'I.J Good (weight of evidence)

Échelle en décibels (dB)

En bits

Conséquences du théorème

Unification de l'algèbre de Boole et de la théorie des probabilités

Abandon du paradigme « fréquentiste »

Bases rationnelles de l'apprentissage machine

Limitations importantes du théorème

Un paradoxe apparent

Le rôle du langage (formatage)

Notes et références

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Théorème de Cox-Jaynes

Sommaire

Problèmes de validité de la démarche inductive avant Cox

Réserves de Bertrand Russell

Paradoxe de Hempel

Les « desiderata » (axiomes)

Les degrés de plausibilité sont représentés par des nombres réels

Les règles d'inférence ne doivent pas contredire les règles d'inférence communes

Règle de cohérence

Règle d'honnêteté

Règle de reproductibilité

Les règles quantitatives (lois de composition interne)

La règle de somme

La règle de produit

Les résultats

Exemple

La notation d'I.J Good (weight of evidence)

Échelle en décibels (dB)

En bits

Conséquences du théorème

Unification de l'algèbre de Boole et de la théorie des probabilités

Abandon du paradigme « fréquentiste »

Bases rationnelles de l'apprentissage machine

Limitations importantes du théorème

Un paradoxe apparent

Le rôle du langage (formatage)

Notes et références

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link