Intervalle de confiance

Ne pas confondre avec l'intervalle de fluctuation ni avec le calcul d'incertitude en physique.

En mathématiques, un intervalle de confiance permet de définir une marge d'erreur entre les résultats d'un sondage et un relevé exhaustif de la population totale. Plus généralement, l'intervalle de confiance permet d'évaluer la précision de l'estimation d'un paramètre statistique sur un échantillon.

Il est constitué d'un intervalle dans laquelle le paramètre à estimer a une forte probabilité de se trouver. Cette probabilité, souvent exprimée à l'aide d'un pourcentage, est le degré de confiance de l'intervalle considéré. Ainsi, un intervalle de confiance à 95 % donnera un encadrement correct quatre-vingt-quinze fois sur cent en moyenne. L'augmentation du degré de confiance entraine un étalement de l'intervalle de confiance et donc une diminution de la précision.

Contrairement à l'intervalle de fluctuation, qui est déterminé par le paramètre et vise à encadrer l'estimateur, l'intervalle de confiance est aléatoire car dépend de l'échantillon et vise à encadrer le paramètre réel.

Pour estimer l'espérance d'une loi ou une moyenne globale, l'intervalle de confiance est centré sur la moyenne observée et son amplitude est approchée à l'aide du théorème central limite par le produit de l'écart type et d'un coefficient dépendant du degré de confiance, divisé par la racine carrée de la taille de l'échantillon.

$I_c = \left[\bar x - t_{\alpha}\frac{s}{\sqrt{n}}\ ;\ \bar x + t_{\alpha}\frac{s}{\sqrt{n}}\right]$

Formulation de l'intervalle de confiance autour d'une moyenne observée

x

avec un écart type observé

s

sur un échantillon de taille

n

Sommaire

1 Marge d'erreur sur un échantillon
2 Signification
3 Exemple I : Estimation d'une moyenne
4 Exemple II : le sondage d'opinion
5 De façon plus globale
6 Voir aussi
- 6.1 Notes et références
- 6.2 Articles connexes

Marge d'erreur sur un échantillon

À la fin du XVIII^e siècle, le mathématicien Laplace calcule le taux de natalité^[1] sur quelques paroisses et en déduit la population de la France entière à partir du nombre total de naissances, consigné dans les registres de baptêmes de l'année^[2]. Mais il va plus loin en joignant à cette évaluation par proportionnalité une estimation de l'erreur commise.

En effet, s'il est théoriquement possible que la valeur observée sur quelques cas particuliers corresponde exactement à la valeur sur l'ensemble de la population, il est théoriquement possible aussi que l'échantillon choisi ne soit pas du tout représentatif. Or le calcul de probabilités, qui s'est développé depuis le XVI^e siècle, permet de décrire la probabilité qu'il y ait un écart donné entre ces deux valeurs. En fixant un seuil à cette probabilité, il est alors possible de majorer l'écart.

Signification

La notion d'intervalle de confiance apparaît lorsqu'on tente d'obtenir des informations synthétiques sur une population que l'on ne connaît pas entièrement. Dans le cas contraire, en statistique descriptive, le problème se résout par des méthodes purement algébriques. Ici il faut associer à la population une loi de probabilité dont la pertinence doit être justifiée, au moins approximativement, par un raisonnement, par un test d'hypothèse ou souvent par la seule commodité qu'offre la loi normale. Ceci conduit à interpréter un élément de la population comme une variable aléatoire et un échantillon comme un ensemble de telles variables.

En particulier, la moyenne et la variance, dites empiriques, calculées à partir de l'échantillon selon les règles algébriques applicables en statistique descriptive, sont elles-mêmes des variables aléatoires dont il est possible de calculer la moyenne et la variance, sous réserve d'indépendance des éléments de l'échantillon. Dans certains cas il est même possible de déterminer leur loi de probabilité. C'est ce qu'on appelle l'échantillonnage.

La moyenne empirique et la variance empirique calculées à partir de réalisations d'un échantillon fournissent donc des estimations aléatoires de la moyenne et de la variance de la loi de probabilité associée à la population.

Si on connaît la loi de probabilité d'une estimation on peut donc en déduire, pour une probabilité de non-dépassement donnée, un intervalle de confiance autour de la valeur estimée.

Ces notions, présentées ici de manière élémentaire, se généralisent dans la théorie des estimateurs.

Exemple I : Estimation d'une moyenne

L'usage le plus simple des intervalles de confiance concerne les populations à distribution normale (en forme de cloche) dont on cherche à estimer la moyenne $\overline X$ . Si on connaît l'écart type $σ(X)$ (ou si on en connaît une estimation assez fiable) de cette distribution, et si on mesure la moyenne $\overline x$ sur un échantillon de taille n pris au hasard, alors

l'intervalle $\left[\overline x - \frac{\sigma(X)}{\sqrt n}; \overline x + \frac{\sigma(X)}{\sqrt n}\right]$ est un intervalle de confiance de $\overline X$ à environ 68 %
l'intervalle $\left[\overline x -2 \frac{\sigma(X)}{\sqrt n}; \overline x + 2\frac{\sigma(X)}{\sqrt n}\right]$ est un intervalle de confiance de $\overline{X}$ à environ 95 % ^[3]
l'intervalle $\left[\overline x - 3\frac{\sigma(X)}{\sqrt n}; \overline x + 3\frac{\sigma(X)}{\sqrt n}\right]$ est un intervalle de confiance de $\overline X$ à environ 99,7%

Ces formules sont valables pour des échantillons supposés infinis (n>100). Dans le cas d'échantillon plus petit, la consultation d'une table de distribution de la loi de Student est nécessaire.

Encore faut-il connaître ou avoir une estimation de l'écart type $σ(X)$ . En pratique, on prend comme estimation de $σ(X)$ la valeur $s\,$ où $s\,$ est l'écart-type de la série de mesures issues de l'échantillon.

Ainsi l'on voit que pour augmenter la confiance, il faut élargir l'intervalle et pour obtenir un intervalle plus fin avec même degré de confiance, il faut augmenter la taille de l'échantillon.

Exemple II : le sondage d'opinion

On cherche à estimer le pourcentage de personnes ayant une voiture verte. Pour cela on effectue un sondage. Comme on ne sonde pas toute la population on a de bonnes chances de ne pas tomber exactement sur la bonne valeur mais de faire une erreur. On veut alors donner un intervalle qui a 95% de chances de contenir la vraie valeur.

Pour cela on effectue un sondage sur 1 000 personnes. Les résultats sont les suivants: 150 personnes ont une voiture verte, 850 n'en ont pas.

On appelle $p$ la « vraie » proportion de personnes dans la population totale qui ont une voiture verte. On cherche à estimer $p$ . On appelle $N$ le nombre de personnes ayant été sondées, ici $N = 1000$ . On appelle $S$ le nombre de personnes ayant une voiture verte parmi les $N$ personnes sondées. L’idée est de présenter comme estimation de $p$ la valeur $\frac{S}{N}$ .

On applique le théorème central limite à la variable aléatoire $X i$ qui vaut 1 si la i-ème personne sondée a une voiture verte et 0 sinon. Cette variable a une moyenne $p$ et une variance $p (1 - p)$ . Alors:

$\frac{S-Np}{\sqrt{Np(1-p)}}$ tend vers une loi normale de moyenne 0 et de variance 1.

Pour une loi normale de moyenne 0 et de variance 1 on a : P(−1,96 < Z < 1,96) = 0,95. La valeur 1,96 est le quantile d'ordre 1-2,5% de la loi normale. Ces valeurs peuvent se trouver dans des tables de quantiles ou être calculées à partir de la fonction d'erreur réciproque: $q = \sqrt{2}\cdot\operatorname{erf}^{-1}(P)$ par exemple, $\sqrt{2}\cdot\operatorname{erf}^{-1}(0,95) = 1,9599...$ (voir par exemple les quantiles de la loi de Student pour un exemple de table de quantile.)

$P\left(-1,96<\frac{S/N-p}{\sqrt{p(1-p)/N}}<1,96\right)=0,95.$

Soit encore

$P\left(\frac SN-1,96\sqrt{p(1-p)/N}<p<\frac SN + 1,96\sqrt{p(1-p)/N}\right)=0,95.$

En estimant $\sqrt{p(1-p)}$ par $\sqrt{(S/N)(1-(S/N))}$ on peut alors encadrer p:

Pourquoi l'on peut bien faire cette estimation

En fait si on appelle $\overline{\sigma}=\sqrt{\frac{N}{N-1}\frac{S}{N}\left(1-\frac{S}{N}\right)}$ l'estimateur de la variance constatée, la variable $\frac{S-Np}{N\overline{\sigma}}$ suis une loi de Student à N-1 degrés de libertés. Ici (N-1)=999 les quantiles d'ordre 999 de la loi de Student sont les mêmes d'un point de vue numérique que celles d'ordre infini qui correspondent à la loi normale. On peut donc remplacer la variance par l'estimateur de la variance constatée.

Ensuite l'on peut remplacer $\overline{\sigma}\approx\sqrt{\frac{S}{N}\left(1-\frac{S}{N}\right)}$ l'erreur en pourcentage sur la variance constatée en omettant la normalisation N/(N-1) qui pour N = 1 000 est de l'ordre de 5/10000 que l'on néglige pour ne pas alourdir la présentation.

$P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right)=0,95$ .

L'intervalle de confiance à 95 % vaut alors [0,127;0,172]. On est sûr à 95% qu'entre 12,7% et 17,2% de personnes ont une voiture verte avec ce sondage.

Pour avoir une plus grande précision, il faudrait sonder plus de personnes. On remarque en effet l'existence d'un N apparaissant au dénominateur des deux racines carrées. Si on sonde plus de personnes (N plus grand), ces deux termes auront tendance à devenir plus petits et l'intervalle sera plus petit.

Remarque. Suite aux diverses approximations du raisonnement, le résultat d'une confiance à 95% n'est pas toujours assuré. On arrive à un résultat inférieur à 95% pour certaines valeurs de $p$ et $N$ , par exemple

N = 100

p = 0,5

, alors $P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9431$ ;

N = 100

p = 0,37

, alors $P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9370$ ;

N = 150

p = 0,4245

, alors $P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9426$ ...

De façon plus globale

L'intervalle de confiance mesure le degré de précision que l'on a sur les estimations issues de l'échantillon. Il y a deux sources principales de variations sur les données qui peuvent être la cause d'un manque de précision dans l'estimation d'une grandeur.

Un nombre insuffisant de données : par exemple, dans le cas d'un sondage, on ne sonde pas toute la population mais qu'une fraction de la population. De même, pour les mesures physiques, on n'effectue qu'un nombre fini de mesures alors qu'il faudrait souvent en théorie pouvoir en faire une infinité pour obtenir un résultat parfait.
Il peut également y avoir du bruit dans la mesure des données ce qui est pratiquement toujours le cas pour la mesure des grandeurs physiques.

Parmi les méthodes d'estimation, nous pouvons citer l'estimation par intervalle de confiance. Il s'agit de trouver un intervalle contenant un paramètre (inconnu) à estimer avec une probabilité ou niveau de confiance de $1 - α$ . Pour p un paramètre (inconnu) à estimer on aurait bien aimé connaitre a et b tels que:

$\mathbb{P}(a<p<b)=1-\alpha$

ce qui est impossible. Par contre, si on appelle p la valeur exacte du paramètre , et que la valeur mesurée suit une loi de probabilité dépendant de p : $\mathbb P_p$ , l'intervalle de confiance I(x) (au « niveau de confiance » $1 - α$ ) relatif à une observation x constatée, est l'intervalle dans lequel, pour toute valeur p,

$\mathbb{P}_p(x : p \in I(x)) \geq 1-\alpha$ .

Pour un p donné, c'est la probabilité d'observer une valeur x pour laquelle le paramètre à estimer soit dans l'intervalle de confiance associé à cette observation x.

Ceci ne signifie pas que « la probabilité que la valeur réelle soit dans I(x) est $1 - α$ », ce qui n'aurait pas de sens puisque la valeur réelle n'est pas une variable aléatoire. Cela signifie que « si la valeur réelle n'est pas dans I(x), la probabilité a priori du résultat de l'observation que l'on a obtenu était inférieure à α ». Par exemple si le paramètre n'est pas dans l'intervalle, c'est que l'observation effectuée correspond à un phénomène "rare" dans lequel l'intervalle de confiance ne contient pas la vraie valeur.

Voir aussi

Notes et références

↑ Plus précisément, il calcule son inverse, appelé « multiplicateur des naissances ».
↑ Alain Desrosières, « Le nombre et la constitution », Histoire des nombres, Éditions Tallandier, Paris 2007.
↑ l'intervalle de confiance à 95% est plus précisément $\left]\overline x - 1,96\frac{\sigma(X)}{\sqrt n}; \overline x + 1,96\frac{\sigma(X)}{\sqrt n}\right[$

Articles connexes

v · Probabilités et statistiques

Théorie des probabilités

Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires	Moyenne • Espérance • Médiane • Variance • Écart type
Loi de probabilité	Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid
Convergence de lois	Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli
Calcul stochastique	Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive	Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés
Statistique mathématique	Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne
Tests statistiques	Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications

Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégories :

Estimation (statistique)
Métrologie

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Intervalle de confiance de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

Intervalle De Confiance — En statistiques, et en particulier dans la théorie des sondages, lorsqu on cherche à estimer la valeur d un paramètre, on parle d intervalle de confiance lorsque l on donne un intervalle qui contient, avec un certain degré de confiance, la valeur … Wikipédia en Français
Intervalle de confiance — ● Intervalle de confiance intervalle [t1, t2] des valeurs d un paramètre t à estimer, tel que la probabilité pour que t appartienne à cet intervalle soit égale à 1 − α, 1 − α étant un nombre fixé positif et inférieur à 1, appelé niveau de… … Encyclopédie Universelle
intervalle de confiance — pasikliovimo intervalas statusas T sritis Standartizacija ir metrologija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultato vertė. atitikmenys: angl. confidence interval vok. Vertrauensbereich, m rus.… … Penkiakalbis aiškinamasis metrologijos terminų žodynas
intervalle de confiance — pasikliovimo intervalas statusas T sritis fizika atitikmenys: angl. confidence interval vok. Konfidenzbereich, m; Konfidenzintervall, n; Vertrauensintervall, n rus. доверительная область, f; доверительный интервал, m pranc. intervalle de… … Fizikos terminų žodynas
confiance — [ kɔ̃fjɑ̃s ] n. f. • XVe; confience XIIIe; du lat. confidentia, d apr. l a. fr. fiance « foi » 1 ♦ Espérance ferme, assurance de celui qui se fie à qqn ou à qqch. ⇒ créance, foi, sécurité. Avoir confiance, une confiance absolue, inébranlable,… … Encyclopédie Universelle
Intervalle de fluctuation — Ne pas confondre avec la notion d intervalle de confiance. En mathématiques, un intervalle de fluctuation permet de détecter un écart important par rapport à la valeur théorique pour une grandeur établie sur un échantillon. C est un… … Wikipédia en Français
Niveau de confiance — Intervalle de confiance En statistiques, et en particulier dans la théorie des sondages, lorsqu on cherche à estimer la valeur d un paramètre, on parle d intervalle de confiance lorsque l on donne un intervalle qui contient, avec un certain degré … Wikipédia en Français
Chlorure de xénon — Général No CAS 55130 03 5 SMILES … Wikipédia en Français
Loi de Student — Pour le test statistique, voir Test t. Loi de Student Densité de probabilité / Fonction de masse Fonction de répartition … Wikipédia en Français
Loi De Student — Densité de probabilité / Fonction de masse Fonction de répartition … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Intervalle de confiance

Sommaire

Marge d'erreur sur un échantillon

Signification

Exemple I : Estimation d'une moyenne

Exemple II : le sondage d'opinion

De façon plus globale

Voir aussi

Notes et références

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Intervalle de confiance

Sommaire

Marge d'erreur sur un échantillon

Signification

Exemple I : Estimation d'une moyenne

Exemple II : le sondage d'opinion

De façon plus globale

Voir aussi

Notes et références

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link