Statistique mathématique

Statistique mathématique: Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques.

Les statistiques, dans le sens populaire du terme, traitent des populations. En statistique descriptive, on se contente de décrire un échantillon à partir de grandeurs comme la moyenne, la médiane, l'écart type, la proportion, la corrélation, etc. C'est souvent la technique qui est utilisée dans les recensements.

Dans un sens plus large, la théorie statistique est utilisée en recherche dans un but inférentiel. Le but de l'inférence statistique est de dégager le portrait d'une population donnée, à partir de l'image plus ou moins floue constituée à l'aide d'un échantillon issu de cette population.

Dans un autre ordre d'idées, il existe aussi la statistique « mathématique » où le défi est de trouver des estimateurs judicieux (non biaisées et efficients). L'analyse des propriétés mathématiques de ces estimateurs sont au cœur du travail du mathématicien spécialiste de la statistique.

Sommaire

1 Statistique

1.1 Fonctions de répartition

1.2 Types de statistiques

2 Exemple de statistiques : Moyenne et variance

3 Estimation

4 Tests d'hypothèses

4.1 Notion générale de test d'hypothèse statistique

4.2 Test paramétrique

4.3 Test du χ²

5 Références

6 Voir aussi

Statistique

La statistique mathématique repose sur la théorie des probabilités. Des notions comme la mesurabilité ou la convergence en loi y sont souvent utilisées. Mais il faut distinguer la statistique en tant que discipline et la statistique en tant que fonction des données.

Une fois les bases de la théorie des probabilités acquises, il est possible de définir une statistique à partir d'une fonction $S$ mesurable à $n$ arguments. Lorsque les valeurs $x_1,\ldots,x_n$ sont des réalisations d'une même variable aléatoire $X$ , on note :

$S(X)=S(x_1,\ldots,x_n)$

La loi de $S (X)$ dépend uniquement de la loi de $X$ et de la forme de $S$ .

Fonctions de répartition

La fonction de répartition d'une variable aléatoire réelle $X$ (cette définition s'étend naturellement aux variables aléatoires à valeurs dans des espaces de dimension quelconque) associe à une valeur $x$ la probabilité qu'une réalisation de $X$ soit plus petite de $x$ :

$F(x) = {\rm Prob}(X \leq x)$

Lorsqu'on dispose de $n$ réalisations de $X$ , on peut construire la fonction de répartition empirique de $X$ ainsi (on note $x (k)$ la $k$ ème valeur ordonnées des $x_1,\ldots,x_n$ et on pose arbitrairement $x_{0}=-\infty$ et $x_{n+1}=+\infty$ ) :

$F^*_n(x) = {k\over n},\, \forall x\in ]x_{(k)},x_{(k+1)}]$

de même, la distribution empirique peut se définir (pour tout borélien $B$ ) comme :

$\mathbf{P}^*_n(B) = {1\over n}\sum_{k=1}^n \mathbf{1}_{x_k}(B)$

Le Théorème de Glivenko-Cantelli assure la convergence de la fonction de distribution empirique vers la fonction de distribution original lorsque la taille $n$ de l'échantillon augmente vers l'infini.

Ces deux fonctions empirique n'étant pas continues, on leur préfère souvent des estimateurs par noyau, qui ont les mêmes propriétés de convergence.

Types de statistiques

On définit usuellement plusieurs types de statistiques suivant la forme de $S$ :

les L-statistiques qui sont des combinaisons de statistiques d'ordres,

les M-statistiques qui s'expriment comme le maximum d'une fonction des réalisations d'une variable aléatoire,

les U-statistiques qui s'expriment sous la forme d'intégrales.

L'intérêt de cette différenciation est que chaque catégorie de statistique va avoir des caractéristiques propres.

Les estimateurs par noyau, et les moments empiriques d'une loi sont les M-statistiques.

Le moment empirique d'ordre $k$ d'une loi calculé à partir d'un échantillon $x_1,\ldots,x_n$ est :

$\mu_n^{(k)}(X) = {1\over n}\sum_{i=1}^n x_i^k$

Il s'agit d'un estimateur de $E (X k)$ . Le moment centré d'ordre $k$ est $E ((X - E (X)) k)$ . La variance est le moment centré d'ordre 2.

Exemple de statistiques : Moyenne et variance

Considérons une population d'où l'on extrait un échantillon d'effectif n de façon purement aléatoire dont les éléments sont $x i$ . Dans ce cas, la statistique descriptive qui estime la moyenne de la population est la moyenne empirique
$m ={1 \over n} \sum_{i=1}^n x_i$
La statistique qui estime la dispersion autour de la moyenne est la variance empirique
$s^2 = {1 \over n-1} \sum_{i=1}^n (x_i - m)^2$
La loi de probabilité associée à cette population possède une moyenne μ et une variance σ² qui sont estimés par $m$ et $s 2$ . Le problème est que, si on avait choisi un autre échantillon, on aurait trouvé des valeurs différentes pour ces estimations.

Ceci conduit à considérer les éléments, la moyenne empirique et la variance empirique comme des variables aléatoires. Ces variables suivent une loi de probabilité donnée. Une fois qu'on connait ces lois de probabilité, il est possible de construire les tests statistiques voulus pour étudier les paramètres d'intérêt ( μ et σ² pour cet exemple).

Sous la condition d'indépendance entre les observations, on peut calculer la moyenne (ou espérance) et la variance de la moyenne empirique. On obtient :
$E[m] = \mu \qquad \qquad V[m] = \sigma^2 / n$

L'écart-type de la moyenne empirique vaut σ / √n. Si n devient grand, le théorème de la limite centrale enseigne que la moyenne empirique suit une loi normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste valable quelle que soit la taille de l'échantillon lorsque la loi de probabilité assignée à la population est normale. Dans ce dernier cas, particulièrement important en pratique, on montre également que (n-1) s² / σ² suit une loi de χ² à n-1 degrés de liberté.

Estimation

Ces résultats s’interprètent directement en termes d’estimation.

La moyenne empirique et la variance empirique fournissent des estimations de la moyenne et de la variance de la population.

Ces estimations sont convergentes car leurs variances tendent vers zéro lorsque la taille de l’échantillon s’accroît indéfiniment.

Elles sont non biaisées car leur limite est égale à la valeur à estimer.

Le problème d’estimation est relié aux intervalles de confiance. L’idée est de fournir une estimation d’un paramètre accompagnée d’une idée de sa précision liée aux fluctuations échantillonnales.

Voici un exemple bien spécifique d’intervalle de confiance pour la moyenne.

Pour décrire le principe, considérons un exemple assez artificiel qui présente l’avantage de la simplicité : l’estimation de la moyenne ( $m$ ) d’une population supposée normale dont nous connaîtrions l’écart-type ( $σ$ ). D’après le paragraphe précédent, la moyenne empirique suit également une loi normale dont l’écart-type est divisé par le facteur $\sqrt n$ .

Puisque les tables de probabilités de la loi normale sont connues, nous pouvons déterminer qu’un intervalle centré autour de la moyenne empirique aura $x$ % de chance de contenir la vraie moyenne. En pratique, $x$ est souvent fixé à 95. Lorsqu’on fixe $x$ (à 95 par exemple), on détermine la longueur de l’intervalle de confiance simplement par connaissance de la loi normale. Voici l’intervalle de confiance à 95 % pour ce cas très précis.

$[m - {{1.96 \sigma}\over \sqrt n}\ ; m + {{1.96 \sigma}\over \sqrt n}]$

voir aussi loi de Student.

Tests d'hypothèses

Notion générale de test d'hypothèse statistique

Une hypothèse statistique concerne les paramètres issue d'une ou plusieurs populations. On ne peut pas la vérifier mais seulement la rejeter lorsque les observations paraissent en contradiction avec elle. Nous concluerons que la valeur observée (à partir de l'échantillon) est très peu probable dans le cadre de l'hypothèse (qui concerne la population).

La première étape consiste à édicter l'hypothèse nulle. Souvent cette hypothèse sera ce qu'on croit faux. Exemple d'hypothèses nulles : Les deux moyennes issues de deux populations sont égales La corrélation entre deux variables est nulle Il n'y a pas de lien entre l'âge et l'acuité visuelle etc.

L'hypothèse nulle concerne les paramètres (valeurs vraies) de la population.

Pour chaque test statistique, il y a une mesure ou statistique précise (selon le paramètre qui nous intéresse) qui suit une loi de probabilité connue. Cette statistique peut être vue comme une mesure entre ce qu'on observe dans l'échantillon et ce qu'on postule dans la population (hypothèse nulle). Plus cette mesure sera grande, plus sa probabilité d'occurrence sera petite. Si cette probabilité d'occurrence est trop petite, on aura tendance à rejeter l'hypothèse nulle et donc conclure que l'hypothèse nulle est fausse.

Test paramétrique

Se dit des tests qui présupposent que les variables à étudier suivent une certaine distribution décrite par des paramètres. De nombreux tests paramétriques concernent des variables qui suivent la loi normale. Les tests t pour échantillons indépendants ou appariés, les ANOVA, la régression multiple, etc.

Test du χ²

Voici l'exemple d'un test qui utilise la loi du χ². Cependant, une multitude de tests utilisent cette loi de probabilité: (Mc Nemar, tests d'adéquation de modèles, tests d'adéquation à une distribution etc...)

Exemple :

On se demande si un échantillon extrait d'une population correspond raisonnablement à une loi de probabilité hypothétique.

L'échantillon d'effectif $n$ est divisé en $k$ classes d'effectifs $n i$ comme pour la construction d'un histogramme, avec une différence : il est possible d'utiliser des classes de largeur variable, c'est même recommandé pour éviter qu'elles soient trop petites. Avec cette précaution, le théorème de la limite centrale dans sa version multidimensionnelle indique que le vecteur des effectifs $(n 1,..., n k)$ se comporte approximativement comme un vecteur gaussien.

La loi de probabilité étant donnée d'autre part, elle permet d'assigner à chaque classe une probabilité $p i$ . Dans ces conditions l'expression
$\sum_{i=1}^k {{(n_i - n p_i)^2} \over {n p_i}}$
qui représente d'une certaine manière la distance entre les données empiriques et la loi de probabilité supposée, suit une loi de probabilité de χ² à $k - 1$ degrés de liberté.

Les tables de χ² permettent de déterminer s'il y a lieu de rejeter l'hypothèse en prenant le risque, fixé à l'avance, de se tromper.

Si on considère le cas d'une loi de probabilité dont les paramètres (en général moyenne et écart-type) sont inconnus, la minimisation du χ² par rapport à ces paramètres fournit une estimation de ceux-ci.

Références

Jean-Pierre Favre, Mathématiques de gestion, Digilex, 2009, ISBN : 978-2-940404-01-8

Borokov, A. A. (1999). Mathematical Statistics. Taylor & Francis. (ISBN 90-5699-018-7)

Didier Pelat, Bruits et Signaux (introduction aux méthodes de traitements des données) : statistique des variables aléatoires

Greenwood, P.E. and Nikulin, M.S. (1996). "A Guide to Chi-Squared Testing". John Wiley and Sons.

Voir aussi

Estimateur (statistique)

Test d'hypothèse

Inférence bayésienne

v · Probabilités et statistiques

Théorie des probabilités Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires Moyenne • Espérance • Médiane • Variance • Écart type

Loi de probabilité Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid

Convergence de lois Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli

Calcul stochastique Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés

Statistique mathématique Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne

Tests statistiques Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégorie :
Statistiques

Contenu soumis à la licence CC-BY-SA. Source : Article Statistique mathématique de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

Statistique mathematique — Statistique mathématique Pour les articles homonymes, voir Statistique. Les statistiques, dans le sens populaire du terme, traitent des populations. En statistique descriptive, on se contente de décrire un échantillon à partir de grandeurs comme… … Wikipédia en Français
statistique mathématique — matematinė statistika statusas T sritis fizika atitikmenys: angl. mathematical statistics vok. mathematische Statistik, f rus. математическая статистика, f pranc. statistique mathématique, f … Fizikos terminų žodynas
STATISTIQUE — Le mot «statistique» désigne à la fois un ensemble de données d’observation et l’activité qui consiste dans leur recueil, leur traitement et leur interprétation. Au cours de l’histoire, la collecte d’observations et la méthodologie de leur emploi … Encyclopédie Universelle
Statistique — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. Une statistique est, au premier abord, le résultat d une suite d opérations appliquées à un ensemble de nombres appelé échantillon. D une… … Wikipédia en Français
Statistique descriptive — Pour les articles homonymes, voir Interconnexions entre la théorie des probabilités et les statistiques. La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour décrire un ensemble… … Wikipédia en Français
Statistique inférentielle — Inférence statistique L inférence statistique consiste à induire les caractéristiques inconnues d une population à partir d un échantillon issu de cette population. Les caractéristiques de l échantillon, une fois connues, reflètent avec une… … Wikipédia en Français
mathématique — [ matematik ] adj. et n. f. • 1265; lat. mathematicus, gr. mathêmatikos « scientifique », de mathêma « science » I ♦ Adj. 1 ♦ Relatif aux mathématiques, à la mathématique (cf. ci dessous, II); qui utilise les mathématiques, s exprime par elles.… … Encyclopédie Universelle
STATISTIQUE (THERMODYNAMIQUE) — L’interprétation de l’évolution des systèmes physiques nécessite à la fois les lois de la dynamique, classique ou quantique, et celles de la thermodynamique. Par conséquent, il est important de clarifier la relation entre dynamique et… … Encyclopédie Universelle
STATISTIQUE (MÉCANIQUE) — La mécanique statistique a pour but d’expliquer les propriétés de la matière, en particulier ses propriétés thermiques, à partir des lois de la mécanique auxquelles obéissent les atomes et molécules dont elle est formée (et, plus généralement,… … Encyclopédie Universelle
Mathematique — Mathématiques Les mathématiques constituent un domaine de connaissances abstraites construites à l aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les transformations. Les mathématiques… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Statistique mathématique

Sommaire

Statistique

Fonctions de répartition

Types de statistiques

Exemple de statistiques : Moyenne et variance

Estimation

Tests d'hypothèses

Notion générale de test d'hypothèse statistique

Test paramétrique

Test du χ²

Références

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Statistique mathématique

Sommaire

Statistique

Fonctions de répartition

Types de statistiques

Exemple de statistiques : Moyenne et variance

Estimation

Tests d'hypothèses

Notion générale de test d'hypothèse statistique

Test paramétrique

Test du χ²

Références

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link