Régression de Cox

Régression de Cox: La régression de Cox (modèle à risque proportionnel) — nommée ainsi d'après le statisticien britannique David Cox — est une classe de modèles de survie en statistiques. Les modèles de survie étudient le temps écoulé avant qu'un événement ne survienne. Historiquement, dans le modèle de Cox, cet événement est le décès de l'individu, c'est pourquoi on parle généralement de survie et de décès. Au cours des années, l'utilisation du modèle s'est étendue à d'autres situations, l'événement peut donc être de quelconque nature : il peut s'agir de la récidive d'une maladie, ou à l'inverse d'une guérison. D'un point de vue statistique, la nature de l'événement n'est bien sûr pas importante, il s'agira alors d'interpréter les coefficients en conséquence.

Prenons le cas d'une étude longitudinale, bien souvent, il n'est pas envisageable de suivre les individus sur une longue période, et les événements ne sont pas forcément observés sur toute la population, on parle alors de données censurées (en). L'avantage d'un modèle comme celui de Cox est que l'on peut prendre en compte ces données même si elles ne sont pas « complètes ».

Sommaire

1 Théorie

1.1 Hypothèse des risques proportionnels

1.2 Estimations des coefficients

1.3 Interprétation des coefficients

2 Extensions

2.1 Covariables dépendantes du temps

2.2 Présence de données corrélées

3 Références

4 Notes

Théorie

Le modèle de Cox exprime la fonction de risque instantané de décès $λ$ (on peut aussi trouver les appellations suivantes : fonction de risque, taux de panne, taux de fiabilité, force de mortalité, taux de risque...) en fonction du temps $t$ et des covariables $X_1,\cdots ,X_n$ . On a alors :

$\lambda\left(t,X_1,\cdots ,X_n\right)=\lambda_0\left(t\right) exp\left(\Sigma_{i=1}^{n}\beta_i X_i\right)$

De manière plus formelle, pour un individu, la fonction $\lambda\left(t,X_1,\cdots ,X_n\right)$ correspond au risque instantané de décès à l'instant t sachant qu'il est vivant juste avant t.

$\lambda_0\left(t\right)$ est appelé le risque de base. Il correspond au risque instantané de décès lorsque toutes les covariables sont nulles.

On peut noter quelques points :

On peut séparer la formule en deux parties, la première ( $\lambda_0\left(t\right)$ ) est dépendante du temps contrairement à la seconde ( $exp\left(\Sigma_{i=1}^{n}\beta_i X_i\right)$ ) qui elle ne dépend que des covariables (le modèle de Cox peut aussi s'étendre à des covariables qui dépendent du temps, confère à sous-partie correspondante).

On dit que le modèle de Cox est semi-paramétrique. En effet, on ne cherche pas à estimer la fonction $\lambda_0\left(t\right)$ , qui en fait, est la même pour tous les individus à un instant donné. Ce qui nous importe, c'est le rapport des risques instantanés de décès pour deux individus exposés à des facteurs de risques différents.

Il découle de cette formule une hypothèse essentielle du modèle de Cox : celle des risques proportionnels. Pour comprendre cette notion, prenons deux individus $j 1$ et $j 2$ qui ne diffèrent que par une seule covariable, disons la k-ième. On peut imaginer que cette covariable vaut 0 chez $j 1$ et 1 chez $j 2$ .

On alors, quel que soit $t$ :

$\frac{\lambda\left(t,j_2\right)}{\lambda\left(t,j_1\right)}=\frac{\lambda_0\left(t\right) exp\left(\beta_1X_1^'+\cdots +\beta_{k-1}X_{k-1}^'+\beta_k\times 1+\beta_{k+1}X_{k+1}^'+\beta_nX_n^'\right)}{\lambda_0\left(t\right) exp\left(\beta_1X_1^'+\cdots +\beta_{k-1}X_{k-1}^'+\beta_k\times 0+\beta_{k+1}X_{k+1}^'+\beta_nX_n^'\right)}=exp\left(\beta_k\right)$

Le rapport est donc indépendant du temps, autrement dit, quel que soit le temps t, l'individu $j 2$ a un risque instantané de mourir $e x p (β k)$ fois celui de l'individu $j 2$ .

Hypothèse des risques proportionnels

Il s'agit d'une hypothèse forte du modèle de Cox, il faut donc au préalable vérifier que celle-ci est satisfaite. Pour chaque covariable, on teste alors si son effet est indépendant du temps. Cet effet doit être constant, ce qui signifie qu'il peut être bénéfique, nocif ou simplement nul. Il existe différentes méthodes pour vérifier si l'hypothèse des risques proportionnels est satisfaite. On peut s'appuyer sur des méthodes graphiques, par exemple, si l'on veut vérifier l'hypothèse des risques proportionnels sur une covariable $X k$ - qui prend les valeurs 0 ou 1 -; alors on peut regarder si les courbes $\log\left[-\log\left[S\left(t\right)\right]\right]$ des deux strates (i.e. : les individus pour qui $X k = 0$ et ceux pour qui $X k = 1$ ) paraissent translatées (avec $S$ la fonction de survie, voir aussi le lien entre la fonction survie et la fonction de risque). Si c'est le cas, on pourrait penser que l'hypothèse est vérifiée.

Il existe cependant des tests statistiques. Parmi eux, le test des résidus de Schoenfeld : pour chaque date de mort $t i$ , on calcule la différence entre les caractéristiques de l’individu décédé (en cas d’ex-aequo, on calcule un résidu pour chaque individu et chaque temps de décès et on somme les résidus) et une moyenne pondérée des caractéristiques des individus à risque de décéder au temps $t i$ . Ceci donne :

$R_{ij}=X_{ij}-\bar X_{ij}\left(t_i\right)$ ^[1]

Avec :

$R i j$ : résidu au temps $t i$

$X i j$ : valeur de la covariable $j$ pour l'individu décédé au temps $t i$

$\bar X_{ij}\left(t_i\right)$ : moyenne pondérée de la covariable $j$ chez les individus à risque au temps $t i$

On utilise les résidus standardisés qui sont en fait les résidus divisés par leur variance.

Si l’hypothèse des risque proportionnels est vérifiée, alors les résidus doivent être distribués de la même manière au cours du temps. En plus de la statistique de test, il est courant d’effectuer une représentation graphique des résidus en fonction du temps.

Généralement, cette hypothèse est vérifiée pour la plupart des covariables. Si ce n'est pas le cas, une des solutions est de stratifier sur les covariables qui ne vérifient pas l'hypothèse des risques proportionnels.

Estimations des coefficients

L'estimation des $\beta_k | k=1\cdots n$ se fait par la méthode du maximum de vraisemblance. La vraisemblance d’un échantillon est en fait la probabilité d’observer cet échantillon, intuitivement donc, on veut maximiser cette probabilité.

Prenons donc un échantillon de données indépendantes avec les notations suivantes :

$X i$ le vecteur colonne des covariables de la i-ème personne (pouvant d'ailleurs dépendre du temps)

$β$ le vecteur colonne des coefficients $β i$

$t_i | i=1\cdots m$ les temps de décès

$d i$ le nombre de décès au temps $t i$

$D i$ l'ensemble des décès au temps $t i$

$r i$ le nombre d'individus à risque de mourir au temps $t_i^-$

$R i$ l'ensemble des individus à risque de mourir au temps $t_i^-$

Au temps $t i$ , la probabilité qu’un sujet $k$ décède est :

$\lambda_0\left(t_i\right) exp\left(X_k^{\operatorname t}\beta\right) dt$

Au temps $t i$ , la vraisemblance de l'ensemble des individus appartenant à $D i$ s'écrit alors :

$\frac{exp\left(\beta^{\operatorname t}\right)^{\Sigma_{k\in D_i}X_k}}{\left[\Sigma_{l\in R_i}exp\left(\beta^{\operatorname t}X_l\right)\right]^{d_i}}$

Finalement, la fonction de vraisemblance (partielle) de Cox peut s'écrire :

$L\left(\beta\right)=\prod_{i=1}^m\frac{exp\left(\beta^{\operatorname t}\right)^{\Sigma_{k\in D_i}X_k}}{\left[\Sigma_{l\in R_i}exp\left(\beta^{\operatorname t}X_l\right)\right]^{d_i}}$ ^[2]

Il s’agit donc de résoudre l’équation de sorte que $L\left(\beta\right)$ soit maximale. La valeur V pour laquelle la fonction L atteint son maximum est la vraisemblance de l’échantillon.

Interprétation des coefficients

Prenons une covariable $X k$ qui peut prendre deux valeurs : 0 si l'individu prend le traitement A ou 1 s'il s'agit du traitement B. Prenons comme référence les individus qui prennent le traitement A (la manière de procéder pour le codage des variables est parfaitement identique aux modèles tels que la régression logistique ou linéaire), alors le coefficient $β k$ est le Risque Relatif (ici risque instantané de décès) associé au traitement B par rapport au traitement A. Autrement dit, les individus prenant le traitement B ont un risque instantané de décès $exp\left(\beta_k\right)$ fois celui des individus prenant le traitement A.

Extensions

Covariables dépendantes du temps

D'un point de vue mathématique, il n'est pas difficile d'inclure des variables qui dépendent du temps. C'est l'interprétation des coefficients qui est par contre très délicate. On ne peut plus interpréter $exp\left(\beta_k\right)$ comme un Risque Relatif.

Présence de données corrélées

Il peut arriver que l'hypothèse d'indépendance des données ne soit pas valable : les données sont alors groupées.

On note, par exemple, que l’estimateur de modifier] Références

↑ D. Schoenfeld, « Partial Residuals for The Proportionnal Hazards Regression Model », dans Biometrika, vol. 69, 1982, p. 239-241

↑ D.R. Cox, « Partial Likelihood », dans Biometrika, vol. 62, 1975, p. 269-276

↑ Z. Ying, L.J. Wei, « The Kaplan-Meier Estimate for Dependent Failure Time Observations », dans Journal of Multivariate Analysis, vol. 50, 1994, p. 17-29

↑ D.Y. Lin, « Cox Regression Analysis of Multivariate Failure Time Data : The Marginal Approach », dans Statistics In Medicine, vol. 13, 1994, p. 2233-2247

↑ C.F. Spiekerman, D.Y. Lin, « Marginal Regression Models for Multivariate Failure Time Data », dans Journal of the American Statistical Association, vol. 93, 1998, p. 1164-1175

Notes

v · Probabilités et statistiques

Théorie des probabilités Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires Moyenne • Espérance • Médiane • Variance • Écart type

Loi de probabilité Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid

Convergence de lois Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli

Calcul stochastique Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés

Statistique mathématique Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne

Tests statistiques Test d'hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Catégories :
Estimation (statistique)
Statistiques

Contenu soumis à la licence CC-BY-SA. Source : Article Régression de Cox de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

Régression — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Régression », sur le Wiktionnaire (dictionnaire universel) Sommaire … Wikipédia en Français
Cox-Regression — Die Cox Regression ist ein Regressionsmodell aus der mathematischen Statistik. Es wird zur Modellierung von Überlebenszeiten in der Survival Analysis benutzt und basiert auf dem Konzept der Hazardrate. Benannt wurde die Cox Regression nach dem… … Deutsch Wikipedia
David Cox (statisticien) — David Roxbee Cox Naissance 15 juillet 1924 Birmingham (Angleterre) Domicile Angleterre Nationalité … Wikipédia en Français
David Roxbee Cox — Sir David Cox, 2006 Sir David Roxbee Cox (* 15. Juli 1924 in Birmingham) ist ein britischer Statistiker. Leben Cox studierte Mathematik im St. John’s College der Universität Cambridge und erlangte 1949 seinen … Deutsch Wikipedia
Robust regression — In robust statistics, robust regression is a form of regression analysis designed to circumvent some limitations of traditional parametric and non parametric methods. Regression analysis seeks to find the effect of one or more independent… … Wikipedia
Outline of regression analysis — In statistics, regression analysis includes any technique for learning about the relationship between one or more dependent variables Y and one or more independent variables X. The following outline is an overview and guide to the variety of… … Wikipedia
David Cox (statistician) — David Cox Born 15 July 1924 (1924 07 15) (age 87) … Wikipedia
David Cox (Mathematiker) — Sir David Roxbee Cox (* 15. Juli 1924 in Birmingham) ist ein britischer Statistiker. David Cox Leben Cox studierte Mathematik im St. John’s College der Universität Cambridge und erlangte 1949 seinen P … Deutsch Wikipedia
Processus de Cox — Un Processus de Cox (nommé d après le statisticien Britannique Sir David Cox)), connu aussi sous le nom de double processus stochastique de Poisson, est un processus stochastique généralisant le processus de Poisson dans lequel la moyenne n est… … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Régression de Cox

Sommaire

Théorie

Hypothèse des risques proportionnels

Estimations des coefficients

Interprétation des coefficients

Extensions

Covariables dépendantes du temps

Présence de données corrélées

Notes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Régression de Cox

Sommaire

Théorie

Hypothèse des risques proportionnels

Estimations des coefficients

Interprétation des coefficients

Extensions

Covariables dépendantes du temps

Présence de données corrélées

Notes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link