Analyse Discriminante Linéaire

Analyse Discriminante Linéaire

Analyse discriminante linéaire

Lanalyse discriminante linéaire fait partie des techniques danalyse discriminante prédictive. Il sagit dexpliquer et de prédire lappartenance dun individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à laide de variables prédictives.

Dans lexemple de l'article Analyse discriminante, le fichier Flea Beetles, lobjectif est de déterminer lappartenance de puces à telle ou telle espèce à partir de la largeur et de langle de son aedeagus.

La variable à prédire est forcément catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrètes moyennant une préparation adéquate des données.

Lanalyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique et à la régression logistique développée en statistique.

Sommaire

Hypothèses et Formules

Nous disposons dun échantillon de n\, observations réparties dans K\, groupes deffectifs n_k\,.

Notons Y\, la variable à prédire, elle prend ses valeurs dans \{y_1,...,y_K\}\,. Nous disposons de J\, variables prédictives X = (X_1,...,X_J)\,.

Nous notons \mu_k\, les centres de gravité des nuages de points conditionnels, W_k\, leurs matrice de variance-covariance.

La règle bayesienne

Lobjectif est de produire une règle daffectation F : X \Rightarrow \{y_1,...,y_K\} qui permet de prédire, pour une observation ω donnée, sa valeur associée de Y à partir des valeurs prises par X.

La règle bayesienne consiste à produire une estimation de la probabilité a posteriori daffectation

P(Y=y_k/X) = \frac{P(Y=y_k) \times P(X/Y=y_k)}{\sum_{k=1}^K P(Y=y_k) \times P(X/Y=y_k)}

P(Y=y_k)\, est la probabilité a priori dappartenance à une classe. P(X/Y=y_k)\, représente la fonction de densité des X conditionnellement à la classe y_k\,.


La règle daffectation pour un individu ω à classer devient alors

Y(\omega)=y_k^* si et seulement si y_k^* = arg\; max_{k}\ P[Y(\omega)=y_k/X(\omega)]


Toute la problématique de lanalyse discriminante revient alors à proposer une estimation de la quantité P(X/Y = y_k)\,

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

On distingue principalement deux approches pour estimer correctement la distribution P(X/Y=y_k)\, :


  • Lapproche non-paramétrique neffectue aucune hypothèse sur cette distribution mais propose une procédure destimation locale des probabilités, au voisinage de lobservation \omega\, à classer. Les procédures les plus connues sont les noyaux de Parzen et la méthode des plus proches voisins. La principale difficulté est de définir de manière adéquate le voisinage.


  • La seconde approche effectue une hypothèse sur la distribution des nuages de points conditionnels, on parle dans ce cas danalyse discriminante paramétrique. Lhypothèse la plus communément utilisée est sans aucun doute lhypothèse de multinormalité (voir loi normale).


Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels sécrit


f_k(x)=\frac{1}{(2\pi)^{j/2} \times |W_k|^{1/2}} \times e^{-\frac{1}{2}(X-\mu_k)'W_k^{-1}(X-\mu_k)}

|W_k|\, représente le déterminant de la matrice de variance co-variance conditionnellement à y_k\,

Lobjectif étant de déterminer le maximum de la probabilité a posteriori daffectation, nous pouvons négliger tout ce qui ne dépend pas de k. En passant au logarithme, nous obtenons le score discriminant qui est proportionnel à P(Y=y_k/X)\,


D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - Ln |W_k| - (X-\mu_k)'W_k^{-1}(X-\mu_k)


La règle daffectation devient donc

Y(w)=y_k*\, ssi y_k^* = arg\, max_k\, D[Y(w) = y_k,X(w)]


Si lon développe complètement le score discriminant, nous constatons quil sexprime en fonction du carré et du produit croisé entre les variables prédictives. On parle alors danalyse discriminante quadratique. Très utilisée en recherche car elle se comporte très bien, en termes de performances, par rapport aux autres méthodes, elle est moins répandue auprès des praticiens. En effet, lexpression du score discriminant étant assez complexe, il est difficile de discerner clairement le sens de la causalité entre les variables prédictives et la classe dappartenance. Il est notamment mal aisé de distinguer les variables réellement déterminantes dans le classement, linterprétation des résultats est assez périlleuse.

Lanalyse discriminante linéaireLhypothèse dhomoscédasticité

Une seconde hypothèse permet de simplifier encore les calculs, cest lhypothèse dhomoscédasticité : les matrices de variances co-variances sont identiques dun groupe à lautre. Géométriquement, cela veut dire que les nuages de points ont la même forme (et volume) dans lespace de représentation.

La matrice de variance co-variance estimée est dans ce cas la matrice de variance co-variance intra-classes calculée à laide de lexpression suivante

W = \frac{1}{n-K} \sum_k n_k \times W_k


De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de k, il devient

D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - (X-\mu_k)'W^{-1}(X-\mu_k)

Fonction de classement linéaire

En développant lexpression du score discriminant après introduction de lhypothèse dhomoscédasticité, on constate quelle sexprime linéairement par rapport aux variables prédictives.

Nous disposons donc dautant de fonctions de classement que de modalités de la variable à prédire, ce sont des combinaisons linéaires de la forme suivante :


D(y_1,X) = a_0 + a_1 \times X_1 + ... + a_J \times X_J

D(y_2,X) = b_0 + b_1 \times X_1 + ... + b_J \times X_J

...\,


Cette présentation est séduisante à plus dun titre. Il est possible, en étudiant la valeur et le signe des coefficients, de déterminer le sens des causalités dans le classement. De même, il devient possible, comme nous le verrons plus loin, dévaluer le rôle significatif des variables dans la prédiction.

Robustesse

Les hypothèses de multinormalité et dhomoscédasticité peuvent sembler trop contraignantes, restreignant la portée de lanalyse discriminante linéaire dans la pratique.

La notion clé quil faut retenir en statistique est la notion de robustesse. Même si les hypothèses de départ ne sont pas trop respectées, une méthode peut quand même sappliquer. Cest le cas de lanalyse discriminante linéaire. Le plus important est de le considérer comme un séparateur linéaire. Dans ce cas, si les nuages de points sont séparables linéairement dans lespace de représentation, elle peut fonctionner correctement.

Par rapport aux autres techniques linéaires telles que la régression logistique, lanalyse discriminante présente des performances comparables. Elle peut être lésée néanmoins lorsque lhypothèse dhomoscédasticité est très fortement violée.

Évaluation

Taux derreur

De manière classique en apprentissage supervisé, pour évaluer les performances d'une fonction de classement, nous confrontons ses prédictions avec les vraies valeurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en résulte sappelle une matrice de confusion avec : en ligne les vraies classes dappartenance, en colonne les classes dappartenance prédites. Le taux derreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prédiction ne coïncide par avec la vraie valeur, rapporté à leffectif du fichier de données.

Le taux derreur a de séduisant quil est dinterprétation aisée, il sagit dun estimateur de la probabilité de se tromper si lon applique la fonction de classement dans la population.

Attention cependant, le taux derreur mesuré sur les données qui ont servi à construire la fonction de classement, on parle alors de taux derreur en resubstitution, est biaisé. Tout simplement parce que les données sont juges et parties dans ce schéma. La bonne procédure serait de construire la fonction de classement sur une fraction des données, dites d'apprentissage ; puis de lévaluer sur une autre fraction de données, dite de test. Le taux derreur en test ainsi mesuré est un indicateur digne de foi.

La pratique veut que la répartition des données en apprentissage et test soit de 2/31/3. Mais en réalité, il ny a pas de règle véritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de lerreur, tout en réservant suffisamment en apprentissage pour ne pas pénaliser la méthode dapprentissage.

Lorsque les effectifs sont faibles, et que le partage apprentissage-test des données nest pas possible, il existe des méthodes de -échantillonnage telles que la validation croisée ou le bootstrap pour évaluer lerreur de classement.

Séparabilité - Evaluation globale

Le taux derreur permet dévaluer et de comparer des méthodes, quelles que soient leurs hypothèses sous-jacentes. Dans le cas de lanalyse discriminante linéaire, nous pouvons exploiter le modèle probabiliste pour réaliser des tests dhypothèses.

Un premier test permet de répondre à la question suivante : est-il possible de discerner les nuages de points dans lespace de représentation. Rapporté dans le cadre multinormal, cela revient à vérifier si les centres de gravité conditionnels sont confondus (hypothèse nulle) ou si un au moins de ces centres de gravité sécarte significativement des autres (hypothèse alternative).

La statistique du test est le \lambda\, de Wilks, son expression est la suivante

\lambda = \frac{|W|}{|V|}\,

|W|\, représente le déterminant de la matrice de variance co-variance intra-classes, |V|\, le déterminant de la matrice de variance co-variance globale.

La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.


Avec un prisme différent, nous constatons que ce test peut sexprimer comme une généralisation multidimensionnelle de lanalyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Evaluation individuelle des variables prédictives

Comme dans toutes les méthodes linéaires, il est possible dévaluer individuellement chaque variable prédictive, et éventuellement déliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test sappuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. Sa formule est la suivante

 F = \frac{n-K-J}{K-1} \times (\frac{\lambda_J}{\lambda_{J+1}}-1)\,

Elle suit une loi de Fisher à (K-1, n-K-J)\, degrés de liberté.

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.


Flea beetles resultats adl.jpg


  • La matrice de confusion indique qu'une seule erreur a été commise, un "Concinna" a été classé en "Heikertingeri". Le taux d'erreur associé est de 1.35\%\,. Ce résultat est à relativiser, il a été établi sur les données ayant servi à l'apprentissage.
  • Les centres de gravité des trois nuages de points s'écartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilités critiques associées, transformation de Bartlett et de Rao, sont proches de 0. Ce résultat numérique confirme l'impression visuelle laissée par la projection des nuages de points dans l'espace de représentation (voir Analyse discriminante).
  • La variable à prédire comportant 3 modalités, nous obtenons 3 fonctions de classement linéaires. L'évaluation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux très significatives (p-value proches de 0).

Déploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la manière suivante.

  • Con : 6.778171 \times 150 + 17.636347 \times 15 - 621.005831 = 660.265024\,
  • Hei : 5.83441 \times 150 + 17.307979 \times 15 - 488.153893 = 646.627292\,
  • Hep : 6.332343 \times 150 + 13.442467 \times 15 - 506.831534 = 644.656921\,

Sur la base de ces calculs, nous affectons à cette observation la classe "Concinna".

Références

  • M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001.
  • G. Celeux, J.P. Nakache, Analyse discriminante sur variables qualitatives, Polytechnica, 1994.


  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques
  • Portail de l’informatique Portail de linformatique
Ce document provient de « Analyse discriminante lin%C3%A9aire ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Analyse Discriminante Linéaire de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Analyse discriminante lineaire — Analyse discriminante linéaire L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses… …   Wikipédia en Français

  • Analyse discriminante linéaire — L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide… …   Wikipédia en Français

  • Analyse Discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble… …   Wikipédia en Français

  • Analyse discriminante descriptive — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… …   Wikipédia en Français

  • Analyse discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, …) d’un ensemble… …   Wikipédia en Français

  • Analyse factorielle discriminante — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… …   Wikipédia en Français

  • Analyse des données — L’analyse des données est un domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique …   Wikipédia en Français

  • Analyse canonique des corrélations — L Analyse canonique des corrélations[i 1] permet de comparer deux groupes de variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l analyse canonique est de comparer ces deux groupes de variables pour savoir si ils… …   Wikipédia en Français

  • Analyse canonique généralisée — L Analyse canonique généralisée au sens de Caroll (d après J.D.Caroll) étend l Analyse canonique ordinaire à l étude de p Groupes de variables (p > 2) appliquées sur le même espace des individus. Elle admet comme cas particuliers l ACP, l AFC… …   Wikipédia en Français

  • Classifieur linéaire — En apprentissage automatique, le terme de classifieur linéaire représente une famille d algorithmes de classement statistique. Le rôle d un classifieur est de classer dans des groupes (des classes) les échantillons qui ont des propriétés… …   Wikipédia en Français

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/96877 Do a right-click on the link above
and select “Copy Link”