Analyse discriminante

Analyse discriminante

Lanalyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire lappartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, …) dun ensemble dobservations (individus, exemples, …) à partir dune série de variables prédictives (descripteurs, variables exogènes, …).

Lanalyse discriminante est utilisée dans de nombreux domaines :

  • En médecine, par exemple pour détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que lalimentation, le fait de fumer ou pas, les antécédents familiaux, etc.
  • Dans le domaine bancaire, lorsque lon veut évaluer la fiabilité dun demandeur de crédit à partir de ses revenus, du nombre de personnes à charge, des encours de crédits quil détient, etc.
  • En biologie, lorsque lon veut affecter un objet à sa famille dappartenance à partir de ses caractéristiques physiques. Les iris de Sir Ronald Fisher -- qui est à l'origine de cette méthodeen est un exemple très fameux, il sagit de reconnaître le type diris (setosa, virginica, et versicolor) à partir de la longueur/largeur de ses pétales et sépales.
  • En informatique, pour la Reconnaissance optique de caractères. L'analyse discriminante est utilisée pour reconnaître un caractère imprimé à partir d'informations simples, comme la présence ou non de symétrie, le nombre d'extrémités

Lanalyse discriminante est une technique connue et reconnue, elle est décrite à peu près de manière identique par les différentes communautés du traitement de données : en statistique exploratoire (exploratory data analysis), en analyse des données, en reconnaissance de formes (pattern recognition), en apprentissage automatique (machine learning), en fouille de données (data mining), …

Sommaire

Tableau de données

Dans le fichier Flea Beetles Dataset, référencé sur le site DASL (Data and Story Library), nous observons 3 familles de puces caractérisées par langle et la largeur de leur édéage, l'organe de reproduction mâle en entomologie.

Nous disposons de 74 observations dans ce fichier. La variable Species indique la famille dappartenance de chaque puce, il en existe trois {ConConcinna, HeiHeikertingeri, Hep - Heptapotamica}. Les puces sont décrites à laide de deux variables continues : la largeur (width) et langle (angle) de leur aedeagus.

Les données étant décrites par deux variables, il est possible de représenter le nuage de points dans un graphique XY avec en abscisse la largeur (width) et en ordonnée langle (angle). Ça nest plus possible lorsque le nombre de descripteurs est supérieur à deux, un des rôles de lanalyse discriminante est justement de proposer une représentation graphique appropriée dans un espace réduit.

Représentation graphique des données du fichier Flea Beetles Dataset. Nous distinguons bien les trois « blocs » associés à chaque espèce de puce. À chaque nuage de points conditionnel correspond un centre de gravité conditionnel matérialisé par la lettre G.

Des approches différentes selon les objectifs

On distingue généralement deux grandes approches :

  • Lanalyse discriminante peut être une technique descriptive. On parle dans ce cas danalyse factorielle discriminante (ou analyse discriminante descriptive). Lobjectif est de proposer un nouveau système de représentation, des variables latentes formées à partir de combinaisons linéaires des variables prédictives, qui permettent de discerner le plus possible les groupes dindividus. En ce sens, elle se rapproche de lanalyse factorielle car elle permet de proposer une représentation graphique dans un espace réduit, plus particulièrement de lanalyse en composantes principales calculée sur les centres de gravité conditionnels des nuages de points avec une métrique particulière. On parle également danalyse canonique discriminante, notamment dans les logiciels anglo-saxons.
  • Lanalyse discriminante peut être prédictive. Il sagit dans ce cas de construire une fonction de classement (règle daffectation, …) qui permet de prédire le groupe dappartenance dun individu à partir des valeurs prises par les variables prédictives. En ce sens, cette technique se rapproche des techniques supervisées en apprentissage automatique telles que les arbres de décision, les réseaux de neurones, … Elle repose sur un cadre probabiliste. Le plus connu est certainement lhypothèse de distribution multinormale (loi normale). Additionnée à lhypothèse dhomoscédasticité, les nuages de points conditionnels ont la même forme, nous aboutissons à lanalyse discriminante linéaire. Elle est très séduisante dans la pratique car la fonction de classement sexprime comme une combinaison linéaire des variables prédictives, facile à analyser et à interpréter. Cette technique est, avec la régression logistique, très utilisée dans le scoring, lorsque nous voulons par exemple caractériser lappétencela propension à acheterdun client face à un nouveau produit.

La distinction entre ces deux approches nest pas aussi tranchée. Il est par exemple possible de dériver des règles géométriques daffectation à partir de lanalyse factorielle discriminante.

Analyse discriminante descriptive

Lanalyse discriminante descriptive (analyse factorielle discriminante, canonical discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de n\, observations décrites par J\, variables, répartis en K\, groupes. Elle vise à produire un nouveau système de représentation, constitué de combinaisons linéaires des variables initiales, qui permet de séparer au mieux les K\, catégories.

  • Lanalyse discriminante descriptive est une technique descriptive car elle propose une représentation graphique qui permet de visualiser les proximités entre les observations, appartenant au même groupe ou non.
  • Cest aussi une technique explicative car nous avons la possibilité dinterpréter les axes factoriels, combinaisons linéaires des variables initiales, et ainsi comprendre les caractéristiques qui distinguent les différents groupes.

Contrairement à lanalyse discriminante prédictive, elle ne repose sur aucune hypothèse probabiliste. Il sagit essentiellement dune méthode géométrique.

Notations - Formulations

Données et notations

Nous disposons dun échantillon de n\, observations réparties dans K\, groupes deffectifs n_k\,.

Notons Y\, la variable définissant les groupes, elle prend ses valeurs dans \{y_1,...,y_K\}\,. Nous disposons de J\, variables X = (X_1,...,X_J)\,.

Nous notons \mu_k\, les centres de gravité des nuages de points conditionnels, W_k\, leurs matrice de variance-covariance.

Démarche

Lobjectif de lanalyse discriminante est de produire un nouvel espace de représentation qui permet de distinguer le mieux les K groupes. La démarche consiste à produire une suite de variables discriminantes Z_h\,, non-corrélés deux à deux, tels que des individus du même groupe projetés sur ces axes soient le plus proches possibles les uns des autres, et que des individus de groupes différents soient le plus éloignés possibles.

  • La dispersion à lintérieur dun groupe est décrite par la matrice de variance co-varianceW_k\,. Nous pouvons en déduire (à un facteur près) la dispersion intra-groupe W = \frac{1}{n}\sum_k n_k \times W_k\,
  • Léloignement entre les groupes, entre les centres de gravité des groupes, est traduit par la matrice de variance co-variance inter-groupes (à un facteur près) B = \frac{1}{n}\sum_k n_k ({}^t(\mu_k-\mu))(\mu_k-\mu)\,, \mu\, est le centre de gravité du nuage de points global.
  • La dispersion totale du nuage est obtenue par la matrice de variance co-variance totale V\,. En vertu du théorème dHuyghens (qui est la généralisation mutlidimensionnelle de la formule de décomposition de la variance: V = B + W\,

Le premier axe factoriel sera donc défini par le vecteur directeur u_1\, tel que l'on maximise la quantité \frac{u_1'Bu_1}{u_1'Vu_1}\,. La variance inter-classes sur ce premier axe factoriel Z_1\, sera maximum.

Solution

La solution de ce problème doptimisation linéaire passe par la résolution de léquation V^{-1}B u=\lambda u\,. La réponse nous est directement fournie par le calcul des valeurs propres et vecteurs propres de la matrice V^{-1}B\,.

  • Le premier axe factoriel Z_1\, est donc obtenu à l'aide du vecteur propre u_1\, correspondant à la plus grande valeur propre \lambda_1\,. Le second axe factoriel est définie par le vecteur propre suivant, etc.
  • L'ensemble des axes factoriels est déterminée par les valeurs propres non-nulles de la matrice V^{-1}B\,. Dans le cas usuel n > <span class=J > K\," border="0">, nous obtenons K-1\, axes factoriels.
  • Enfin, la variance inter-classes calculée sur l'axe factoriel Z_h\,, que l'on appelle également pouvoir discriminant de l'axe, est égale à la valeur propre \lambda_h\, associée.

Évaluation

Lévaluation se situe à deux niveaux : évaluer le pouvoir discriminant dun axe factoriel ; évaluer le pouvoir discriminant dun ensemble daxes factoriels. Lidée sous-jacente est de pouvoir déterminer le nombre daxes suffisants pour distinguer les groupes dobservations dans le nouveau système de représentation.

Bien entendu, ces évaluations nont de sens que si les groupes sont discernables dans lespace de représentation initial. Il nous faut donc, dans un premier temps, apprécier dans quelle mesure les centres de gravité des groupes sont distincts. En dautres termes, il sagit de vérifier si la part de B dans léquation V = B + W est assez importante pour que cela vaille la peine de la décomposer par la suite.

Test MANOVA

Le test global sapparente à une analyse de variance multivariée à un facteur. Dans ce cadre, nous introduisons lhypothèse que les observations suivent une loi normale multidimensionnelle. Nous retrouvons également ce test dans lanalyse discriminante prédictive (analyse discriminante linéaire). La statistique du test est le Lambda de Wilks qui est égal au rapport \Lambda = \frac{|W|}{|V|}\, (| | désigne le déterminant de la matrice). En utilisant la transformation de Rao qui suit une loi de Fisher, nous pouvons déterminer si nous devons accepter ou réfuter lhypothèse dégalité des centres de gravité de groupes.

Proportion de variance expliquée

Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprécier limportance dun axe est de calculer la part de variance expliquée quelle porte, traduite par la valeur propre. La proportion de valeur propre, c.-à-d. le rapport entre la valeur propre de laxe et la somme totale des valeurs propres de lensemble des axes, nous donne une bonne indication sur le rôle dun axe.

Rapport de Corrélation

Une autre manière de rapporter limportance dun axe est de calculer le rapport de corrélation. Il sappuie sur la formule de décomposition de la variance. Pour un axe factoriel Z\,, il est égal au ratio \eta(Z,Y)=\frac{\sum_k n_k (\bar{z}_{k}-\bar{z})^2}{\sum_k \sum_i (z_{ik}-\bar{z})^2}\, (la somme des carrés inter-groupes divisé par la somme des carrés totale, i\, représente une observation).

Un axe sera dautant plus intéressant quil présente un rapport de corrélation élevé. Dans les logiciels anglo-saxons, la racine carrée du rapport de corrélation de laxe Z_h\, est appelée la h-ème corrélation canonique.

Test des racines successives

En introduisant de nouveau lhypothèse de multinormalité et dhomoscédasticité (voir analyse discriminante prédictive), nous pouvons tester la nullité des q\, derniers rapports de corrélation. Le test repose sur la statistique de Wilks \Lambda_q=\prod_{h=K-q}^{K-1}(1-\eta(Z_h,Y)^2)\,. Lhypothèse nulle (nullité des q\, rapports de corrélation) est infirmée pour les petites valeurs de \Lambda_q\,.

Tout comme pour le test global, une transformation est mise en œuvre pour retomber sur des lois de distribution dusage courant. La transformation de Bartlett est souvent proposée dans les logiciels. Elle suit une loi du Khi-2 à [q \times (J-K+q+1)]\, degrés de liberté. Lhypothèse nulle est rejetée si la probabilité critique calculée est inférieure au risque de première espèce (niveau de confiance) que lon sest fixé.

Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullité des rapports de corrélation sur tous les (K-1)\, axes factoriels. En d'autres termes, \Lambda=\Lambda_{K-1}\,, ce qui est tout à fait naturel puisque cela revient à tester tous les axes.

Un exemple

Le fameux fichier IRIS permet dillustrer la méthode. Il a été proposé et utilisé par Fisher lui-même pour illustrer lanalyse discriminante. Il comporte 150 fleurs décrites par 4 variables (longueur et largeur des pétales et sépales) et regroupées en 3 catégories (Setosa, Versicolor et Virginica).

Lobjectif est de produire un plan factoriel (3 catégories2 axes) permettant de distinguer au mieux ces catégories, puis dexpliquer leurs positionnements respectifs.

Axes factoriels

Le calcul produit les résultats suivants.

Axe Val. propre Proportion Canonical R Wilks KHI-2 D.D.L. p-value
1 32.272 0.991 0.985 0.024 545.58 8 0.0
2 0.277 1.0 0.466 0.783 35.6 3 0.0

Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullité des deux axes est égal à 0.023525 (\Lambda = \Lambda_2\, ici). Le KHI-2 de Bartlett est égal à 545.57, avec un degré de liberté égal à (2 x (4-3+2+1)) = 8, il est très hautement significatif (p-value très petite).

Nous constatons néanmoins que le premier axe traduit 99,1 % de la variance expliquée. Nous pouvons légitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullité du dernier axe (\Lambda_1\,). Le lambda est plus élevé (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) à (1 x (4-3+1+1)) = 3 degrés de liberté, il reste néanmoins significatif si lon se fixe un niveau de confiance à 5 %.

Partant de ce résultat, nous serions amenés à conserver les deux axes. Nous verrons plus bas que ce résultat est à relativiser.

Représentation graphique

En projetant les points dans le plan factoriel, nous obtenons le positionnement suivant.

Plan factoriel -- Analyse discriminante descriptive

Nous distinguons bien les trois catégories de fleurs. Nous constatons également que le premier axe permet déjà de les isoler convenablement. Sur le second axe, même si les centres de gravité des groupes semblent distincts, la différenciation nest pas aussi tranchée.

Nous retrouvons bien dans ce graphique ce que lon pressentait avec la proportion de variance expliquée. Le premier axe suffit largement pour discriminer les groupes. Le second axe, même sil est statistiquement significatif, napporte pas un réel complément dinformations.

Très souvent, les techniques visuelles emmènent un contrepoint très pertinent aux résultats numériques bruts.

Projection des individus supplémentaires

Pour projeter des observations supplémentaires dans le plan factoriel, les logiciels fournissent les équations des fonctions discriminantes. Il suffit de les appliquer sur la description de lindividu à classer pour obtenir ses coordonnées dans le nouveau repère.

Dans lexemple IRIS, nous obtenons les coefficients suivants.

Variables Axe 1 Axe 2
Sepal Length -0.819 -0.033
Sepal Width -1.548 -2.155
Petal Length 2.185 0.930
Petal Width 2.854 -2.806
Constante -2.119 6.640

Interprétation des axes

Dernier point, et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c.-à-d. expliquer à laide de variables initiales lappartenance aux catégories.

Pour cela, à linstar des techniques factorielles telles que lanalyse en composantes principales (ACP) -- lanalyse factorielle discriminante peut être vue comme un cas particulier de lACP dailleurs -- les logiciels fournissent la matrice de corrélation. À la différence de lACP, trois types de corrélations peuvent être produits : la corrélation globale entre les axes et les variables initiales ; la corrélation intra-classes, calculée à lintérieur des groupes ; la corrélation inter-classes calculée à partir des centres de gravité des groupes pondérés par leurs fréquences.

Dans lexemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrélations suivantes.

Variables Total Intra-groupes Inter-groupes
Sep Length 0.792 0.222 0.992
Sep Width -0.523 -0.116 -0.822
Pet Length 0.985 0.705 1.000
Pet Width 0.973 0.632 0.994

La corrélation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutôt des longueurs de sépales, des longueurs et des largeurs de pétales importantes. Les Setosa possèdent à linverse des longueurs de sépales, des longueurs et des largeurs de pétales réduites. Les Versicolor occupent une position intermédiaire.

La lecture est inversée concernant la largeur des sépales.

Références

  • M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001.
  • (fr) Gilbert Saporta, Probabilités, Analyse des données et Statistique, 2006 [détail des éditions]
  • L. Lebart, A. Morineau, M. Piron, Statistique Exploratoire Multidimensionnelle, Dunod, 2000.
  • M. Tenenhaus, Méthodes Statistiques en Gestion, Dunod, 1996.
  • Michel Volle, Analyse des données, Economica, 4e édition, 1997, ISBN 2-7178-3212-2


  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Analyse discriminante de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Analyse Discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble… …   Wikipédia en Français

  • Analyse discriminante descriptive — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… …   Wikipédia en Français

  • Analyse Discriminante Linéaire — L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide… …   Wikipédia en Français

  • Analyse discriminante lineaire — Analyse discriminante linéaire L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses… …   Wikipédia en Français

  • Analyse discriminante linéaire — L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide… …   Wikipédia en Français

  • Analyse factorielle discriminante — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… …   Wikipédia en Français

  • Analyse confirmative de données — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… …   Wikipédia en Français

  • Analyse de données — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… …   Wikipédia en Français

  • Analyse des données (statistiques) — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… …   Wikipédia en Français

  • Analyse exploratoire de données — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… …   Wikipédia en Français

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/97029 Do a right-click on the link above
and select “Copy Link”