- Analyse des données
-
L’analyse des données est un domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données. On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des spams. En résumé, l'Analyse des données relève de la représentation graphique, et de la classification .
Comme aperçu d'un type d'analyse des données, ou comme elle est appelée parfois de data profiling, on peut présenter celui de l'analyse simultanée de l’âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf. La bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».
Sommaire
Définition
Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée.
Elle comprend principalement l’analyse en composantes principales (ACP), utilisée pour des données quantitatives, et ses méthodes dérivées : l'analyse factorielle des correspondances (AFC) utilisée sur des données qualitatives (tableau d’association) et l'analyse factorielle des correspondances multiples (AFCM ou ACM) généralisant la précédente.
L'Analyse canonique et l'analyse canonique généralisée, méthodes plus théoriques, généralisent plusieurs de ces méthodes et vont au-delà des méthodes de description[i 1].
La classification automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante utilisent un autre type de représentation des individus permettant d’identifier des groupes homogènes au sein de la population du point de vue des variables étudiées.
L'analyse en composantes indépendantes (ACI), plus récente, issue de la physique du signal et connue initialement comme Méthode de séparation aveugle de source, est plus proche intuitivement des méthodes de classification non supervisée. L'iconographie des corrélations pour des données qualitatives et quantitatives, organise les corrélations entre variables sous la forme de graphes.
En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode de Poursuite de projection de John Tukey, et les méthodes de Quantification de Chikio Hayashi, dont la Quantification de type III est équivalente à l'AFC[i 2],[i 3],[Note 1]. L'analyse factorielle anglo-saxone, ou « Factor Analysis », est proche de l'ACP, sans être équivalente, car elle utilise les techniques de régression pour découvrir les variables latentes.
Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille. Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.
Histoire
On pourrait dire que les pères de l’analyse des données sont Jean-Paul Benzécri, John Tukey (sous le terme de « Exploratory Data Analysis » ou EDA) et Chikio Hayashi (sous le terme de « Data Sciences »). Mais, bien avant eux, Karl Pearson en 1901 établit les prémisses de l’analyse en composantes principales[i 4] développée en 1933 par Harold Hotelling qui définit en 1936 l'Analyse canonique.
Richardson et Kuder en 1933, cherchant à améliorer la qualité des vendeurs de « Procter & Gamble » utilisèrent ce qu'on appellera plus tard l'algorithme « Reciprocal averaging » bien connu en ACP[i 5]. H. O. Hirschfeld, dans sa publication « A connection between correlation and contingency » découvrit les équations de l'analyse des correspondances[i 6].
Charles Spearman inventa l'analyse factorielle en 1904, que completa Louis Leon Thurstone dans son ouvrage sur l'analyse multi factorielle en 1931[i 7].
Jean-Paul Benzécri et Brigitte Escofier-Cordier proposèrent l'Analyse factorielle des correspondances en 1962-65, mais en 1954 Chikio Hayashi avait déjà établi les fondations de cette méthode sous le nom Quantification de type III[i 2].L'analyse des correspondances multiples fut initiée par L.Guttman en 1941, C.Burt en 1950 et à C.Hayashi en 1956[i 5]. Cette technique a été développée au Japon en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling »[i 5],[i 8] et aux Pays-bas en 1990 sous le nom de « Homogeneity analysis »[i 9] par Albert Gifi[i 5].
Et vint l'ordinateur! Celui-ci permit les calculs complexes, les diagonalisations, les recherches de valeurs propres....
La classification trouva son maître, entre 1735 et 1758, en la personne de Carl von Linné qui mit en place à cette époque les fondements de la nomenclature binomiale et la taxinomie moderne[b 1]. R. Sokal et P Sneath présentèrent en 1963 des méthodes quantitatives appliquées à la taxinomie[b 2].
Les tableaux de contingences sont présents bien plus tôt dans l'histoire : l'invincible armada est décrite par Paz Salas et Alvarez dans un libre publié en 1588 sous la forme d'un tableau où les lignes représentent les flottes de navires et les colonnes les caractéristiques telles que le tonnage, le nombre de gens d'armes,...Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, comptait et caractérisait les couvents et le monastères de la région du Languedoc en 1696[i 10].
L'analyse des données est donc une technique issue du XXe siècle, avec des racines remontant parfois bien loin dans le passé, et dont les foyers d'apparition et d'expansion se répartissent tout autour du globe.
Domaines d'application
Bien sûr, l'analyse des données est utilisée pour cerner les résultats des enquêtes d'opinion par exemple avec l'ACM ou l'AFC[i 11].
Mais J-P Benzécri nous donne aussi des exemples de l'utilisation de l'analyse des correspondances dans le cadre de l'apprentissage [b 3], de l'hydrologie[b 4], de la biochimie[b 5].
Les linguistes utilisent l'analyse de texte et les méthodes d'analyse des données pour par exemple situer un député sur l'échiquier politique en analysant la fréquence d'usage de certains mots[b 6]. Brigitte Escofier-Cordier a analysé quelques éléments du vocabulaire utilisé dans la pièce de Racine, Phèdre, pour montrer comment l'auteur se sert du vocabulaire pour ancrer ses personnages dans la hiérarchie sociale[i 12].
L'analyse des données est intéressante pour comprendre la structure d'une ville et son urbanisme[i 13], pour analyser certaines caractéristiques du génome[b 7] ; certains chercheurs utilisent l'ACP pour la reconnaissance des visages[i 14]
En épidémiologie, l'inserm met à disposition ses données qu'ont exploitées Husson et al. via l'AFC pour caractériser les tranches d'ages en France par leurs causes de mortalité[b 8].
Le domaine du sport est très friand de statistiques : le sport s'intéresse à son image[b 9], le sociologue cherche à savoir si la sociabilité des adeptes d'un sport est influencée par sa pratique[i 15], la biométrie humaine caractérise la morphologie du sportif selon le sport qu'il pratique et dans le cas de sports collectifs le poste qu'il occupe dans l'équipe[i 16], etc.
La sociologie elle aussi utilise beaucoup l'analyse des données pour comprendre la vie et le développement de certaines populations comme celles du Liban, de la Colombie ou de la Tunisie dont les études sont présentées par J.P. Benzécri[b 10].
La Microfinance s'est aussi emparée de l'analyse des données pour évaluer les risques et caractériser les populations [i 17].
L'industrie de l'assurance, forte consommatrice de données depuis longtemps, se sert de l'analyse des données pour l'évaluation des risques et la tarification à priori[i 18].
Représentation graphique
La représentation des données est le domaine des analyses factorielles AFC, ACP, ACM[i 19]. Ces méthodes permettent de représenter le nuage de points à analyser dans un plan ou dans un espace à trois dimensions, sans trop de perte d'information, et sans hypothèse statistique préalable[i 20]. En mathématiques, elles exploitent le calcul matriciel et l'analyse des vecteurs et des valeurs propres.
ACP
Article principal : Analyse en composantes principales.L'Analyse en composantes principales est utilisée pour réduire p variables corrélées en un nombre q de variables non corrélées de telles manières que les q variables soient des combinaisons linéaires des p variables initiales, que leur variance soit maximale et que les nouvelles variables soient orthogonales entre elles suivant une distance particulière[i 22],[i 23],[i 24]. En ACP, les variables sont quantitatives.
Les composantes, les nouvelles variables, définissent un sous-espace à q dimensions sur lequel sont projetés les individus avec un minimum de pertes d'information. Dans cet espace le nuage de points est plus faclement représentable et l'analyse est plus aisée[b 11]. En Analyse des correspondances, la représentation des individus et des variables ne se fait pas dans le même espace.
La mesure de la qualité de représentation des données peut être effectuée à l'aide du calcul de la contribution de l'inertie de chaque composante à l'inertie totale. Dans l'exemple donnée sur les deux images ci-contre la première composante participe à hauteur de 45,89% à l'inerte totale , la seconde à 21,2%.
Plus les variables sont proches des composantes et plus elles sont corrélées avec elles. L'analyste se sert de cette propriété pour l'interprétation des axes[b 12]. Dans l'exemple ci-contre les deux composantes principales représentent l'activité principale et la principale activité secondaire dans lesquelles les Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux Usa (U) ou en Europe de l'ouest (W) partagent leur journée. A droite est illustré le cercle des corrélations où les variables sont représentées en fonctions de leur projection sur le plan des deux premières composantes. Plus les variables sont bien représentées et plus elles sont proche du cercle. Le cosinus de l'angle formé par deux variables est égal au coefficient de corrélation entre ces deux variables[i 25].
AFC
Article principal : Analyse factorielle des correspondances.L'AFC traite les tableaux de contingence de deux variables nominales - variables qualitatives dont les valeurs n'ont pas de lien entre elles. Le principe de l'AFC est identique à celui de l'ACP. On cherche les axes explicatifs qui sous-tendent le tableau de fréquences de deux variables qualitatives. En fait, une AFC est une ACP sur des tableaux dérivés du tableau initial[Note 2]. Ceux-ci sont les tableaux des profils-lignes et des profils-colonnes. Si le tableau initial possède p lignes et q colonnes, et si nij est son élément générique, le tableau des profils-lignes a pour élément générique , celui des profils-colonnes . Les profils-lignes forment un nuage de p points dans qu'on munit de la métrique . On a une métrique équivalente sur pour les profils-colonnes[b 13].
Il y a au moins deux différences entre une ACP et une AFC : la première est qu'on peut représenter les individus et les variables dans un même graphique, la seconde concerne la similarité[b 14]. Deux points-lignes sont proches dans la représentation graphique, si les profils-colonnes sont similaires. Par exemple sur le graphique de gauche ci-contre PARIS et les YVELINES ont votés d'une manière similaire, ce qui n'est pas évident quand on regarde le tableaux de contingence initial puisque le nombre de votants est assez différent dans les deux départements. De même deux points-colonnes (dans l'exemple ci-contre ce sont les candidats) sont proches graphiquement si les profils-lignes sont similaires. Dans l'exemple, les départements ont votés pour BAYROU et LEPEN de la même manière. On ne peut pas comparer simplement les points-lignes et les points-colonnes[Note 3],[i 26].
La qualité de la représentation graphique peut être évaluée globalement par la part du χ2 expliquée par chaque axe (mesure de la qualité globale), par l'inertie d'un point projetée sur un axe divisé par l'inertie totale du point (mesure de la qualité pour chaque modalité), la contribution d'un axe à l'inertie totale ou le rapport entre l'inertie d'un nuage (profils_lignes ou profils_colonnes) projeté sur un axe par l'inertie totale du même nuage[i 27],[b 15].
ACM
Article principal : Analyse des correspondances multiples.L'analyse factorielle des correspondances multiples est une extension de l'AFC[i 28],[Note 4]. L'ACM se propose d'analyser p variables qualitatives d'observations sur n individus. Comme il s'agit d'une analyse factorielle elle aboutit à la représentation des données dans un espace à dimensions réduites engendré par les facteurs. On peut dire que l'ACM est l'équivalent de l'ACP pour les variables qualitatives et qu'elle se réduit à l'AFC lorsque le nombre de variables qualitatives est égal à 2[b 17]. Formellement, une ACM est une AFC appliquée sur le tableau disjonctif complet, ou bien une AFC appliquée sur le tableau de Burt, ces deux tableaux étant issus du tableau initial. Un tableau disjonctif complet est un tableau où les variables sont remplacées par leurs modalités et les éléments par 1 si la modalité est remplie 0 sinon pour chaque individu. Un tableau de Burt est le tableau de contingence des p variables prises deux à deux.
L'interprétation se fait au niveau des modalités dont on examine les proximités. Les valeurs propres ne servent qu'à déterminer le nombre d'axes soit par la méthode du coude soit en ne prenant que les valeurs propres supérieures à . La contribution de l'inertie des modalités à celle des différents axes est analysée comme en AFC[i 28]. L'inertie totale du nuage de points est égale à , l'inertie de la variable Xi possédant mi modalités est donnée par et l'inertie de la modalité j a pour formule [i 29].
Analyse canonique
Article principal : Analyse canonique des corrélations.L'analyse canonique[i 31] permet de comparer deux groupes de variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l'analyse canonique est de comparer ces deux groupes de variables pour savoir si ils décrivent un même phénomène, auquel cas on pourra se passer d'un des deux groupes de variables.
Un exemple parlant est celui des analyses médicales effectuées sur les mêmes échantillons par deux laboratoires différents[b 18]. L'analyse canonique généralise des méthodes aussi diverses que la régression linéaire multiple, l'analyse discriminante et l'analyse factorielle des correspondances[b 18].
Plus formellement, si X1 et X2 sont deux groupes de variables, l'analyse canonique cherche des couples de vecteurs (ξ1i,η2i), combinaisons linéaires des variables de X1 et X2 respectivement, le plus corrélées possibles. Ces variables sont dénommées variables canoniques. Dans l'espace ce sont les vecteurs propres des projections P1 et P2 respectivement sur les sous espace de et , où p et q representent le nombre de variables des deux groupes, engendrés par les deux ensembles de variables. cos 2(ξ1,η2) mesure la corrélation entre les deux groupes. Plus cette mesure est élevée, plus les deux groupes de variables sont corrélés et plus ils expriment le même phénomène sur les individus. Dans l'illustration de droite, les corrélations entre les variables à l'intérieur des deux groupes sont représentées par les corrélogrammes du haut, la corrélation entre les deux groupes est expliquée au-dessous. Si la couleur dominante était vert clair aucune corrélation n'aurait été détectée. A gauche les deux groupes de variables sont rassemblés dans le cercle des corrélations rapportés aux deux premières variables canoniques.
Enfin l'Analyse canonique généralisée au sens de Caroll (d'après J.D.Caroll) étend l'Analyse canonique ordinaire à l'étude de p Groupes de variables (p > 2) appliquées sur le même espace des individus. Elle admet comme cas particuliers l'ACP, l'AFC et l'ACM, l'Analyse canonique simple, mais aussi la régression simple, et multiple, l'analyse de la variance , l'analyse de la covariance et l'analyse discriminante[i 32].
Classification
La classification des individus est le domaine de la classification automatique et de l'analyse discriminante. Classifier consiste à définir des classes, classer est l'opération permettant de mettre un objet dans une classe définie au préalable[b 19]. La classification automatique est ce qu'on appelle en exploration de données (« data mining ») la classification non supervisée, l'analyse discriminante est l'ensemble des techniques statistiques connues sous le nom de classification supervisée en exploration de données[b 19].
Classification automatique
Le but de la classification automatique est de découper l'ensemble des données étudiées en une ou plusieurs partitions, chaque sous-ensemble devant être le plus homogène possible. On distingue deux types de classification : d'une part le partitionnement "à plat" et d'autre part le partitionnement hiérarchique. l'agrégation autour des centres mobiles ( les nuées dynamiques ), la méthode de Condorcet, la méthode des inerties intra-classe et inter-classes font partie de la première catégorie. La classification ascendante hiérarchique, descendante hiérarchique sont des méthodes de la deuxième catégorie[b 20].
Analyse discriminante
Article principal : Analyse discriminante.Ce qui nous intéresse ici c'est la partie descriptive de l'analyse discriminante connue sous le nom d'Analyse Factorielle discriminante. Cette technique projette les classes sur des plans factoriels discriminants.
Logiciels
De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.
Notes et références
Notes
- Dans ce dernier document on voit Chikio Hayashi et Jean-Paul Benzécri en pleine discussion
- Saporta 2006, p. 212. L'AFC peut aussi être vue comme une Analyse canonique particulière. Voir
- Analyse Factorielle des correspondances », 2004. Consulté le 12 Novembre 2011 pour plus d'information sur l'exemple ci-contre voir l'analyse de FG Carpentier de l'université de Brest [PDF]FG Carpentier, «
- Saporta 2006, p. 227 pour appréhender l'apport spécifique de l'ACM, voir G.Saporta
Références
Ouvrages spécialisés
- Benzécri 1976, p. 91 et suiv. (Tome I)
- Benzécri 1976, p. 63 et suiv. (Tome I)
- Benzécri 1976, p. 29 (Tome I)
- Benzécri 1976, p. 31 (Tome I)
- Benzécri 1976, p. 37 (Tome I)
- Benzécri 1976, p. 329 (Tome II)
- Husson 2009, p. 58
- Husson 2009, p. 110
- Benzécri 1976, p. 55 (Tome I)
- Benzécri 1976, p. 372-397 et 461 (Tome II)
- Saporta 2006, p. 162
- Saporta 2006, p. 178
- Saporta 2006, p. 201-204
- Husson 2009, p. 70
- Husson 2009, p. 81-83
- Husson 2009, p. 155
- Saporta 2006, p. 220
- Saporta 2006, p. 189-190
- Husson 2009, p. 172
- Saporta 2006, p. 243
Articles publiés sur internet
- Analyse canonique des corrélations », 2010. Consulté le 6 Novembre 2011 [PDF]Philippe Besse, «
- (en)Noboru Ohsumi, Charles-Albert Lehalle, « Benzecri, Tukey and Hayashi (maths) », 2006. Consulté le 6 Novembre 2011
- (en)Noboru Ohsumi, « « Memories of Chikio Hayashi and His Great Achievement » », 2008. Consulté le 6 Novembre 2011 [PDF]
- Introduction à l’analyse des données », 2003. Consulté le 1 Novembre 2011 [PDF]Samuel AMBAPOUR, «
- L’analyse des données des origines à 1980 : quelques éléments », 2008. Consulté le 6 Novembre 2011 [PDF]Ludovic Lebart, «
- Données supplémentaires sur l'analyse des données », 1975. Consulté le 6 Novembre 2011 [PDF]Gilbert Saporta, «
- (en) Louis Léon Thurstone, Multiple factor analysis. Psychological Review, 38, 1931
- (en)Shizuhiko Nishisato, « « Elements of Dual Scaling : An Introduction to Practical Data Analysis » », 1994. Consulté le 11 Novembre 2011 [PDF]
- (en)Willem J. Heiser, Jaqueline J. Meulman, « « Homogeneity Analysis : Exploring the distribution of variables and their nonlinear relashionships » », 1992. Consulté le 11 Novembre 2011 [PDF]
- (en)Antoine de Falguerolles, « « L’analyse des données : before and around » », 2008. Consulté le 20 Novembre 2011 [PDF]
- Applications de l’analyse des données au traitement d’enquêtes Mesure de satisfaction de clientèle pour les grands services publics : le cas de la Société Nationale d’Electricité », 2003. Consulté le 7 Novembre 2011 [PDF]Samuel AMBAPOUR, «
- Les Cahiers de l'Analyse des données : Contribution à l'étude de la structure des pièces de théatre : Analyse de la matrice de présence des personnages sur la scène », 1995. Consulté le 10 Novembre 2011 [PDF]E. Boukherissa, «
- Une Application des Techniques d’Analyse de Données et de Statistique Descriptive à l’Etude Comparative des Quartiers Parisiens », 2008. Consulté le 8 Novembre 2011 [PDF]Benoît Chaumeret, Emmanuel Tomi, «
- (en)Kyungnam Kim, « « Face Recognition using Principle Component Analysis » ». Consulté le 9 Novembre 2011 [PDF]
- Pratiques Sportives et Sociabilité », 2005. Consulté le 11 Novembre 2011 [PDF]Renaud Laporte, «
- Morphologie et Performance chez les Sportifs de Haut Niveau: Cas du Handball et de la Natation », 1988. Consulté le 11 Novembre 2011 [PDF]Anne-Béatrice Dufour, Jacques Pontier, Annie Rouard, «
- Outil d’évaluation de la pauvreté en microfinance », 2003. Consulté le 20 Novembre 2011 [PDF]Carla Henry, Manohar Sharma,Cecile Lapenu,Manfred Zeller, «
- Mathématiques de l'assurance non-vie ». Consulté le 20 Novembre 2011 [PDF]Arthur Charpentier, Michel Denuit, «
- Introduction à l'Analyse des données ». Consulté le 2 Novembre 2011 [PDF]Olivier Godechot, «
- Exploration Statistique ». Consulté le 6 Novembre 2011 [PDF]Alain Baccini, Philippe Besse, «
- Analyse en composantes principales avec R », 2006. Consulté le 19 Novembre 2011 FG Carpentier, «
- Analyse en Composantes Principales », 2006. Consulté le 3 Novembre 2011 [PDF]C. Duby, S. Robin, «
- Analyse en composantes principales ». Consulté le 3 Novembre 2011 [PDF]Christine Decaestecker, Marco Saerens, «
- (en)Hossein Arsham, « « Topics in Statistical Data Analysis: Revealing Facts From Data » ». Consulté le 3 Novembre 2011
- Le "cercle des corrélations" en ACP » Arthur Charpentier, «
- Introduction aux Statistiques », 1996. Consulté le 12 Novembre 2011 R. Ramousse, M. Le Berre,L. Le Guelte, «
- Analyse factorielle des correspondances », 2010. Consulté le 12 Novembre 2011 [PDF]Philippe Besse, «
- Analyse des correspondances multiples », 2010. Consulté le 12 Novembre 2011 [PDF]Philippe Besse, «
- Analyse factorielle des correspondances multiples : 4.3 Formulaire ». Consulté le 13 Novembre 2011 Université Pierre et Marie Curie, Paris, «
- (en)Ignacio Gonzalez, Sébastien Déjean, Pascal G. P. Martin, Alain Baccini, « « CCA: An R Package to Extend Canonical Correlation Analysis » », 2008. Consulté le 19 Novembre 2011 [PDF]
- Analyse canonique », 2005. Consulté le 15 Novembre 2011 [PDF]Frédéric Bertran, «
- Une présentation de l'analyse canonique généralisée dans l'espace des individus », 1986. Consulté le 18 Novembre 2011 [PDF]Ph. Casin, J.C. Turlot, «
Voir aussi
Bibliographie
- (fr)Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, Editions Technip, 2006, 622 p. (ISBN 978-2-7108-0814-5).
- (fr)Jean-Paul Benzécri et al., L'Analyse des Données: 1 La Taxinomie, Paris, Dunod, 1976, 631 p. (ISBN 2-04-003316-5).
- (fr)Jean-Paul Benzécri et al., L'Analyse des Données: 2 L'Analyse des correspondances, Paris, Dunod, 1976, 616 p. (ISBN 2-04-004255-5).
- (fr)François Husson, Sébastien Lé et Jérome Pagès, Analyse de données avec R, Rennes, Presses Universitaires de Rennes, 2009, 224 p. (ISBN 978-2-7535-0938-2).
- (en) Lyle V. Jones, The Collected Works of John W. Tukey T.IV, Monterey, California, Chapman and Hall/CRC, 1987, 675 p. (ISBN 978-0534051013).
- (en) Lyle V. Jones, The Collected Works of John W. Tukey T.I, Monterey, California, Wadsworth Pub Co, 1984, 680 p. (ISBN 978-0534033033).
- (en) J W Tukey et K.E. Basford, Graphical Analysis of Multiresponse Data, Londres, Chapman & Hall (CRC Press), 1999, 587 p. (ISBN 0849303842).
- (fr) Michel Volle, Analyse des données, 4e édition, Economica, 1997, 323 p. (ISBN 978-2717832129).
- (fr) Jean-Marie Bouroche et Gilbert Saporta, L'Analyse des données, 9e édition, Paris, Presses Universitaires de France - PUF, 2006, 125 p. (ISBN 978-2130554448).
Articles connexes
Liens internes
Liens externes
- FactoMineR, une bibliothèque de fonctions R dédiée à l'analyse des données
- Cours d'Analyse des données donné à l'Institut d'études politiques de Paris
- Portail des probabilités et des statistiques
- Portail de l’informatique
Wikimedia Foundation. 2010.