- Logiciels de fouille de données
-
Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Articles annexes Logiciels de fouille de données Algorithme de fouille de flots de données Aide Glossaire du data mining Contextes liés Probabilités et statistiques Information géographique Imagerie numérique Informatique Linguistique Internet Les logiciels de fouille de données sont des programmes spécialisés dans l'analyse et l'extraction des connaissances à partir des données informatisées. Ce sont des logiciels qui aident l'analyste en exploration de données à trouver des motifs remarquables et intéressants. Bien évidemment, les logiciels appartiennent soit à la famille des logiciels commerciaux, soit à la famille des logiciels libres.
Sommaire
Logiciels libres
Parmi les logiciels libres, quelques-uns sortent du lot :
KNIME (prononcer NAÏM), acronyme de Konstanz Information Miner[1], est un logiciel libre édité par un laboratoire de l'Université de Constance dénommé Nycomed Chair for Bioinformatics and Information Mining[2],[3]. Il intègre tous les modules d'analyse de Weka et permet de créer des scripts en langage R. Ces deux logiciels sont décrits ci-dessous. Comme tous les logiciels libres, KNIME est extensible.
R[4] est un langage et un environnement permettant d'effectuer des calculs statistiques et de créer leurs graphiques. Sous licence GNU, R est semblable au langage S et à son environnement créé aux Laboratoires Bell par John Chambers et ses collègues. R peut être considéré comme une autre mise en œuvre de S. Il y a quelques différences importantes, mais beaucoup de code écrit pour S s'exécute inchangé sous R. R fournit un large éventail de techniques statistiques et graphiques telles que la modélisation linéaire et non linéaire, les tests statistiques classiques, l'analyse des séries chronologiques, la classification et le clustering, entre autres. Il peut être fortement étendu par des programmes développés par la communauté. Le langage S est souvent le véhicule de choix pour la recherche en matière de méthodologie statistique, et R fournit une voie open source à la participation à cette activité. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus, de qualité digne de publication, peuvent être produits, contenant des symboles mathématiques et des formules si besoin est. Un grand soin a été accordé à la prise en charge des options par défaut pour les choix mineurs dans la conception des graphiques, mais l'utilisateur conserve le contrôle complet de ces options. R est publié selon les termes de la licence GNU sous forme de code source. Il se compile et s'exécute sous une grande variété de plates-formes UNIX et de systèmes similaires, y compris FreeBSD et Linux, Windows et MacOS.
Orange[5] est un logiciel libre créé à l'université de Ljubljana en Slovenie. Ce logiciel est doté d'une interface homme-machine conviviale. Il est développé en C++ et en Python. Chaque algorithme se présente sous la forme de widgets pouvant avoir une entrée et une sortie ; ils sont agencés dans une fenêtre[6].
RapidMiner est un logiciel libre distribué par la société Rapid-I[7], basée à Dortmund en Allemagne. Il intègre le Business Intelligence dont les principales fonctionnalités sont l'ETL, l'OLAP, la production d'états et l'exploration de données et les techniques classiques comme par exemple les SVM, l'ACP, les arbres de décision et les réseaux neuronaux. Ce produit est aussi distribué en version commerciale.
Tanagra[8] est un logiciel libre d'exploration de données développé sous la direction de Ricco Rakotomalala du laboratoire ERIC de l'Université Lumière Lyon 2. Il permet d'effectuer les traitements d'analyses factorielles telles que l'ACP, l'AFC, l'ACM, la régression PLS, de classification non supervisée avec l'algorithme des k-means et l'algorithme hiérarchique ascendant. Il permet aussi d'importer des fichiers au format weka[6].
Weka est un logiciel libre de fouille de données créé par l'université de Waikato (Nouvelle-Zélande). C'est une collection d'algorithmes d'apprentissage automatique mis en place pour effectuer des tâches d'exploration de données[9]. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit être appelés directement par un code Java développé par une équipe informatique indépendante par exemple. Weka contient des outils pour les prétraitements des données, la classification, la régression, le clustering, les règles d'association et la visualisation. Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage automatique. C'est un logiciel open source publié sous la LGPL[6].
Logiciels commerciaux
Les logiciels commerciaux sont édités par des sociétés bien connues sur le marché et dont les capacités de traitement des données sont beaucoup plus importantes que les logiciels libres[10].
KXEN Analytic Framework est un logiciel commercial édité par la société KXEN[11] basée en Californie et fondée en 1998. Les modules de KXEN Analytic Framework permettent la prédiction, la segmentation, les associations, la prévision à l'aide de KPIs, la fouille de textes et l'analyse des réseaux sociaux.
Microsoft propose une solution de fouille de données limitée, déduite de son offre en Business intelligence[12], que l'on peut mettre en place soit en utilisant les outils de développement associés à SAS pour la population des développeurs, soit en utilisant l'Add-in Data mining proposé pour Excel 2007 ou Powerpivot pour les statisticiens.
SAS Enterprise Miner est un outil commercial édité par la société SAS Institute Inc.[13]. C'est un logiciel offrant toutes les facettes de l'exploration de données dont le processus est facilité par son interface homme-machine bien conçue.
SPSS[14] (Statistical Package for the Social Sciences) est un logiciel de statistiques, édité par la filiale d'IBM du même nom, qui se décompose en plusieurs modules dont SPSS Modeler pour le Data mining, SPSS Amos pour les modèles d'équation structurelle et Predictive Analytics pour l'analyse prédictive.
Statistica Data Miner[15], de la société Statsoft, Inc, est un logiciel commercial intégrant diverses techniques statistiques et graphiques, des algorithmes de réseaux de neurones, des méthodes avancées d'arbres de décision, des règles d'association, du boosting, des forêts aléatoires, de la fouille de texte, de l'optimisation de processus et différentes techniques de modélisation prédictive pour des tâches de classification ou de régression.
Logiciels spécialisés
En fouille de données spatiales, les logiciels sont aptes à analyser , requêter et tenir compte des spécificités des données spatiales.
Article principal : Logiciels de fouilles de données spatiales.Satisfaction des utilisateurs
Les outils les plus utilisés[16] sont, en 2009, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab, Knime, Microsoft SQL Server, Oracle DM et STATISTICA.
R[17] est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer Analytics[18] et STATISTICA apparaît comme l'outil de data mining préféré par la plupart des dataminers (18%). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois en 2010 et 2009 dans ce sondage de Rexer Analytics .
Notes
Références
- (en) KNIME : Site officiel. Consulté le 15 mai 2011
- (en) Chair for Bioinformatics and Information Mining : Site officiel. Consulté le 15 mai 2011
- (en) University of konstanz : Site officiel. Consulté le 15 mai 2011
- (en) The R Foundation for Statistical Computing, « Traduction du paragraphe : « Introduction to R » ». Consulté le 15 mai 2011
- (en) Orange : Site Officiel. Consulté le 15 mai 2011
- Pour une comparaison Weka, Tanagra, Orange ». Consulté le 15 mai 2011 René Lefebure, «
- (en) Rapid-I : site officiel. Consulté le 15 mai 2011
- Tutoriels Tanagra pour le Data Mining ». Consulté le 15 mai 2011 Ricco Rakotomalala, «
- (en) Traduction du paragraphe « Weka 3: Data Mining Software in Java ». Consulté le 15 mai 2011
- Tufféry 2010, p. 121
- (en) KXEN : Site officiel. Consulté le 15 mai 2011
- (en) Data mining with Sql server 2008R2. Consulté le 15 mai 2011
- SAS : Site officiel. Consulté le 15 mai 2011
- SPSS : Site officiel. Consulté le 15 mai 2011
- (en) Statistica : Site officiel. Consulté le 15 mai 2011
- (en) Data Mining Tools Used Poll, 2009. Consulté le 15 mai 2011
- (en)Rexer Analytics, « 2010 Data Miner Survey ». Consulté le 19 juin 2011
- (en)Rexer Analytics, « Rexer Analytics ». Consulté le 19 juin 2011
Annexes
Articles connexes
Liens externes
Bibliographie
- Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip, 2010, 3e éd., 705 p. (ISBN 978-2-7108-0946-3)
- Portail de l’informatique
- Portail des probabilités et des statistiques
Wikimedia Foundation. 2010.