Logiciels de fouille de données

Logiciels de fouille de données
Exploration de données
Articles principaux
Exploration de données
Fouille de données spatiales
Fouille du web
Fouille de flots de données
Fouille de textes
Fouille d'images
Fouille audio
Articles annexes
Logiciels de fouille de données
Algorithme de fouille de flots de données
Aide
Glossaire du data mining
Contextes liés
Probabilités et statistiques
Information géographique
Imagerie numérique
Informatique
Linguistique
Internet

Les logiciels de fouille de données sont des programmes spécialisés dans l'analyse et l'extraction des connaissances à partir des données informatisées. Ce sont des logiciels qui aident l'analyste en exploration de données à trouver des motifs remarquables et intéressants. Bien évidemment, les logiciels appartiennent soit à la famille des logiciels commerciaux, soit à la famille des logiciels libres.

Sommaire

Logiciels libres

Parmi les logiciels libres, quelques-uns sortent du lot :

Logo de Knime

KNIME (prononcer NAÏM), acronyme de Konstanz Information Miner[1], est un logiciel libre édité par un laboratoire de l'Université de Constance dénommé Nycomed Chair for Bioinformatics and Information Mining[2],[3]. Il intègre tous les modules d'analyse de Weka et permet de créer des scripts en langage R. Ces deux logiciels sont décrits ci-dessous. Comme tous les logiciels libres, KNIME est extensible.

Logo de R

R[4] est un langage et un environnement permettant d'effectuer des calculs statistiques et de créer leurs graphiques. Sous licence GNU, R est semblable au langage S et à son environnement créé aux Laboratoires Bell par John Chambers et ses collègues. R peut être considéré comme une autre mise en œuvre de S. Il y a quelques différences importantes, mais beaucoup de code écrit pour S s'exécute inchangé sous R. R fournit un large éventail de techniques statistiques et graphiques telles que la modélisation linéaire et non linéaire, les tests statistiques classiques, l'analyse des séries chronologiques, la classification et le clustering, entre autres. Il peut être fortement étendu par des programmes développés par la communauté. Le langage S est souvent le véhicule de choix pour la recherche en matière de méthodologie statistique, et R fournit une voie open source à la participation à cette activité. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus, de qualité digne de publication, peuvent être produits, contenant des symboles mathématiques et des formules si besoin est. Un grand soin a été accordé à la prise en charge des options par défaut pour les choix mineurs dans la conception des graphiques, mais l'utilisateur conserve le contrôle complet de ces options. R est publié selon les termes de la licence GNU sous forme de code source. Il se compile et s'exécute sous une grande variété de plates-formes UNIX et de systèmes similaires, y compris FreeBSD et Linux, Windows et MacOS.

Logo d'Orange

Orange[5] est un logiciel libre créé à l'université de Ljubljana en Slovenie. Ce logiciel est doté d'une interface homme-machine conviviale. Il est développé en C++ et en Python. Chaque algorithme se présente sous la forme de widgets pouvant avoir une entrée et une sortie ; ils sont agencés dans une fenêtre[6].

Un exemple d'utilisation de Tanagra

RapidMiner est un logiciel libre distribué par la société Rapid-I[7], basée à Dortmund en Allemagne. Il intègre le Business Intelligence dont les principales fonctionnalités sont l'ETL, l'OLAP, la production d'états et l'exploration de données et les techniques classiques comme par exemple les SVM, l'ACP, les arbres de décision et les réseaux neuronaux. Ce produit est aussi distribué en version commerciale.

Logo de Weka

Tanagra[8] est un logiciel libre d'exploration de données développé sous la direction de Ricco Rakotomalala du laboratoire ERIC de l'Université Lumière Lyon 2. Il permet d'effectuer les traitements d'analyses factorielles telles que l'ACP, l'AFC, l'ACM, la régression PLS, de classification non supervisée avec l'algorithme des k-means et l'algorithme hiérarchique ascendant. Il permet aussi d'importer des fichiers au format weka[6].

Weka est un logiciel libre de fouille de données créé par l'université de Waikato (Nouvelle-Zélande). C'est une collection d'algorithmes d'apprentissage automatique mis en place pour effectuer des tâches d'exploration de données[9]. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit être appelés directement par un code Java développé par une équipe informatique indépendante par exemple. Weka contient des outils pour les prétraitements des données, la classification, la régression, le clustering, les règles d'association et la visualisation. Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage automatique. C'est un logiciel open source publié sous la LGPL[6].

Logiciels commerciaux

Les logiciels commerciaux sont édités par des sociétés bien connues sur le marché et dont les capacités de traitement des données sont beaucoup plus importantes que les logiciels libres[10].

KXEN Analytic Framework est un logiciel commercial édité par la société KXEN[11] basée en Californie et fondée en 1998. Les modules de KXEN Analytic Framework permettent la prédiction, la segmentation, les associations, la prévision à l'aide de KPIs, la fouille de textes et l'analyse des réseaux sociaux.

Logo de SAS

Microsoft propose une solution de fouille de données limitée, déduite de son offre en Business intelligence[12], que l'on peut mettre en place soit en utilisant les outils de développement associés à SAS pour la population des développeurs, soit en utilisant l'Add-in Data mining proposé pour Excel 2007 ou Powerpivot pour les statisticiens.

SAS Enterprise Miner est un outil commercial édité par la société SAS Institute Inc.[13]. C'est un logiciel offrant toutes les facettes de l'exploration de données dont le processus est facilité par son interface homme-machine bien conçue.

Le logo de SPSS

SPSS[14] (Statistical Package for the Social Sciences) est un logiciel de statistiques, édité par la filiale d'IBM du même nom, qui se décompose en plusieurs modules dont SPSS Modeler pour le Data mining, SPSS Amos pour les modèles d'équation structurelle et Predictive Analytics pour l'analyse prédictive.

Statistica Data Miner[15], de la société Statsoft, Inc, est un logiciel commercial intégrant diverses techniques statistiques et graphiques, des algorithmes de réseaux de neurones, des méthodes avancées d'arbres de décision, des règles d'association, du boosting, des forêts aléatoires, de la fouille de texte, de l'optimisation de processus et différentes techniques de modélisation prédictive pour des tâches de classification ou de régression.

Logiciels spécialisés

En fouille de données spatiales, les logiciels sont aptes à analyser , requêter et tenir compte des spécificités des données spatiales.

Satisfaction des utilisateurs

Les outils les plus utilisés[16] sont, en 2009, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab, Knime, Microsoft SQL Server, Oracle DM et STATISTICA.

R[17] est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer Analytics[18] et STATISTICA apparaît comme l'outil de data mining préféré par la plupart des dataminers (18%). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois en 2010 et 2009 dans ce sondage de Rexer Analytics .

Notes


Références

  1. (en) KNIME : Site officiel. Consulté le 15 mai 2011
  2. (en) Chair for Bioinformatics and Information Mining : Site officiel. Consulté le 15 mai 2011
  3. (en) University of konstanz : Site officiel. Consulté le 15 mai 2011
  4. (en) The R Foundation for Statistical Computing, « Traduction du paragraphe : « Introduction to R » ». Consulté le 15 mai 2011
  5. (en) Orange : Site Officiel. Consulté le 15 mai 2011
  6. a, b et c René Lefebure, « Pour une comparaison Weka, Tanagra, Orange ». Consulté le 15 mai 2011
  7. (en) Rapid-I : site officiel. Consulté le 15 mai 2011
  8. Ricco Rakotomalala, « Tutoriels Tanagra pour le Data Mining ». Consulté le 15 mai 2011
  9. (en) Traduction du paragraphe « Weka 3: Data Mining Software in Java ». Consulté le 15 mai 2011
  10. Tufféry 2010, p. 121
  11. (en) KXEN : Site officiel. Consulté le 15 mai 2011
  12. (en) Data mining with Sql server 2008R2. Consulté le 15 mai 2011
  13. SAS : Site officiel. Consulté le 15 mai 2011
  14. SPSS : Site officiel. Consulté le 15 mai 2011
  15. (en) Statistica : Site officiel. Consulté le 15 mai 2011
  16. (en) Data Mining Tools Used Poll, 2009. Consulté le 15 mai 2011
  17. (en)Rexer Analytics, « 2010 Data Miner Survey ». Consulté le 19 juin 2011
  18. (en)Rexer Analytics, « Rexer Analytics ». Consulté le 19 juin 2011

Annexes

Articles connexes

Liens externes

Bibliographie

  • Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip, 2010, 3e éd., 705 p. (ISBN 978-2-7108-0946-3) 

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Logiciels de fouille de données de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • Fouille de données spatiales — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Logiciels de fouilles de données spatiales — Les Logiciels de fouilles de données spatiales permettent de stocker , de requêter, et de fouiller les données spatiales[1]. Sommaire 1 Base de données 2 GIS 3 Fouille de données …   Wikipédia en Français

  • Fouille de données — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction …   Wikipédia en Français

  • Fouille de flots de données — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Fouille de textes — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Fouille audio — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Fouille du web — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Fouille d'images — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes …   Wikipédia en Français

  • Fouille De Textes — La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l anglicisme text mining. C… …   Wikipédia en Français

  • Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”