- Cross Industry Standard Process for Data Mining
-
CRISP-DM signifie Cross Industry Standard Process for Data Mining[1]. Il s'agit d'un Modèle de Processus de data mining qui décrit une approche communément utilisée par les experts en data mining pour résoudre les problèmes qui se posent à eux. Des sondages effectués en 2002, 2004, et 2007 montrent qu'il s'agit de la méthode principale utilisée par les data miners. [2] [3] [4].Cette méthode a été créée par un consortium formé des compagnies NCR, SPSS, et Daimler-Benz. Le processus définit une hiérarchie consistant de phases majeures, de taches générales, de taches spécialisées, et d'instances de processus[5].
Sommaire
Phases Principales
CRISP-DM découpe le processus de data mining en six phases principales[6]:
- Connaissance du Métier
- Connaissance des Données
- Préparation des Données
- Modélisation
- Évaluation
- Déploiement
Histoire
La méthode CRISP-DM fut conçue en 1996. En 1997 elle se développe en tant que projet de l'Union Européenne financé par le programme ESPRIT. Le projet était conduit par quatre compagnies: ISL, NCR Corporation, Daimler-Benz and OHRA. Ce cœur du consortium apporte differentes experiences au project: ISL, plus tard acquis and intégré dans SPSS Inc. produit ses progiciels d'analyse predictive du même nom, intégré de nos jours au groupe IBM. Le géant informatique NCR Corporation créa la division Teradata spécialisée dans les entrepots de données et son propre progiciel de data mining. Daimler-Benz avait une importante équipe de data miners. OHRA, une compagnie d'assurance, venait juste de commencer à explorer le potentiel d'utilisation du data mining.
La première version de la méthode fut publiée sous le numéro de version CRISP-DM 1.0 en 1999.
CRISP-DM 2.0
En Juillet 2006 le consortium annonce qu'il va commencer à travailler sur une seconde version de CRISP-DM. Le 26 Septembre 2006, le CRISP-DM SIG se réunit pour discuter des améliorations pour CRISP-DM 2.0 et de la feuille de route qui en découle. Pourtant, ces efforts vont être retardés. Le SIG ne s'est pas réunis, n'a pas modifié le site web CRISP, ou communiqué quoique ce soit aux membres depuis le début de l'année 2007. Depuis le 22 juin 2011, le site web redirige vers une page du site d'IBM dédié à SPSS.
Avantages
- Méthode neutre par rapport aux métiers
- Méthode neutre par rapport aux outils
- Méthode liée étroitement à KDD Process Model
- Point d'ancrage du processus de data mining
Notes
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cross Industry Standard Process for Data Mining » (voir la liste des auteurs)
Liens externes
- CRoss Industry Standard Process for Data Mining
- CRoss Industry Standard Process for Data Mining Blog
- Le site des dataminers Article publié par Pascal BIZZARI, Mai 2009
- The Data Mining Group (DMG): The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML)
Références
- The CRISP-DM model: the new blueprint for data mining. J Data Warehousing 2000;5:13—22. Shearer C.
- KDnuggets Methodology Poll Gregory Piatetsky-Shapiro (2002)
- KDnuggets Methodology Poll Gregory Piatetsky-Shapiro (2004)
- KDnuggets Methodology Poll Gregory Piatetsky-Shapiro (2007)
- Robert Nisbet, John Elder, Gary Miner Handbook of Statistical Analysis & Data Mining Applications (Academic Press) page 35
- Gavin Harper, « Methods for mining HTS data », dans Drug Discov. Today, vol. 11, no 15-16, août 2006, p. 694–699 [texte intégral, lien PMID, lien DOI]
- Portail de l’informatique
- Portail des probabilités et des statistiques
Catégories :- Ingénierie décisionnelle
- Exploration de données
Wikimedia Foundation. 2010.