C4.5

C4.5

Algorithme C4.5

Page d'aide sur l'homonymie Pour les articles homonymes, voir C4.

L’algorithme C4.5 est un algorithme de classification supervisé, publié par Ross Quinlan. Il est basé sur l'algorithme ID3 auquel il apporte plusieurs améliorations.

A partir d'un échantillon d'apprentissage composé d'une variable objectif ou variable prédite Y et d'au moins une variable d'apprentissage ou variables prédictives \{x_1,x_2,\ldots,x_n\}=X, C4.5 produit un modèle de type arbre de décision. Ce modèle permet de prédire pour un individu i la valeur estimé \hat{y_{i}} de la variable objectif en fonction des valeurs prise par les variables "prédictives" xi. L'algorithme C4.5 se base sur une mesure de l'entropie dans l'échantillon d'apprentissage pour produire le modèle (graphe d'induction). L'avantage du recours à l'entropie est que l'algorithme travaille sur des données symboliques que ce soient des variables catégorielles (comme des couleurs) ou numériques discrètes (par exemple x_{i}\in \mathbb{N}). Le désavantage de la méthode est que pour préserver l'efficacité de l'apprentissage et la pertinence du modèle produit, les variables continues doivent être discrétisées avant la mise en œuvre de l'algorithme.

  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Algorithme C4.5 ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article C4.5 de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”