- Matrice de confusion
-
La matrice de confusion, dans la terminologie de l'apprentissage supervisé, est un outil servant à mesurer la qualité d'un système de classification.
Chaque colonne de la matrice représente le nombre d'occurrences d'une classe estimée, tandis que chaque ligne représente le nombre d'occurrences d'une classe réelle (ou de référence). Les données utilisées pour chacun de ces groupes doivent être différentes.
Un des intérêts de la matrice de confusion est qu'elle montre rapidement si le système parvient à classifier correctement.
Sommaire
Exemple
On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam. Ainsi, la matrice suivante se lit comme suit :
- sur les 100 courriels normaux, 95 seront estimés comme tels et 5 seront estimés comme du spam ;
- sur les 100 spams, 3 seront estimés comme courriels normaux, et 97 seront estimés comme du spam ;
- sur les 98 courriels que le système a estimé comme normaux, 3 sont en fait du spam ;
- sur les 102 courriels que le système a estimé comme spam, 5 sont en fait des courriels normaux.
Classe estimée normal spam Classe réelle normal 95 5 spam 3 97 Cette notion peut bien sûr s'étendre à un nombre quelconque de classes. On peut bien sûr normaliser cette matrice pour en simplifier la lecture : dans ce cas, un système de classification sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.
Voir aussi
Articles connexes
Liens externes
- Définition sur le site du centre canadien de télédétection
- Portail des probabilités et des statistiques
Wikimedia Foundation. 2010.