Classification et catégorisation de documents

La classification et catégorisation de documents est l'activité du Traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus.

Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique).

L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences.

Sommaire

1 Méthodologie
- 1.1 Méthodes algorithmiques
- 1.2 Mesures de performances

Méthodologie

Le déploiement d'un système de classification repose sur plusieurs étapes. On peut les schématiser ainsi :

Définition des classes (exemple : catégories "Sport", "Politique", "Diplomatie", ou encore Opinion "bonne/mauvaise")
Apprentissage des classes avec un système de classification en utilisant un corpus d'apprentissage
Évaluation des performances du système avec un corpus de test

Méthodes algorithmiques

Comme toute tâche de classification, la catégorisation de documents peut être réalisée en mode supervisé, ou non-supervisé. En mode supervisé, des éléments pré-définis seront utilisés pour classer un document : ce peut être un index, ou encore un dictionnaire de mots correspondant à une classe particulière et servant à pré-étiqueter les documents. En mode non-supervisé, c'est sur la phase d'apprentissage que reposera l'entraînement du classifieur, et ses performances ultérieures.

On utilise dans les systèmes de classification de document des algorithmes numériques. Les plus performants sont ceux à base de SVM ou encore de Boosting (qui reposent sur AdaBoost). D'autres méthodes de mesure de similarité (tel que la similarité cosine), ou encore probabiliste (les classifieurs bayésiens naïfs) peuvent également être mises en œuvre. On utilise dans les systèmes les plus performants une combinaison de plusieurs systèmes de classification départagés par une méthode de vote.

Mesures de performances

Métriques

On évalue les performances des systèmes de classification de documents avec des mesures telles que la précision et le rappel ou encore le F-Score.

Évaluation scientifique

Les chercheurs qui travaillent sur la classification de documents participent à des conférences nationales ou internationales, ainsi qu'à des campagnes d'évaluation. En France, la campagne DEFT permet chaque année à des équipes de chercheurs de mesurer les performances de classification sur des tâches variées (genre, catégories, opinions, segmentation).

En Amérique du Nord, la conférence la plus connue est Trec.

Outils et logiciels de classification

API

Outil de classification en ligne Démo et Api d'un classifieur pour le français.

Catégorie :

Classification

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Classification et catégorisation de documents de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

Classification et la catégorisation de documents — Classification et catégorisation de documents La classification et catégorisation de documents est l activité du TALN qui consiste à évaluer comment classer des ressources documentaires, généralement en provenance d un corpus. Cette… … Wikipédia en Français
Classification naïve bayesienne — La classification naïve bayésienne est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur … Wikipédia en Français
Classification — Une classification ou système de classification est un système organisé et hiérarchisé de catégorisation d « objets ». Suivant les objets considérés (les espèces vivantes, les maladies, les produits ou services, les étoiles, les… … Wikipédia en Français
classification — noun 1. the act of distributing things into classes or categories of the same type (Freq. 8) • Syn: ↑categorization, ↑categorisation, ↑compartmentalization, ↑compartmentalisation, ↑assortment • Derivationally related forms: ↑ … Useful english dictionary
Analyse sémantique latente — L’analyse sémantique latente (LSA, de l anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la… … Wikipédia en Français
Crime — Criminal redirects here. For other uses, see Crime (disambiguation). Justice and Divine Vengeance in pursuit of Crime 1808 oil on canvas … Wikipedia
Glossaire du data mining — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Analyse automatique — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle … Wikipédia en Français
TALN — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle … Wikipédia en Français
Traitement Automatique du Langage Naturel — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Classification et catégorisation de documents

Sommaire

Méthodologie

Méthodes algorithmiques

Mesures de performances

Métriques

Évaluation scientifique

Outils et logiciels de classification

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Classification et catégorisation de documents

Sommaire

Méthodologie

Méthodes algorithmiques

Mesures de performances

Métriques

Évaluation scientifique

Outils et logiciels de classification

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link