Fouille de textes

Fouille de textes: Exploration de données

Articles principaux

Exploration de données

Fouille de données spatiales

Fouille du web

Fouille de flots de données

Fouille de textes

Fouille d'images

Fouille audio

Articles annexes

Logiciels de fouille de données

Algorithme de fouille de flots de données

Aide

Glossaire du data mining

Contextes liés

Probabilités et statistiques

Information géographique

Imagerie numérique

Informatique

Linguistique

Internet

La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining.

C'est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithmes un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques.

Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et bien sûr l'informatique.

Sommaire

1 Mise en œuvre

2 Exemple : indexation de textes

3 Applications

3.1 Recherche d'information

3.2 Applications biomédicales

3.3 Filtrage des communications

3.4 Applications de sécurité

3.5 Gestion des connaissances

3.6 Analyse du sentiment

4 Disciplines connexes

5 Standards

6 Plateformes

6.1 Open source

6.2 Services Web

7 Notes

8 Voir aussi

Mise en œuvre

On peut distinguer deux étapes principales dans les traitements mis en place par la fouille de textes.

La première étape, l'analyse, consiste à reconnaître les mots, les phrases, leurs rôles grammaticaux, leurs relations et leur sens. Cette première étape est commune à tous les traitements. Une analyse sans interprétation n'a que peu d'intérêt et les deux sont dépendantes. C'est donc le rôle de la seconde étape d'interpréter cette analyse.

La seconde étape, l'interprétation de l'analyse, permet de sélectionner un texte parmi d'autres. Des exemples d'applications sont la classification de courriers en spam, c'est-à-dire les courriers non sollicités, ou non spam, l'application de requêtes dans un moteur de recherche de documents ou le résumé de texte qui sélectionne les phrases représentatives d'un texte voire les reformule.

Le critère de sélection peut être d'au moins deux types : la nouveauté et la similarité. Celui de la nouveauté d'une connaissance consiste à découvrir des relations, notamment des implications qui n'étaient pas explicites car indirectes ou entre deux éléments éloignés dans le texte. Celui de la similarité ou contradiction par rapport à un autre texte ou encore la réponse à une question spécifique consiste à découvrir des textes qui correspondent le plus à un ensemble de descripteurs dans la requête initiale. Les descripteurs sont par exemple les noms et verbes les plus fréquents d'un texte.

Exemple : indexation de textes

La fouille de texte peut consister en l'indexation d'un ensemble de textes par rapport aux mots qu'ils contiennent. On peut ensuite interroger l'index ainsi créé pour connaître les similarités entre une requête et notre liste de textes.

L'algorithme d'indexation se décrit comme suit :

On indexe le texte par rapport aux mots qui le composent

On effectue l'index inversé (on indexe les mots contenus par rapport aux textes les contenant)

Au moment de traiter une requête, on teste la similarité de cette requête avec notre index inversé

Cela nous retourne les textes similaires avec notre requête, et pour chaque texte, un rang

Les applications sont multiples : d'une simple indexation pour les moteurs de recherche à l'extraction de connaissances dans des documents non structurés.

D'autres techniques, comme la lemmatisation, permettent d'améliorer notre indexation, en perdant néanmoins une partie du sens.

Applications

Recherche d'information

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !

Les moteurs de recherche tels Google, Exalead ou Yahoo! sont des applications très connues de fouille de textes sur de grandes masses de données. Notons toutefois que les moteurs de recherche ne se basent pas uniquement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeurs les unes par rapport aux autres. L'algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique^[1].

Applications biomédicales

Un exemple d'application biomédicale de fouille de textes est PubGene, qui combine la fouille de textes et la visualization des resultats sous forme de réseaux graphiques^[2]. Un autre exemple d'utilisation d'ontologies avec la fouille de textes est GoPubMed.org^[3].

Filtrage des communications

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !

Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam. Il existe aussi des logiciels anti-spam qui s'interfacent entre le serveur de courrier et votre gestionnaire de courrier.

Applications de sécurité

Le système mondial d'interception des communications privées et publiques Echelon est un exemple d'utilisation militaire et économique de la fouille de textes.

En 2007, la division de lutte anti-criminelle d'Europol a acquis un système d'analyse afin de lutter plus efficacement contre le crime organisé. Ce système intègre parmi les technologies les plus avancées dans le domaine de la fouille et d'analyse de textes. Grâce à ce projet Europol a accompli des progrès très significatifs dans la poursuite de ces objectifs^[4].

Gestion des connaissances

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !

Les méthodes d'Intelligence économique ont pour objectif général d’apporter des informations à l’organisation.

Analyse du sentiment

Une utilisation particulière de traitement de l'information non structurée peut déboucher sur une analyse du sentiment. Par exemple, ces documents montrent-ils que mon produit sera bien vu par les utilisateurs ?

Disciplines connexes

La fouille de textes se distingue du traitement automatique du langage naturel par son approche générale, massive, pratique et algorithmique de par sa filiation avec la fouille de données. Son approche est moins linguistique. De plus, la fouille de textes ne s'intéresse pas au langage oral comme le fait la reconnaissance vocale.

La fouille de textes recoupe la recherche d'information pour la partie requête sur un moteur de recherche de documents. Par contre, la recherche d'information s'intéresse a priori plus aux types de requêtes possibles et aux indexations associées qu'à l'interprétation des textes.

Et pour information, car on s'éloigne alors du domaine de la fouille de textes, l'interprétation de l'analyse peut aussi générer un nouveau texte. Des exemples d'applications sont la correction des fautes d'orthographe, la traduction, le dialogue homme-machine ou l'imitation d'un style d'écriture.

Standards

Web sémantique : RDF, RDF Schema, OWL, etc.

Unstructured Information Management Architecture (en) développé par IBM

Text Encoding Initiative (en)

Open Language Archives Community (en)

ISLE Meta Data Initiative (en)

Open Text Mining Interface du journal Nature

Plateformes

Open source

Liste (non exhaustive) de plateforme de fouille de texte open-source :

NOOJ

UIMA de Apache

UniteX

Weblab-project d'OW2

Services Web

Outils de fouille de textes en service web Démo et Api d'outils d'analyse du français.

Notes

↑ Pour une explication du fonctionnement de ces algorithmes et la résolution de certains des pièges que les utilisateurs posent afin d'avoir un meilleur référencement, voir (en) Mining page farms and its application in link spam detection, Bin Zhou, mémoire de Master à l'Université Simon Fraser, mars 2007.

↑ Tor-Kristian Jenssen, Astrid Lægreid, Jan Komorowski1 & Eivind Hovig, « A literature network of human genes for high-throughput analysis of gene expression », dans Nature Genetics, vol. 28, 2001, p. 21–28 [texte intégral, lien PMID, lien DOI]

Summary: Daniel R. Masys, « Linking microarray data to the literature », dans Nature Genetics, vol. 28, 2001, p. 9–10 [lien PMID, lien DOI]

↑ GoPubMed transforme un moteur de recherche monotone en un véritable cerveau, publié le 18 décembre 2009

↑ "IALEIA-LEIU Annual Conference in Boston on April 9, 2008"

Voir aussi

Sujets connexes

Exploration de données

Traitement automatique du langage naturel

Recherche d'information

Linguistique calculatoire

Apprentissage artificiel

DEFT : Défi Francophone de Fouille de Textes

Liens externes

(fr) Aperçu du text-mining

(fr) Une introduction au text-mining

Portail de l’informatique

Portail de la linguistique

Catégories :
Exploration de données
Collecte de données

Exploration de données
Articles principaux
Exploration de données
Fouille de données spatiales
Fouille du web
Fouille de flots de données
Fouille de textes
Fouille d'images
Fouille audio
Articles annexes
Logiciels de fouille de données
Algorithme de fouille de flots de données
Aide
Glossaire du data mining
Contextes liés
Probabilités et statistiques
Information géographique
Imagerie numérique
Informatique
Linguistique
Internet

Contenu soumis à la licence CC-BY-SA. Source : Article Fouille de textes de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

Fouille De Textes — La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l anglicisme text mining. C… … Wikipédia en Français
Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… … Wikipédia en Français
Fouille du web — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille de données spatiales — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille de flots de données — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille de données — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction … Wikipédia en Français
Fouille audio — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille d'images — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille Archéologique En Égypte — Les fouilles archéologiques en Égypte sont menées par différentes équipes sous le contrôle du Conseil suprême des Antiquités égyptiennes. Sommaire 1 Équipes françaises 1.1 L Institut français d archéologie orientale (IFAO) … Wikipédia en Français
Fouille archeologique en Egypte — Fouille archéologique en Égypte Les fouilles archéologiques en Égypte sont menées par différentes équipes sous le contrôle du Conseil suprême des Antiquités égyptiennes. Sommaire 1 Équipes françaises 1.1 L Institut français d archéologie… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Fouille de textes

Sommaire

Mise en œuvre

Exemple : indexation de textes

Applications

Recherche d'information

Applications biomédicales

Filtrage des communications

Applications de sécurité

Gestion des connaissances

Analyse du sentiment

Disciplines connexes

Standards

Plateformes

Open source

Services Web

Notes

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Fouille de textes

Sommaire

Mise en œuvre

Exemple : indexation de textes

Applications

Recherche d'information

Applications biomédicales

Filtrage des communications

Applications de sécurité

Gestion des connaissances

Analyse du sentiment

Disciplines connexes

Standards

Plateformes

Open source

Services Web

Notes

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link