Défi fouille de texte

Défi fouille de texte: DEFT ou Défi fouille de texte est une campagne d'évaluation scientifique francophone organisée depuis 2005 par des chercheurs du LRI (Laboratoire de Recherche en Informatique, Orsay) et du LIRMM (Laboratoire d'informatique, de robotique et de microélectronique de Montpellier), puis du LIMSI (Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur, CNRS) dès 2007 avec le soutien du consortium European Language Resources Association (ELDA/ELRA) (en).

L'intérêt d'une campagne d'évaluation est de permettre de confronter, sur un même corpus, des méthodes et logiciels d'équipes différentes. L'atelier d'évaluation DEFT propose chaque année depuis sa création des thèmes relevant de la fouille de textes en langue française. Ainsi les objectifs sont de fédérer les équipes de recherches francophones en fouille de textes et de mettre des corpus étiquetés à la disposition de la communauté scientifique.

Lors de cette conférence, des corpus de textes de provenances très variées (journal Le Monde, débats de l'Assemblée Nationale, sites internet éditoriaux, Wikipédia) sont assemblés et soumis aux laboratoires participants aux défi. Une thématique de recherche d'information particulière est proposée : reconnaître dans des phrases mélangées l'auteur d'un discours politique (campagne 2005), ou où encore détecter une opinion bonne, neutre ou mauvaise dans des documents (campagne 2007), en plus multi-langue (campagne 2009).

Reprenant le principe des conférences nord américaines (notamment TREC Novelty), cette campagne francophone réunit chaque année depuis ses débuts une dizaine de laboratoires participants qui proposent des solutions algorithmiques originales pour tenter de répondre à la problématique proposée.

Des mesures de performances (précision, rappel, F-score) sont réalisées sur les résultats fournis, et permettent de dégager un classement des systèmes proposées par les participants. Un classement jeune chercheurs est également proposé pour les contributions d'équipes composées de doctorants (ou docteurs de moins d'un an).

Les retombées de ce type de campagnes sont nombreuses dans le domaine de l'industrie du service et la recherche d'information (moteurs de recherche spécifiques, fouille de texte, classification automatique). Les corpus créés pour ces campagnes, lorsqu'ils sont libres de droits, sont librement téléchargeables depuis le portail [1] (certains après signature préalable d'un accord). L'édition 2008 a fait l'objet d'un package rassemblant les corpus, les scripts d'évaluation, les articles des participants et le site web, commercialisé par ELDA.

Sommaire

1 Campagnes

1.1 2005

1.2 2006

1.3 2007

1.4 2008

1.5 2009

1.6 2010

1.7 2011

2 Liens externes

Campagnes

2005

DEFT'05 (Dourdan) TALN Recital 2005, identification du locuteur d'un discours.

Classement :

1er Laboratoire Informatique d'Avignon (LIA) - UAPV;

2ème ENST;

3ème LORIA.

2006

DEFT'06 (Fribourg) SDN 2006, segmentation thématique de textes.

Classement :

1er LIMSI ;

2ème CLIPS-IMAG;

3ème Laboratoire GRDS.

2007

DEFT'07 (Grenoble) AFIA 2007, détection de l'opinion exprimée dans un texte, quatre corpus, deux à trois classes (positif, neutre, négatif) par corpus.

Classement :

1er Laboratoire Informatique d'Avignon (LIA) - UAPV, F-mesure = 0,602 ("à voir à lire"), 0,784 ("jeux vidéo"), 0,564 (relectures), 0,719 (débats) ;

2ème EPHE-CNRS et Universität Würzburg, F-mesure = 0,599 ("à voir à lire"), 0,699 ("jeux vidéo"), 0,507 (relectures), 0,681 (débats) ;

3ème Société CELI France, F-mesure = 0,513 ("à voir à lire"), 0,706 ("jeux vidéo"), 0,536 (relectures), 0,697 (débats).

Classement « jeunes chercheurs » :

1er LIP6, F-mesure = 0,542 ("à voir à lire"), 0,659 ("jeux vidéo"), 0,427 (relectures), 0,676 (débats) ;

2ème Laboratoire Informatique d'Avignon (LIA) - UAPV, F-mesure = 0,504 ("à voir à lire"), 0,457 ("jeux vidéo"), 0,469 (relectures), 0,553 (débats) ;

3ème Laboratoire Lattice, F-mesure = 0,392 ("à voir à lire"), 0,536 ("jeux vidéo"), 0,437 (relectures), 0,582 (débats).

2008

DEFT'08 (Avignon) JEP-TALN-RECITAL 2008, classification automatique de textes en genre et en thème.

Classement tâche 1 (identifier le genre et le thème d'un texte) :

Identification du genre (deux classes journal Le Monde/encyclopédie Wikipédia) :

1er Laboratoire Informatique d'Avignon - UAPV (équipe sénior), F-mesure = 0,981 ;

2ème Laboratoire Informatique d'Avignon - UAPV (équipe junior), F-mesure = 0,980 ;

3ème LIP6, F-mesure = 0,976.

Identification du thème (quatre classes art/économie/sports/télévision) :

1er LIP6, F-mesure = 0,894 ;

2ème Laboratoire Informatique d'Avignon - UAPV (équipe sénior), F-mesure = 0,883 ;

3ème Laboratoire Informatique d'Avignon - UAPV (équipe junior), F-mesure = 0,875.

Classement tâche 2 (identification du thème uniquement - cinq classes France/international/littérature/sciences/société - d'un texte) :

1er Laboratoire Informatique d'Avignon - UAPV (équipe junior), F-mesure = 0,879 ;

2ème LIP6, F-mesure = 0,876 ;

3ème Laboratoire Informatique d'Avignon - UAPV (équipe sénior), F-mesure = 0,872.

2009

DEFT'09 (Paris) 2009, Analyse multilingue d'opinion.

Classement tâche 1 (détection du caractère objectif/subjectif global d'un texte en corpus presse (Le Monde, The Financial Times, Il Sole 24 Ore) - deux classes : objectif/subjectif) :

Anglais (trois participants)

1er UCL (Université Catholique de Louvain), Belgique, F-mesure = 0,851 ;

2ème Laboratoire UKP (Ubiquitous Knowledge Processing lab), Darmstadt, Allemagne, F-mesure = 0,822 ;

3ème Laboratoire CHArt-EPHE/CNRS (Cognition Humaine et Artificielle), France, F-mesure = 0,676.

Français (cinq participants)

1er UCL (Université Catholique de Louvain), Belgique, F-mesure = 0,925 ;

2ème LINA (Laboratoire d'Informatique Nantes Atlantique), F-mesure = 0,850 ;

3ème EBSI (École de bibliothéconomie et des sciences de l'information), Montréal, Canada, F-mesure = 0,781.

Italien (un participant)

1er Laboratoire CHArt -EPHE/CNRS (Cognition Humaine et Artificielle), France, F-mesure = 0,716.

Classement tâche 2 (détection des passages subjectifs d'un texte en corpus presse et en corpus parlementaire - deux classes : objectif/subjectif), deux participants, constitution de la référence a posteriori par le recouvrement des soumissions des deux participants :

Corpus presse

1er LINA (Laboratoire d'Informatique Nantes Atlantique), F-mesure = 0,863 ;

2ème LIPN (Laboratoire d'Informatique Paris Nord), F-mesure = 0,777.

Corpus parlement européen

1er LINA (Laboratoire d'Informatique Nantes Atlantique), F-mesure = 0,909 ;

2ème LIPN (Laboratoire d'Informatique Paris Nord), F-mesure = 0,799.

Classement tâche 3 (détermination du parti politique européen d'appartenance d'un orateur en corpus parlementaire - cinq classes : Verts-ALE, GUE-NGL, PSE, ELDR, PPE-DE), un seul participant :

1er EBSI (École de bibliothéconomie et des sciences de l'information), Montréal, Canada, F-mesure = 0,339.

2010

DEFT'10 (Montréal) TALN-RECITAL 2010, Étude de la variation diachronique et diatopique du français : identification de la période et du lieu de publication d'articles de presse.

Classement tâche 1 (identification de la décennie de publication d'un article de presse, quinze classes : 1800/1810/1820 ... 1930/1940, six participants) :

1er : LIMSI (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur), F-mesure = 0,338 ;

2ème : Laboratoire Informatique d'Avignon - UAPV , F-mesure = 0,294 ;

3ème : CLUL (Centro de Linguística da Universidade de Lisboa), F-mesure = 0,183 ;

F-mesure moyenne = 0,193 - F-mesure médiane = 0,181.

Classement tâche 2 (identification du pays - deux classes : France/Québec - et du journal - quatre classes : L'Est Républicain/Le Monde/La Presse/Le Devoir - de parution d'un article de presse, cinq participants) :

1er : Laboratoire Informatique d'Avignon - UAPV

Piste 1 - identification du pays : F-mesure = 0,932 ;

Piste 2 - identification du journal : F-mesure = 0,741.

2ème : CLUL (Centro de Linguística da Universidade de Lisboa)

Piste 1 - identification du pays : F-mesure = 0,858 ;

Piste 2 - identification du journal : F-mesure = 0,630.

3ème : Lutin (Laboratoire Usage et Technologie de l'Information)

Piste 1 - identification du pays : F-mesure = 0,762 ;

Piste 2 - identification du journal : F-mesure = 0,424.

F-mesure moyenne = 0,767 (pays) - 0,489 (journaux) - F-mesure médiane = 0,792 (pays) - 0,462 (journaux).

2011

DEFT'11 (Montpellier) dans le cadre de la conférence TALN-RECITAL 2011, Étude de la variation diachronique en corpus de presse francophone et appariement d'un article scientifique avec son résumé.

Liens externes

[2] Site officiel

Portail sur les sciences

Portail de l’informatique

Catégories :
Événement en informatique
Campagne d'évaluation scientifique

Contenu soumis à la licence CC-BY-SA. Source : Article Défi fouille de texte de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… … Wikipédia en Français
Fouille De Textes — La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l anglicisme text mining. C… … Wikipédia en Français
Fouille de textes — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
DEFT — Défi fouille de texte DEFT ou Défi fouille de texte est une campagne d évaluation scientifique francophone organisée depuis 2005 par le LIMSI (Laboratoire d informatique pour la mécanique et les sciences de l ingénieur, CNRS) avec le soutien du… … Wikipédia en Français
Laboratoire informatique d'Avignon — LIA Siège Avignon Rattachement Université d Avignon et des Pays de Vaucluse CNRS UPRES 4128 Disciplines Informatique … Wikipédia en Français
Laboratoire Informatique d'Avignon — LIA Localisation Avignon Domaines Informatique Rattachement Université d Avignon et des Pays de Vaucluse Code UPRES 4129 Le Laboratoire Informatique d Avignon ou LIA est un laboratoire de recherche français en informatique sous la tutelle de l… … Wikipédia en Français
Text mining — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… … Wikipédia en Français
Textmining — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… … Wikipédia en Français
Synagogue de Doura Europos — 34° 44′ 51″ N 40° 43′ 38″ E / 34.7474, 40.7272 … Wikipédia en Français
Synagogue de Doura-Europos — 34° 44′ 51″ N 40° 43′ 38″ E / 34.7474, 40.7272 … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Défi fouille de texte

Sommaire

Campagnes

2005

2006

2007

2008

2009

2010

2011

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Défi fouille de texte

Sommaire

Campagnes

2005

2006

2007

2008

2009

2010

2011

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link