Entités nommées

Entités nommées

La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mot) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.

Sommaire

Principe

A titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC:

Henri a acheté 300 actions de la société AMD en 2006
<ENAMEX TYPE="PERSON">Henri</ENAMEX> a acheté <NUMEX TYPE="QUANTITY">300</NUMEX> actions de la société <ENAMEX TYPE="ORGANIZATION">AMD</ENAMEX> en <TIMEX TYPE="DATE">2006</TIMEX>.

Le texte de cet exemple est étiqueté avec des balises XML, respectant le standard d'étiquetage ENAMEX.

La plupart des systèmes d'étiquetages utilisent des grammaires formelles associées à des modèles statistiques, éventuellement complétées par des bases de données (listes de prénoms, de noms de villes ou de pays par exemple). Dans les grandes campagnes d'évaluation, les systèmes à bases de grammaires rédigées manuellement obtiennent les meilleurs résultats. L'inconvénient est que les systèmes de ce type requièrent parfois des mois de travail de rédaction[1].

Les systèmes statistiques actuels utilisent pour leur part une grande quantité de données pré-annotées pour apprendre les formes possibles des entités nommées. Il n'est plus nécessaire ici de rédiger de nombreuses règles à la main, mais d'étiqueter un corpus qui servira d'outil d'apprentissage. Ces systèmes sont donc eux aussi très coûteux en temps humain. Pour résoudre ce problème, récemment, des initiatives telles que DBpedia ou Yago cherchent à fournir des corpus sémantiques susceptibles d'aider à concevoir des outils d'étiquetage. Dans le même esprit, certaines ontologies sémantiques telles que NLGbAse sont largement orientées vers l'étiquetage.

Depuis 1998, l'étiquetage d'entités rencontre un intérêt croissant, notamment dans le domaines de la biologie moléculaire, la bio-informatique, la médecine, et la compréhension automatique de texte.

Normes d'étiquetage

Il n'existe pas à proprement parler de normes d'étiquetage. Les étiquettes sont largement orientées en fonction du besoin applicatif : on retrouvera généralement les classes d'étiquettes racines de type Personne, Organisation, Produit, Lieux, auxquelles s'ajoutent les étiquettes des durée et de quantité (time et amount).

Un second niveau hiérarchique est ensuite adjoint à ces entités racine : Organisation.Commerciale et Organisation.Non-profit par exemple, permettent d'affiner la description des entités.

Dans les campagnes récentes (Ester 2 et Automatic Content Extraction (ACE) on trouve 5 à 6 classes racines, et un total de 40 à 50 classes avec les sous-sections d'étiquetage. Certains systèmes de moteurs de question réponse (qui utilisent les entités nommées) peuvent recourir à plusieurs centaines de classes.

Évaluation

L'évaluation des systèmes est réalisée dans le cadre de campagnes scientifiques majoritairement Nord Américaines. On citera la Message Understanting Conference, la campagne Automatic Content Extraction (ACE) organisées par le NIST, et les campagnes DUC en Europe.

En France, la campagne de référence est la campagne scientifique ESTER: les éditions 1 et 2 de ces campagnes comportent des sections relatives aux entités nommées. Elles ont pour particularité de proposer un étiquetage en partie sur des sorties de systèmes de transcription audio en text (Broadcat News) bruitées et non préparées. La tâche est donc plus complexe puisqu'un certain nombre d'éléments (les majuscules des noms propres par exemple) n'existent plus et ne peuvent donc plus être utilisés pour repérer des entités.

Le principe de ces campagnes est de fournir un corpus d'entraînement pour adapter le système à la tâche d'étiquetage, et un corpus de test pour mesurer ses performances. Dans ces campagnes, les systèmes obtiennent régulièrement des scores F-Mesure (voir Précision et rappel) supérieurs à 90% (de l'ordre de 95% lors des campagnes récentes), alors que les annotateurs humains obtiennent des scores supérieurs ou proches de 97%.

On doit néanmoins considérer ce niveau de performance avec recul : les tâches d'évaluation proposées sont fermées et spécialisées. Les systèmes d'étiquetage automatisés et capables d'étiqueter avec fiabilité n'importe quel corpus avec un faible temps d'apprentissage et d'intervention humaine restent à inventer.

Dans des conditions ouvertes (n'importe quel document fourni à un étiqueteur sans apprentissage), les meilleurs systèmes sont rarement au-dessus de 50% de performances.

Voir aussi

Articles connexes

Liens externes

Campagnes d'évaluation

Outils et logiciels d'étiquetage libres

Logiciels
  • Stanford NER Logiciel d'étiquetage open source en JAVA à base de CRF pour l'anglais.
  • LIA_NE Logiciel d'étiquetage open source à base de CRF pour l'anglais et le français.
API
  • nlgbase Api et interfaces en ligne d'un étiqueteur d'entités nommées anglais, français et espagnol.
  • OpenCalais Api de l'étiqueteur en anglais de Thomson Reuters.
  • démo français Démo et Api de l'étiqueteur en français de CELI.

Notes et références

  1. Lire (fr) Évaluation des systèmes d'extraction d'information : une expérience sur le français, Thierry Poibeau, Document Thomson-CSF/LCR, pp. 4-5.

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Entités nommées de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

  • Entite de caractere — Entité de caractère Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme UCS. Elle permet d afficher des caractères indépendamment du jeu du document. On utilise généralement des entités dans …   Wikipédia en Français

  • Entité De Caractère — Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme UCS. Elle permet d afficher des caractères indépendamment du jeu du document. On utilise généralement des entités dans les documents HTML… …   Wikipédia en Français

  • Entité HTML — Entité de caractère Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme UCS. Elle permet d afficher des caractères indépendamment du jeu du document. On utilise généralement des entités dans …   Wikipédia en Français

  • Entité de caractère — Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme UCS. Elle permet d afficher des caractères indépendamment du jeu du document. On utilise généralement des entités dans les documents HTML… …   Wikipédia en Français

  • ESTER — Évaluation des systèmes de transcription enrichie d émissions radiophoniques ESTER est une campagne d évaluation scientifique francophone organisée depuis 2005. Ce projet, initialement connu sous le nom EVALDA / ESTER a été mis en place en france …   Wikipédia en Français

  • Évaluation des systèmes de transcription enrichie d'émissions radiophoniques — Pour les articles homonymes, voir Ester (homonymie). ESTER est une campagne d évaluation scientifique francophone organisée depuis 2005. Ce projet, initialement connu sous le nom EVALDA / ESTER a été mis en place en France par l AFCP (Association …   Wikipédia en Français

  • Systèmes de questions-réponses — Les Systèmes de réponse à des questions explorent de nouvelles méthodes de recherche d information exploitant des requêtes formulées à l aide du langage naturel et non plus en se basant uniquement sur des mots clés (comme c est le cas avec les… …   Wikipédia en Français

  • Genève (homonymie) — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sommaire 1 Nom de personne 2 Toponymie 3 …   Wikipédia en Français

  • Géographie du Bengale occidental — Localisation du Bengale occidental. La géographie du Bengale occidental est extrêmement variée, alternant entre les hauts sommets de l Himalaya au Nord, les zones côtières au Sud et des régions planes au centre constituées de plateaux et de… …   Wikipédia en Français

  • Tagmatica — Logo de Tagmatica Personnages clés Gil Francopoulo Forme juridique EURL …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”