Architecture générale pour le traitement de texte

Architecture générale pour le traitement de texte

L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l'université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers le monde par de nombreuses communautés (scientifiques, entreprises, enseignants, étudiants) pour le traitement du langage naturel dans différentes langues. La communauté de développeurs et de chercheurs autour de GATE est impliquée dans plusieurs projets de recherche européens comme TAO (Transitioning Applications to Ontologies Transitioning Applications to Ontologies (en)) et SEKT (Semantically Enabled Knowledge Technology SEKT (en)).

GATE offre une architecture, une interface de programmation d'applications (API) et un environnement de programmation graphique.

GATE comporte un système d'extraction d'information, ANNIE (A Nearly-New Information Extraction System, pour système quasi nouveau pour l'extraction d'information), lui-même formé de modules parmi lesquels un analyseur lexical, une base de toponymes (gazetteer), un analyseur syntaxique (segmentation de phrases, avec désambiguisation), un étiqueteur, un module d'extraction d'entités nommées et un module de détection de coréférences. Les langues pour lesquelles GATE est déjà mis en œuvre sont l'anglais, l'espagnol, le chinois, l'arabe, le français, l'allemand, l'hindi, le cebuano, le roumain, le russe. Il existe de nombreux modules d'extension d'apprentissage automatique (Weka, RASP, MAXENT, SVM light), d'autres pour la construction d'ontologies (WordNet), pour l'interrogation de moteurs de recherche comme Google et Yahoo, pour l'étiquetage (Brill, TreeTagger), etc.

GATE accepte en entrée divers formats de texte comme le texte brut, HTML, XML, Microsoft Word (Doc), PDF, ainsi que divers formats de bases de données comme Java Serial (?), PostgreSQL, Lucene, Oracle, grâce à RDBMS et au langage de programmation JDBC (Java DataBase Connectivity).

GATE utilise également le langage JAPE (Java Annotation Patterns Engine) pour bâtir des règles d'annotation de documents. On trouve aussi un débogueur et des outils de comparaison de corpus et d'annotations.

Notes et références

Voir aussi


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Architecture générale pour le traitement de texte de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

  • Architecture Générale Pour Le Traitement De Texte — L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers… …   Wikipédia en Français

  • Architecture generale pour le traitement de texte — Architecture générale pour le traitement de texte L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à… …   Wikipédia en Français

  • ARCHITECTURE - Architecture, sciences et techniques — Comme production matérielle, mais aussi comme art investi d’une finalité expressive, l’architecture entretient de nombreux rapports avec les sciences et les techniques. De tels rapports peuvent être rangés sous deux rubriques. L’architecture fait …   Encyclopédie Universelle

  • Architecture palladienne — Palladianisme Une villa avec un portique superposé, venant de la quatrième section du livre Les Quatre Livres de l architecture par Andrea Palladio. Le palladianisme est le néologisme qui désigne un style architectural originaire de Vénétie lancé …   Wikipédia en Français

  • Gate — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Gate », sur le Wiktionnaire (dictionnaire universel) Gate est un mot anglais qui peut se traduire par… …   Wikipédia en Français

  • Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Société civile pour la location du centre commercial régional de Créteil — Créteil Soleil 48°46′48″N 2°27′24″E / 48.78, 2.45667 …   Wikipédia en Français

  • JAPON - Les arts — Issu, comme tous les arts de l’Extrême Orient, de la Chine qui lui a fourni techniques et modèles, l’art japonais se distingue, cependant, par l’originalité de ses créations. Son développement est scandé de périodes d’absorption, où se manifeste… …   Encyclopédie Universelle

  • Intelligence économique — Diagramme sur le Système d Intelligence Compétitive et Technologique. L’intelligence économique est l ensemble des activités coordonnées de collecte, de traitement (d analyse) et de diffusion de l information utile aux décideurs économiques, en… …   Wikipédia en Français

  • Nantes — Pour les articles homonymes, voir Nantes (homonymie). 47° 13′ 05″ N 1° 33′ 10″ W …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”