- Architecture generale pour le traitement de texte
-
Architecture générale pour le traitement de texte
L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l'université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers le monde par de nombreuses communautés (scientifiques, entreprises, enseignants, étudiants) pour le traitement du langage naturel dans différentes langues. La communauté de développeurs et de chercheurs autour de GATE est impliquée dans plusieurs projets de recherche européens comme TAO (Transitioning Applications to Ontologies Transitioning Applications to Ontologies) et SEKT (Semantically Enabled Knowledge Technology SEKT).
GATE offre une architecture, une interface de programmation d'applications (API) et un environnement de programmation graphique.
GATE comporte un système d'extraction d'information, ANNIE (A Nearly-New Information Extraction System, pour système quasi nouveau pour l'extraction d'information), lui-même formé de modules parmi lesquels un analyseur lexical, un gazetteer (?), un segmenteur de phrases (avec désambiguisation), un étiqueteur, un module d'extraction d'entités nommées et un module de détection de coréférences. Les langues pour lesquelles GATE est déjà mis en oeuvre sont l'anglais, l'espagnol, le chinois, l'arabe, le français, l'allemand, l'hindi, le Cebuano (?), le roumain, le russe. Il existe de nombreux plugins d'apprentissage automatique (Weka, RASP, MAXENT, SVM light), d'autres pour la construction d'ontologies (WordNet), pour l'interrogation de moteurs de recherche comme Google et Yahoo, pour l'étiquetage (Brill, TreeTagger), etc.
GATE accepte en entrée divers formats de texte comme le texte brut, HTML, XML, Microsoft Word (Doc), PDF, ainsi que divers formats de bases de données comme Java Serial (?), PostgreSQL, Lucene, Oracle, grâce à RDBMS et JDBC (?).
GATE utilise également le langage JAPE (Java Annotation Patterns Engine) pour bâtir des règles d'annotation de documents. On trouve aussi un debugger et des outils de comparaison de corpus et d'annotations.
Notes et références
- (en) Cet article est partiellement ou en totalité issu d’une traduction de l’article de Wikipédia en anglais intitulé « General Architecture for Text Engineering ».
Voir aussi
- Unstructured Information Management Architecture (UIMA) Unstructured Information Management Architecture
- Traitement automatique du langage (naturel)
- Portail de l’informatique
Catégories : Traitement de texte | Architecture logicielle
Wikimedia Foundation. 2010.