- Wordnet
-
WordNet
WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise (des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour).
Le système se présente sous la forme d'une base de données électronique qu'on peut télécharger (WordNet est distribué avec une licence spéciale très libérale, permettant de l'utiliser commercialement ou à des fins de recherche) sur un système local et y accéder à partir d'un programme à l'aide d'interfaces disponibles pour de nombreux langages de programmation.
Sommaire
Les synsets
La composante atomique sur laquelle repose le système entier est le synset (synonym set), un groupe de mots interchangeables, dénotant un sens ou un usage particulier. La version 1.7 de WordNet définit ainsi le nom commun anglais car à l'aide de cinq synsets :
- car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by an internal combustion engine; he needs a car to get to work)
- car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad; three cars had jumped the rails)
- car, gondola -- (car suspended from an airship and carrying personnel and cargo and power plant)
- car, elevator car -- (where passengers ride up and down; the car was on the top floor)
- cable car, car -- (a conveyance for passengers or freight on a cable railway; they took a cable car to the top of the mountain)
Chaque synset dénote une acception différente du mot car, décrite par une courte définition. Une occurrence particulière de ce mot dénotant par exemple le premier sens (le plus courant), dans le contexte d'une phrase ou d'un énoncé, serait ainsi caractérisée par le fait qu'on pourrait remplacer le mot polysémique par l'un ou l'autre des mots du synset sans altérer la signification de l'ensemble.
Les ontologies et les relations sémantiques
À l'instar d'un dictionnaire traditionnel, WordNet offre ainsi, pour chaque mot, une liste de synsets correspondant à toutes ses acceptions répertoriées. Mais les synsets ont également d'autres usages : ils peuvent représenter des concepts plus abstraits, de plus haut niveau que les mots et leurs sens, qu'on peut organiser sous forme d'ontologies. Une ontologie est un système de catégories permettant de classifier les éléments d'un univers. Les systèmes de catégorisation qui nous intéressent correspondent aux différentes relations sémantiques avec lesquelles il est possible de regrouper de manière cohérente les composantes d'un univers linguistique (les mots, les sens et les concepts par exemple).
La relation sémantique servant de critère pour l'agrégation d'un groupe de concepts définira le type de l'ontologie. WordNet répertorie ainsi une grande variété de relations sémantiques permettant d'organiser le sens des mots (et donc par extension les mots eux-mêmes) en des systèmes de catégories qu'on peut consulter de manière cohérente et uniforme. On pourra ainsi interroger le système quant aux hyperonymes d'un mot particulier. À partir par exemple du sens le plus commun du mot car (correspondant au synset 1. car, auto...) la relation d'hyperonymie définit un arbre de concepts de plus en plus généraux :
- car, auto, automobile, machine, motorcar
- motor vehicle, automotive vehicle
- vehicle
- conveyance, transport
- instrumentality, instrumentation
- artifact, artefact
- object, physical object
- entity, something
- object, physical object
- artifact, artefact
- instrumentality, instrumentation
- conveyance, transport
- vehicle
- motor vehicle, automotive vehicle
Dans cet exemple, il est clair que le dernier concept, "entity, something", est le plus général, le plus abstrait (il pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés).
On peut également interroger le système quant à la relation inverse de l'hypernymie, l'hyponymie. WordNet offre en fait une multitude d'autres ontologies, faisant usage de relations sémantiques plus spécialisées et restrictives. On peut ainsi interroger le système quant aux méronymes d'un mot ou d'un concept, les parties constitutives d'un objet (HAS-PART). Les méronymes associés au sens car, auto... du mot car sont :
- car, auto, automobile, machine, motorcar
- HAS PART: accelerator, accelerator pedal, gas pedal, gas, throttle, gun
- HAS PART: air bag
- HAS PART: auto accessory
- HAS PART: automobile engine
- HAS PART: automobile horn, car horn, motor horn, horn
- (...)
On peut aussi consulter le système quant à la relation inverse, l'holonymie, ou encore pour les relations de synonymie et d'antonymie.
Limites
WordNet est un système d'une étonnante ampleur : la version la plus récente (2.1) répertorie plus de 200 000 mots de classes ouvertes (pour lesquelles l'ajout d'éléments lexicaux est possible) ainsi que plus de 115 000 synsets. Son statut de projet « en développement » implique toutefois que certaines de ses composantes sont incomplètes. À chaque nouvelle version, le lexique s'enrichit de nouveaux mots, et des relations sémantiques sont ajoutées, modifiées, ou encore rendues désuètes. Si on examine par exemple l'ontologie générée par la relation d'hyperonymie, il est notable qu'elle est la plus complète dans son embranchement nominal (le lexique de WordNet est séparé en quatre grandes super-catégories lexicales: les noms, les verbes, les adjectifs et les adverbes. Les noms sont ainsi classés en un système de catégories complet et précis comprenant plusieurs niveaux d'imbrication (on retrouve notamment certaines sections de cette ontologie où la profondeur dépasse 10 niveaux). On retrouve en revanche un système de classification beaucoup moins élaboré pour les verbes, qui sont organisés en un système hiérarchique beaucoup plus « plat » (moins de niveaux d'imbrication), où on passe très rapidement d'un concept spécialisé (le sens operate, run du verbe running, par exemple) à un concept très général (control, command). À ce jour, il n'y a aucune catégorisation hiérarchique définie pour les embranchements des adjectifs et des adverbes. Ce déséquilibre potentiellement problématique se retrouve à l'intérieur même des super-catégories, où il est évidemment beaucoup plus apparent dans la branche nominale : certains mots sont ainsi liés à une grande chaîne de concepts finement graduée, tandis que d'autres sont très proche des concepts les plus généraux.
Les usages
WordNet jouit d'une énorme et grandissante popularité au sein de la communauté scientifique[réf. nécessaire], et joue également un rôle important dans plusieurs projets commerciaux. Sa richesse et sa précision en font un outil de choix, susceptible d'être mis à profit par une multitude de techniques et de théories diverses. Son utilisation fait en sorte de procurer aux algorithmes et applications une importante plate-forme de connaissances a priori du langage et du monde dans lequel il s'articule. Un exemple particulièrement représentatif et ingénieux de son utilisation est donné par les métriques heuristiques de "distance sémantique" entre les concepts d'une ontologie particulière, basées sur la distance à parcourir dans le graphe. Cette distance peut permettre de quantifier par exemple la similarité de deux concepts. Elle peut également servir à faire de la désambiguïsation.
WordNet est un logiciel libre et le package comprend outre les définitions des mots, l’ensemble des sources utiles pour l’accès aux données du dictionnaire.
Dans d'autres langues
Il existe des projets similaires pour d'autres langages. Pour le français, voir par exemple Wordnet Libre du Français (représente presque 25% du WordNet de Princeton)[réf. nécessaire]
Liens externes
- (en) Site officiel
Catégorie : Application de base de données
Wikimedia Foundation. 2010.