ISO 24613

ISO 24613

Lexical markup framework

Lexical Markup Framework (LMF ou cadre de balisage lexical, en français) est le standard de l'Organisation internationale de normalisation (plus spécifiquement au sein de l'ISO/TC37) pour les lexiques du traitement automatique des langues (TAL). L'objectif est la normalisation des principes et méthodes relatifs aux ressources langagières dans le contexte de la communication multilingue et de la diversité culturelle.

Sommaire

Objectifs de LMF

L'objectif est de fournir un modèle commun pour la création et l'utilisation des ressources langagières, de gérer l'échange des données entre ces ressources et de permettre la fusion d'un grand nombre de ressources électroniques afin de constituer un vaste réseau de descriptions linguistiques.

Les différents types d'instanciation de LMF peuvent inclure des ressources monolingues, bilingues aussi bien que multilingues. Les mêmes spécifications valent pour les petits et grands lexiques, pour les structures simples comme complexes, pour les ressources lexicales de l'écrit comme de l'oral. Les descriptions couvrent aussi bien la morphologie, la syntaxe, la sémantique que les notations multilingues. Les langues ciblées ne se limitent pas aux langues européennes mais couvrent toutes les langues naturelles. LMF est capable de réprésenter la plupart des lexiques, incluant les lexiques WordNet, EDR et PAROLE.

Historique du projet LMF

Dans le passé, la standardisation a été étudiée et implémentée dans des projets comme GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE et ISLE. Puis, les délégations de l'ISO/TC37 décidèrent de travailler sur les normes pour le TAL et les représentations lexicales. Le projet LMF commença durant l'été 2003 par une proposition de nouveau travail (i.e. New Work Item Proposal) de la part de la délégation Etat-Unienne sur les lexiques électroniques en général. Durant l'automne 2003, la délégation française avec l'aide de l'AFNOR, produisit une proposition technique spécifiquement destinée aux lexiques du TAL. Au début 2004, le comité ISO/TC37 décida de former un projet ISO commun avec Nicoletta Calzolari (Italie) en tant qu'animatrice, Gil Francopoulo (France) et Monte George (USA) en tant qu'éditeurs. La première étape a été de collecter les descriptions des dictionnaires les plus connus et ensuite, de forger une terminologie commune à ces différents lexiques. L'étape suivante a été de concevoir un modèle capable de représenter ces dictionnaires en détail. Les éditeurs et un groupe de 60 experts ont contribué à cette tâche pour élaborer un modèle consensuel. Une attention spécifique a été apportée à la morphologie afin de mettre en place des dispositifs puissants pour couvrir des langues qui sont réputées difficiles. 13 versions du document de spécification ont été écrites, distribuées (aux experts nommés par les délégations Nationales), commentées et discutées. Après 5 années de travail, incluant de nombreuses réunions physiques et quantité de courriels, les éditeurs sont arrivés à un modèle UML cohérent. En conclusion, LMF peut véritablement être considéré comme un état de l'art des lexiques du traitement automatique de la langue.

Situation actuelle

La dénomination ISO est 24613. Le document de spécification LMF a été publié officiellement le 17 novembre 2008.

LMF en tant que membre de la famille de standards du TC/37

Les standards de l'ISO/TC37 sont actuellement élaborés en tant que spécifications de haut niveau et traitent de la segmentation des mots (ISO 24614), des annotations (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF et ISO 24617-1 aka SemAF/Time), des structures de traits (ISO 24610), des conteneurs multimédia (ISO 24616 aka MLIF) et des lexiques (ISO 24613). Ces standards sont fondés sur des spécifications de bas niveau dédiées aux constantes telles que les catégories de données (révision de l'ISO 12620), les codes des langues (ISO 639), les codes des scripts (ISO 15924), les codes des pays (ISO 3166) et Unicode (ISO 10646).

Cette organisation à deux niveaux forme une famille cohérente de standards avec les règles suivantes :

  • la spécification de haut niveau fournit les éléments structurels qui sont décorés par les constantes standardisées,
  • les spécifications de bas niveau fournissent les constantes standardisées sous forme de métadonnées.

Les standards importants utilisés par LMF

Les constantes linguistiques comme /feminine/ ou /transitive/ ne sont pas définies au sein de LMF mais sont enregistrées dans le registre de catégories de données (Data Category Registry ou DCR, en anglais) qui est géré en tant que ressource globale par l'ISO/TC37 conformément à l'ISO/IEC 11179-3:2003 [1]. Et ces constantes sont utilisées pour décorer les éléments structurels de haut niveau.

La spécification LMF respecte les principes de modélisation de Unified Modeling Language (UML) tels que définis par l'Object Management Group (OMG). La structure est spécifiée au moyen de diagrammes de classe UML. Les exemples sont présentés par des diagrammes d'instance (ou objet) UML.

Ajoutons qu'une DTD XML figure en annexe du document LMF.

Structure du modèle

LMF comprend les composants suivants :

  • Le modèle noyau qui est l'épine dorsale d'une entrée lexicale,
  • les extensions qui décrivent des ressources lexicales spécifiques en réutilisant les composants du noyau avec éventuellement des réquisits additionnels.

Les extensions sont spécifiquement dédiées à la morphologie, aux MRD, à la syntaxe en TAL, à la sémantique en TAL, aux notations multilingues, aux patrons des paradigmes, aux patrons des expressions multimots et aux patrons d'expression des contraintes.

Un exemple simple

Dans l'exemple suivant, l'entrée lexicale est associée avec un lemme clergyman et deux formes fléchies clergyman et clergymen. Le codage de la langue est effectuée pour la totalité de la ressource lexicale. La valeur choisie est affectée pour la totalité du lexique comme présenté dans le diagramme d'instance UML suivant :

LMFMorphoClergymanInflected.svg

Les éléments Lexical Resource, Global Information, Lexicon, Lexical Entry, Lemma et Word Form definissent la structure du lexique. Ils sont spécifiés dans le document LMF. Au contraire, languageCoding, language, partOfSpeech, commonNoun, writtenForm, grammaticalNumber, singular, plural sont des catégories de données qui sont prises dans le registre des catégories de données. Ces marques décorent la structure. Les valeurs ISO 639-3, clergyman, clergymen sont des chaînes de caractères brutes. La valeur eng est prise dans la liste des langues définie par l'ISO 639-3.

Avec quelques informations additionelles comme dtdVersion et feat, la même information peut être exprimée par le fragment XML suivant :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Cet exemple est plutôt simple. LMF est capable de représenter des descriptions linguistiques plus complexes, mais dans ce cas, le balisage XML est plus complexe.

Liens externes

Sites web

Quelques communications scientifiques récentes au sujet de LMF

  • Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF)
  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
  • Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]

Quelques communications connexes

  • Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures [4]
Ce document provient de « Lexical markup framework ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article ISO 24613 de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • ISO 12620 — is a standard from ISO/TC 37 which defines a Data Category Registry, a registry for registering linguistic terms used in various fields of translation, computational linguistics and natural language processing and defining mappings both between… …   Wikipedia

  • ISO-LMF — Lexical markup framework Lexical Markup Framework (LMF ou cadre de balisage lexical, en français) est le standard de l Organisation internationale de normalisation (plus spécifiquement au sein de l ISO/TC37) pour les lexiques du traitement… …   Wikipédia en Français

  • ISO 4217 — (ИСО 4217) Коды для представления валют и фондов Codes for the representation of currencies and funds  (англ.) Codes pour la représentation des monnaies et types de fonds  (фр.) …   Википедия

  • ISO 9000 — ISO 9000  серия международных стандартов, описывающих требования к системе менеджмента качества организаций и предприятий. Серия стандартов ISO 9000 разработана Техническим комитетом 176 (ТК 176) Международной организации по стандартизации.… …   Википедия

  • ISO 3166-1 — ISO 3166 1  часть стандарта ISO 3166, содержащая коды названий стран и подчинённых территорий. Впервые опубликована в 1974 году. Определяет три разных кода для каждой страны: ISO 3166 1 alpha 2 (англ.)русск., двухбуквенная система …   Википедия

  • ISO 3166 — is a standard published by the International Organization for Standardization (ISO). It defines codes for the names of countries, dependent territories, special areas of geographical interest, and their principal subdivisions (e.g., provinces or… …   Wikipedia

  • ISO 8601 — Data elements and interchange formats – Information interchange – Representation of dates and times is an international standard covering the exchange of date and time related data. It was issued by the International Organization for… …   Wikipedia

  • ISO 8583 — ISO 8583  стандарт ISO, описывающий процесс передачи и формат финансовых сообщений (транзакций) систем, обрабатывающих данные банковских платёжных карт. Содержание 1 Введение 2 Индикатор типа сообщения 2.1 …   Википедия

  • ISO 22000 — ISO 22000  серия международных стандартов на Системы менеджмента в области безопасности пищевой продукции. Содержание 1 ISO 22000:2005 1.1 Назначение стандарта …   Википедия

  • ISO 216 — ISO 269 sizes (mm × mm) C Series C0 917 × 1297 C1 648 × 917 C2 458 × 648 C3 324 × 458 C4 229 × 324 C5 162 × 229 C6 114 × 162 …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”