Generation automatique de textes

Generation automatique de textes

Génération automatique de textes

La génération automatique de texte (GAT) [1] est un domaine du traitement automatique des langues dont l'objectif est de générer une forme linguistique à partir de données brutes, non linguistiques [2], à partir d'une représentation formelle d'un contenu.

Les premiers systèmes « réels » de GAT datent du début des années 1970.

Sommaire

Description

La GAT s'oppose à la compréhension du langage naturel, puisque cette dernière part du texte pour en saisir le sens alors que le but de la GAT est de transformer du sens en texte. Ceci se traduit par une plus grande variété d'inputs différents, en fonction du domaine d'application (alors que du texte restera toujours du texte). De plus, contrairement à la compréhension, la génération n'a pas à se soucier (ou dans une moindre mesure) de l'ambiguïté, de la sous-spécification ou d'un input mal formé, qui sont les principales préoccupations en compréhension[3].

Le problème majeur de la GAT est le choix . Cet embarras du choix se pose à plusieurs niveaux[4] :

  • Contenu : Quoi dire ?
  • Choix lexicaux et syntaxiques : Comment le dire ?
  • Choix rhétoriques : Quand dire quoi ?
  • Présentation textuelle (ou orale) : Le dire !

Ces choix sont loin d'aller de soi. Prenons les deux phrases suivantes[5] :

  1. You can only stay until 4.
  2. You have to leave by 4.

Qu'on peut traduire approximativement par Vous ne pouvez rester que jusque 16 heures et Vous devez être parti pour 16 heures. Ces deux phrases partagent une synonymie sémantique évidente, mais elles diffèrent par une nuance communicative. La phrase (1) met l'emphase sur stay, (2) sur leave . Le choix lexical se fera en fonction du contexte : dans ce cas-ci, par exemple, si l'on souhaite porter l'attention sur l'activité en cours ou plutôt sur l'activité à venir.

Par conséquent, la GAT implique un grand nombre[6] de connaissances préalables[7] :

  • Connaissance du domaine couvert
  • Connaissance du langage spécifique de ce domaine
  • Connaissance rhétorique stratégique
  • Connaissance de l'ingénierie
  • Connaissance des habitudes et contraintes de l'utilisateur final

La formulation optimale devra tenir compte d'une série de facteurs, tels que la grammaticalité, l'absence d'ambiguïté, la cohérence, l'effet rhétorique souhaité. Mais également des contraintes sociales, discursives et pragmatiques. Les théories fonctionnelles du langage sont très utilisées en génération, car elles tentent d'intégrer ce type de facteurs[2].

Exemple d'architecture pour un système de génération (traduit de Vander Linden, 2000)

La figure ci-contre présente un exemple d'architecture pour la GAT. Les deux composants principaux de cette architecture sont le Planificateur de discours (Discourse Planner) et le Réalisateur de surface (Surface Realizer) . Le Planificateur sélectionne le contenu dans la base de connaissance et le structure en fonction de l'objectif communicatif. Ensuite, le Réalisateur de surface génère les phrases, selon les contraintes lexicales et syntaxiques qui lui sont implémentées, en suivant le plan spécifié par le Planificateur[8].

Formalismes théoriques

Les formalismes théoriques qui ont, à ce jour, eu la plus grande influence en GAT sont les suivants[9][10] :

  • SFG (systemic-functional grammars) , grammaires systémiques-fonctionnelles. Utilisées pour l'accent qu'elles mettent sur l'aspect fonctionnel , notamment via l'utilisation de traits fonctionnels . Exemples de systèmes : FUF[11] qui utilise le principe d'unification des traits ; KPML[12], système multilingue héritier de PENMAN .
  • TAG (tree-adjoining grammars) , grammaires d'arbres adjoints. Utilisées pour effectuer de la génération incrémentale .
  • MTM (meaning-text model) , modèle sens-texte de Mel'čuk.

Notes

  1. En anglais natural language generation (NLG) .
  2. a  et b Bateman & Zock (2003).
  3. Vander Linden (2000)
  4. Adapté de Bateman & Zock (2003) et de Vander Linden (2000).
  5. Exemple emprunté à McDonald (1991).
  6. Nombre qui varie bien sûr en fonction du domaine traité et de la précision recherchée.
  7. Adapté de Bateman & Zock (2003).
  8. Vander Linden (2000)
  9. D'après Bateman & Zock (2003).
  10. Pour un large aperçu de l'état de l'art, voir Bateman (2002).
  11. Elhadad (1992).
  12. Bateman (1997).

Références

  • Bateman, J. (1997). Enabling technology for multilingual natural language generation: the KPML development environment. Journal of Natural Language Engineering, 3(1), 15-55.
  • Bateman, J. et M. Zock (2003). Natural Language Generation. The Oxford Handbook of Computational Linguistics. R. Mitkov (éd.), Oxford University Press, New York, 284-304.
  • Elhadad, M. (1992). Using Argumentation to Control Lexical Choice: A Functional Unification-Based Approach. Ph.D. thesis, Department of Computer Science, Columbia University.
  • McDonald, D. (1991). On the place of words in the generation process. Natural Language Generation in Artificial Intelligence and Computational Linguistics. C. Paris, W. Swartout et W. Mann (éds.), Kluwer, Dordrecht, 229-247.
  • Vander Linden, K. (2000). Natural Language Generation. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. D. Jurafsky et J.H. Martin, Prentice Hall, Upper Saddle River, New Jersey, 763-798.

Article connexe

Liens externes

Ce document provient de « G%C3%A9n%C3%A9ration automatique de textes ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Generation automatique de textes de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • Génération Automatique De Textes — La génération automatique de texte (GAT) [1] est un domaine du traitement automatique des langues dont l objectif est de générer une forme linguistique à partir de données brutes, non linguistiques [2], à partir d une représentation formelle d un …   Wikipédia en Français

  • Génération automatique de textes — La génération automatique de texte (GAT) [1] est une sous discipline de la linguistique computationnelle qui vise à exprimer sous une forme textuelle, syntaxiquement et sémantiquement correcte[2], une représentation formelle d un contenu. Outre… …   Wikipédia en Français

  • Generation — Génération Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom …   Wikipédia en Français

  • Génération — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Génération », sur le Wiktionnaire (dictionnaire universel) Le mot génération désigne l action d… …   Wikipédia en Français

  • Vieille génération — Génération Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom …   Wikipédia en Français

  • AUTOMATIQUE — Automation, automatique, automatisation, automatismes, théorie des automates, cybernétique..., la variété même des vocables utilisés traduit la difficulté de définir précisément le contenu du substantif automatique . Nous choisirons ici d’appeler …   Encyclopédie Universelle

  • Analyse automatique — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement Automatique du Langage Naturel — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement automatique de la langue — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement automatique de la langue naturelle — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”