Résumé automatique de texte

Résumé automatique de texte

Un résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document[1]. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence. Bien comprendre et gérer les phénomènes de redondance, cohérence et cohésion est fondamental afin de produire des résumés automatiques humainement crédibles.

Sommaire

Extraction, abstraction et compression

Il existe trois approches principales pour générer des résumés de texte : par abstraction, par extraction et par compression de phrases. La première approche vise à rédiger un résumé en générant des phrases pas forcément contenues dans l'original. La réécriture ou paraphrase est aussi utilisé. Cette approche est la plus difficile. La deuxième méthode se limite à extraire des phrases complètes censées être les plus pertinentes du document et à les concaténer de façon à produire un extrait. Cette dernière approche est de loin celle qui est la plus utilisée dans les systèmes réels. Une troisième possibilité consiste à générer un résumé par compression de phrases : les phrases ainsi extraites sont ensuite compressées afin d'éliminer l'information superflue.

Types de résumés

Il y a plusieurs types de résumés selon leur but : mono-document, multi-document, guidé (personnalisé) ou non (générique) par une requête utilisateur, entre autres[2]. Dernièrement des résumés autres que textuelles ont vu leur jour. Ainsi des résumés audio et vidéo font partie des recherches actuelles. Des résumés dans des domaines très spécialisés comme la médecine ou la chimie organique posent des vraies défis aux systèmes de traitement automatique de la langue naturelle.

Un sujet connexe est l'extraction de sentiments à partir d'un texte. On part de l'hypothèse que pour un texte donné, il est non seulement possible de déterminer s'il contient une opinion (i.e. une vue subjective) mais également de déterminer si cette opinion est positive ou négative. Un exemple immédiat d'application est la recherche de critiques sur un film, où elles seraient organisées automatiquement en critiques positives et négatives. On peut également penser à un classement de produits du commerce en fonction des sentiments donnés en retour par les commentaires. Une première approche naïve fait appel aux mots clés du texte : en se basant sur un dictionnaire d'adjectifs, on atteindrait une précision de 62% sur les sentiments exprimés dans un texte, pouvant aller jusqu'à 68% si on prend en compte noms, verbes, etc. D'autres approches utilisent des arbres de décision pour classer le sujet (jusqu'à 73% de précision) ou la rhétorique utilisée dans le texte[3],[4].

Évaluation

Évaluer les résumés automatiques est une tâche difficile à laquelle la communauté a des réponses partielles. En effet, une évaluation automatique demande de disposer d'un système capable de générer des résumés de qualité humaine, afin qu'il soit capable de juger. Des solutions pragmatiques peuvent être envisagées. Un des objectifs des conférences NIST (Document Understanding Conferences DUC devenu Text Analysis Conference (TAC) ), consiste a utiliser la métrique ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[5],[6]. Cette métrique mesure la couverture entre les N-gramme produits automatiquement par une machine à ceux contenus dans des résumés écrits par un certain nombre de juges humains. Un haut niveau en ROUGE implique empiriquement un niveau de corrélation avec les résumés humains.

Notes

  1. Ref a ajouter
  2. Citer
  3. Ce paragraphe provient d'une présentation de Maite Taboada à l'Université Simon Fraser. Voir (en) Not All Words are Created Equal: Extracting Semantic Orientation as a Function of Adjective Relevance, K. Voll et M. Taboada, Proceedings of the 20th Australian Joint Conference on Artificial Intelligence, décembre 2007, pp. 337-346.
  4. (en) Thumbs up? Sentiment Classification using Machine Learning Techniques, Bo Pang, Lillian Lee et Shivakumar Vaithyanathan, Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): pp. 79–86, 2002.
  5. (en) ROUGE
  6. (en) ROUGE: A Package for Automatic Evaluation of Summaries, Chin-Yew Lin, Proceedings of the ACL-04 Workshop, 2004. Publié par l'Association for Computational Linguistics, pp. 74--81

Bibliographie

  • Endres-Niggemeyer, Brigitte (1998): Summarizing Information (ISBN 3-540-63735-4)
  • Marcu, Daniel (2000): The Theory and Practice of Discourse Parsing and Summarization (ISBN 0-262-13372-5)
  • Mani, Inderjeet (2001): Automatic Summarization (ISBN 1-58811-060-5)
  • (en) Abderrafih Lehmam, Essential summarizer: innovative automatic text summarization software in twenty languages, 2010  [1], Published in: Proceeding RIAO '10 Adaptivity, Personalization and Fusion of Heterogeneous Information LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE Paris, France, France ©2010

Voir aussi

Liens externes


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Résumé automatique de texte de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

  • Résumé automatique — de texte Un résumé est une forme de compression textuelle avec perte d information. Un résumé automatique de texte est une version condensée d un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus… …   Wikipédia en Français

  • Traitement automatique du langage naturel — Le Traitement automatique du langage naturel ou de la langue naturelle (abr. TALN) ou des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle, qui concerne l application de… …   Wikipédia en Français

  • Analyse automatique — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement Automatique du Langage Naturel — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement automatique de la langue — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement automatique de la langue naturelle — Traitement automatique des langues Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle …   Wikipédia en Français

  • Traitement automatique des langues — Le Traitement automatique du langage naturel (abr. TALN) ou Traitement automatique des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle, qui concerne l application de… …   Wikipédia en Français

  • Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Défi fouille de texte — DEFT ou Défi fouille de texte est une campagne d évaluation scientifique francophone organisée depuis 2005 par des chercheurs du LRI (Laboratoire de Recherche en Informatique, Orsay) et du LIRMM (Laboratoire d informatique, de robotique et de… …   Wikipédia en Français

  • Laboratoire informatique d'Avignon — LIA Siège Avignon Rattachement Université d Avignon et des Pays de Vaucluse CNRS UPRES 4128 Disciplines Informatique …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”