Lexico (logiciel)

Lexico (logiciel)

Lexico est un logiciel d'analyse de données textuelles ou de statistique textuelle. Il a d'abord été conçu à l'ENS Fontenay-Saint-Cloud, au sein de l'Equipe "Lexicométrie et textes politiques" dirigée par Maurice Tournier, par le statisticien André Salem, alors ingénieur dans cette même équipe, avant d'être développé, toujours par André Salem, au sein du SYLED-CLA²T (Système Linguistiques Énonciation Discursivité - Centre d'Analyse Automatique des Textes) de l'Université de Paris 3. Dans ses premiers développements, le logiciel s'appelait Lexicloud, avant de prendre le nom de Lexico, suivi du numéro de la version: Lexico1, Lexico2... Il est actuellement toujours développé par le SYLED-CLA2T dont Salem fait partie.

Lexico est un logiciel qui permet d'explorer des corpus de textes de plus ou moins grande taille (même si les méthodes s'avèrent plus pertinentes sur des corpus de grandes tailles: des corpus de plusieurs millions de mots ont été explorés et analysés à l'aide de Lexico3).

Selon les méthodes de la statistique textuelle que Salem a par ailleurs contribué à formaliser et à populariser, le corpus est d'abord découpé en parties (procédure de partition) et en mots (en fait en formes graphiques) (procédure de segmentation). Tous les mots sont décomptés et classés dans un tableau (tableau lexical entier ou TLE) où les lignes représentent chacun des mots présents dans le corpus et les colonnes chacune des parties du corpus: à l'intersection d'une ligne et d'une colonne apparait donc un nombre indiquant la fréquence du mot (ligne) dans la partie (colonne). Le tableau synthétise donc le contenu lexical du corpus et de ses parties ainsi que la répartition de chacun des mots du corpus dans chacune des parties du corpus. Le logiciel permet alors la comparaison du vocabulaire de chacune des parties afin de déterminer quelles sont les parties les plus proches en fonction du vocabulaire qu'elles utilisent. La proximité des différentes parties du corpus entre elles est alors représentée sur un plan (méthode de l'analyse factorielle des correspondances). À partir de ces mêmes parties du corpus, le logiciel permet aussi de voir quels sont les mots (en fait les formes graphiques car les mots ne sont pas ramenés à leur racine [cf. lemmatisation]) caractéristiques (ou spécifiques) de chacune des parties par rapport au vocabulaire de l'ensemble du corpus. Lexico3 crée ainsi les listes des spécificités c'est-à-dire des mots statistiquement sur-utilisés par chacune des parties (méthodes des spécificités, qui permet aussi en creux de dresser la liste des spécificités négatives c'est-à-dire des mots sous-utilisés). De plus, à partir d'un mot préalablement choisi par l'utilisateur, Lexico3 permet aussi d'en observer la répartition des occurrences entre les différentes parties du corpus et d'en visualiser les évolutions dans son utilisation; il permet aussi d'en calculer les associations spécifiques c'est-à-dire les mots qui apparaissent plus fréquemment dans son entourage (phrase, paragraphe...) (méthodes des cooccurrences). Ces méthodes, parmi d'autres, font partie des modules statistiques de Lexico3. Le logiciel offre aussi des modules documentaires tels que les indexes hiérarchiques et alphabétiques des formes du corpus (la liste des mots du corpus classés par ordre de fréquence (ordre lexicométrique) ou par ordre alphabétique (ordre lexicographique)), les concordances...

En résumé, Lexico3 permet d'explorer un corpus de textes à travers le vocabulaire que ce corpus mobilise puis de comparer ce corpus, préalablement découpé en parties, en fonction du vocabulaire de ses parties. La constitution du corpus, le découpage en parties, le choix des méthodes à appliquer et des mots à analyser répondent souvent à des hypothèses de recherches ou à des interrogations préalablement formulées par l'utilisateur. Les segmentations en parties peuvent ainsi être le fait de locuteurs ou de périodes et les interrogations peuvent alors respectivement porter sur le vocabulaire mobilisé par différentes personnalités ou partis politiques ou sur l'évolution des usages d'un mot dans un journal pendant une période donnée. Lexico3, et plus généralement la statistique textuelle, est issu principalement de travaux en sciences du langage (analyse du discours, lexicologie, etc.) et en statistique (analyse de données, statistique multidimensionnelle, etc.). Il bénéficie bien entendu des possibilités offertes, notamment en termes de puissance de calcul, par l'informatique. Plus largement, et dans le cadre des recherches en analyse du discours, l'analyse automatique du discours et la statistique textuelle ont bénéficié des réflexions de chercheurs de nombreuses disciplines des sciences humaines et sociales (psychologie politique, psychologie sociale, histoire, sociologie du langage... voir: analyse du discours). Aujourd'hui Lexico3 et la statistique textuelle sont principalement utilisés par des historiens, des politologues et des linguistes et dans une moindre mesure par des psychologues, des sociologues et des littéraires.


Logiciels apparentés

Alceste (M. Reinert, Image, Toulouse)

Hyperbase (E. Brunet, BCL, Nice)

Lexicométrie (D. Labbé, IEP, Grenoble)

Spad-t (L. Lebart et al., ENST, Paris,)

Sphynx Lexica


Bibliographie

BENZECRI Jean-Paul et al., Pratique de l'analyse des données, tome 3. Linguistique & Lexicologie, Paris, Dunod, 1981, 565 p.

BENZECRI Jean-Paul, Histoire et préhistoire de l'analyse des données, Paris, Dunod, 1982.

MAINGUENEAU Dominique, L’analyse de discours. Introduction aux lectures d’archives, Paris, Hachette, 1991.

MULLER Charles, Principes et méthodes de statistique lexicale, Paris, Hachette, coll. "Hachette université. Langue, linguistique, communication", 1977, 205 p. (rééd. Paris, Champion, coll. "Unichamps", 1992, 205 p.)

LEBART Ludovic et SALEM André, Statistique textuelle, Paris, Dunod, 1994, 344 p.

SALEM André, Pratique des segments répétés. Essai de statistique textuelle, Paris, Klincksieck, 1987.

TOURNIER Maurice, "Lexicométrie", in CHARAUDEAU Patrick et MAINGUENEAU Dominique (dir.), Dictionnaire d’Analyse des discours, Paris, Seuil, 2002, p. 342-345. (dans ce même dictionnaire voir aussi les articles: "analyse du discours" [écrit par D. Maingueneau], "analyse automatique du discours" [écrit par P. Marchand], "cooccurrences", "spécificités" [écrits par M. Tournier])


Lien externe


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Lexico (logiciel) de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

  • Analyse Du Discours — Sommaire 1 Présentation générale 2 Analyse de discours et de contenu 2.1 Similitude 2.2 Distinction …   Wikipédia en Français

  • Analyse de discours — Analyse du discours Sommaire 1 Présentation générale 2 Analyse de discours et de contenu 2.1 Similitude 2.2 Distinction …   Wikipédia en Français

  • Analyse du discours — Sommaire 1 Présentation générale 2 Analyse de discours et de contenu 2.1 Similitude 2.2 Distinction …   Wikipédia en Français

  • Cordial — Cet article concerne l informatique. Pour les autres significations, voir Cordial (homonymie). Cordial …   Wikipédia en Français

  • English in computing — English is the lingua franca in computing and on the Internet, and the computing vocabulary of many languages is borrowed from English. Scientific vocabulary In many languages, Greek and Latin roots constitute an important part of the scientific… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”