- Classement alphabetique
-
Classement alphabétique
Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique.
- L'ordre alphabétique (des lettres), comme son nom l'indique, ordonne conventionnellement un alphabet, par exemple dans un but d'enseignement méthodique de celui-ci. Il ne concerne donc que des signes. Des documents grecs et hébreux témoignent qu'il était utilisé il y a plus de deux millénaires; mais pas cependant dès l'invention de l'écriture : tous les inventaires de bibliothèque sumériens découverts à ce jour, par exemple, constituent des listes en vrac de titres, non indexées même en fonction de leur seule première lettre (et, incidemment, pas davantage par thème, ce qui montre qu'aucune de ces opérations n'allait de soi).
- Le classement alphabétique (de mots) constitue une opération bien plus complexe : il ne s'agit plus d'ordonner une fois pour toutes un nombre fixe de signes, mais une quantité de mots de longueurs diverses, pouvant comprendre plusieurs milliers d'éléments, voire davantage. Bien qu'on en ait vu quelques tentatives sous diverses latitudes et à diverses époques (voir Knuth, Sorting and Searching, Addison-Wesley, 1973), il ne s'imposa qu'à partir d'un dictionnaire dû à Jean de Gènes nommé le Catholicon et édité en 1286. Cet ordre alphabétique resta longtemps également une curiosité purement européenne : jusqu'au milieu du XXe siècle, les dictionnaires non-occidentaux demeurèrent classés par thèmes ou par racines grammaticales.
Le classement alphabétique révolutionna l'activité commerciale en Occident. Il devint possible avec lui de travailler avec des listes de plusieurs centaines – voire milliers – de noms de clients, articles, fournisseurs, villes, sous-traitants, créanciers, débiteurs et correspondants divers sans plus de difficulté de recherche que sur une liste désordonnée d'une vingtaine de noms. Son efficacité allait être multipliée avec l'invention de l'imprimerie vers 1450, débouchant à terme sur la multiplication d'annuaires, lexiques et dictionnaires - de consultation désormais rapide quelle que soit leur taille. À la classique table des matières pourra s'ajouter grâce à lui un outil de recherche nouveau et très efficace : l'index.
Sommaire
Histoire
Chronologie
- -300, diverses îles de la mer Égée : listes indexées selon leur seule première lettre.
- 135 : papyrus grecs comprenant des listes de contribuables indexées selon leurs deux premières lettres. Apollonius le sophiste utilise occasionnellement cette indexation à deux lettres et parfois même davantage dans ses Concordances sur les poèmes d'Homère.
- 630 : Étymologies (Etymologiæ) de Saint Isidore utilise de façon systématique les indexations à une et deux lettres. Par cette organisation qui annonce presque de façon lointaine celle des futures bases de données (voir aussi : Trie), l'index se révèle multiplicateur d'efficacité : l'ouvrage comporte en effet 20 livres et 448 chapitres, et on accède pourtant quasi directement à l'information recherchée.
- 1286 : Jean de Gènes publie le Catholicon, précédé d'une préface expliquant longuement son système de classement et exhortant le lecteur à faire l'effort, malgré sa difficulté, de l'apprendre. Le passage de simples index de deux lettres à un classement faisant intervenir autant de lettres que nécessaire, et pas toujours le même nombre, demande en effet un important effort d'abstraction, d'autant que la méthode de tri diffère totalement de celle, alors mieux connue, des nombres.
- du XIVe au XVIe siècle : le classement alphabétique s'enseigne peu à peu partout en Europe. Fait significatif : il l'est essentiellement à des adultes possédant déjà une bonne formation, parfois universitaire.
- 1604 : premier dictionnaire anglais utilisant l'ordre alphabétique, le Cawdrey : A table alphabeticall of hard usual English words. Donald Knuth fait remarquer que certains mots n'y apparaissent pas exactement à leur place, mais que ces erreurs sont plus fréquentes au début de l'ouvrage que dans la suite de celui-ci, ce qui suggère que Robert Cawdrey assimilait lui-même peu à peu le système au fur et à mesure de son travail.
Fait notable : un dictionnaire arabe utilisant lui-même l'ordre alphabétique fut retrouvé, mais cette expérience n'eut en fin de compte pas de lendemain.
Origines
Les documents archéologiques semblent indiquer que les lettres des différents alphabets ont toujours été enseignées dans un même ordre – propre à chaque alphabet –, peut-être pour des raisons mnémotechniques. L'ordre des lettres établi par l'alphabet linéaire et l'alphabet phénicien, par exemple, a été plus ou moins conservé par les alphabets qui en sont dérivés.
L'ordre alphabétique appliqué au classement des mots est un tout autre concept et son utilisation n'est pas évidente, même lorsque le classement des lettres d'un alphabet fait l'objet d'un consensus.
Les écritures alphabétiques, syllabiques ou alphasyllabiques du monde dotées d'une histoire ancienne ont toutes établi un classement de leurs graphèmes, tâche facilitée par le nombre réduit de signes. Les écritures logographiques, quant à elles, devant le nombre important de caractères, n'ont pu suivre de règles simples. On trouve ainsi de nombreuses manières de classer les sinogrammes (cf. Dictionnaires de sinogrammes).
Ordre levantin
Le premier ordre alphabétique, déjà très proche du nôtre, est attesté à la fin de l'âge du bronze, avec le premier alphabet sémitique, celui d'Ougarit, un abjad cunéiforme. Il s'est poursuivi dans un autre abjad sans lien pour la forme mais lié linguistiquement, celui du phénicien, d'où sont issus les principaux alphabets actuels : alphabet grec et ses avatars (alphabet gotique, cyrillique, latin en passant par l'étrusque), mais aussi alphabet araméen, syriaque, hébreu, arabe, etc.
C'est celui qui, à la base de la gematria, est désigné par le terme d'« ordre levantin », dans lequel on retrouve, souvent dissimulé par les évolutions propres à l'histoire de chaque alphabet et aux modifications qu'on a dû leur apporter pour les rendre aptes à noter la langue voulue (modifications « aggravées » par le fait que les alphabets ont pu se transmettre via des langues très éloignées phonétiquement), le classement traditionnel (notation API) /ʔ/ (coup de glotte, remplacé par /a/ à partir du grec), /b/, /g/ (devenu /k/ noté par c dès le latin), /d/, /h/ (devenu /e/ à partir du grec), /w/ (devenu /f/ à partir du latin, issu du digamma grec), /z/ (remplacé par /g/ puis rejeté en fin d'alphabet à partir du latin), etc.
Certains alphabets ont même été entièrement réordonnés pour des raison graphiques afin d'en faciliter l'apprentissage, comme l'alphabet arabe (cf. aussi Histoire de l'alphabet arabe et Numération arabe, l'ordre originel réapparaissant dans la numération). Pour ces écritures, cependant, le choix d'un ordre alphabétique cohérent est toujours resté une priorité. Ainsi, l'insertion de la nouvelle lettre G /g/ latine ─ issue d'un C /k/ modifié (lettre provenant elle-même du Γ /g/ gamma grec prononcé /k/ par les Étrusques) ─ s'est faite sans altérer l'ordre alphabétique : la nouvelle lettre a en effet remplacé un Z inutile en latin, lequel, cependant, a été réintroduit plus tard à la fin de l'alphabet quand il s'est avéré nécessaire de noter des mots grecs, à la suite du Y, autre lettre reprise aux Grecs.
Ordre sudarabique
Outre l'ordre levantin, il en existe un autre, pour les écritures dérivées de l'alphabet linéaire, dit ordre sudarabique, lui aussi ancien mais plus limité dans ses représentations. Attesté en sudarabique (et dans quelques tablettes en ougaritique trouvées hors d'Ougarit, comme celle de Beth Šemeš), il s'est transmis au syllabaire éthiopien, qui en découle.
Ses premiers rangs sont les suivants (en transcription des langues sémitiques) : h, l, ḥ, m, q, w, š, r, etc.
Ordre indien
En Inde, et à la suite dans tous les alphasyllabaires dérivés de la brāhmī (devanāgarī, et autres écritures de l'Inde, alphabet tibétain, thaï, etc.) ou qui en sont inspirés (comme, plus lointainement et après de nombreuses réfections, les kanas japonais), le classement est entièrement revu : il se fait de manière rationnelle, les graphèmes étant classés en rangées selon leur point d'articulation, d'abord les occlusives notant des phonèmes prononcés au fond de la gorge en premier puis en remontant petit à petit vers les articulations labiales puis, enfin, en dernier rang des les sonantes, les sifflantes et les dernières fricatives. Dans chaque rangée, on trouve d'abord la consonne sourde puis la sourde aspirée, la sonore, la sonore aspirée puis la nasale. Les voyelles sont classées à part, souvent en tête de liste. Il est évident que, de la même manière que pour l'ordre levantin, de nombreuses réorganisations ont pris place, selon les langues.
Voici par exemple les premiers rangs consonantiques de la devanāgarī (en transcription des langues indiennes) : k, kh, g, gh, ṅ, c, ch, j, jh, ñ, ṭ, ṭh, ḍ, ḍh, ṇ, etc.
Alphabet grec et latin
Il est possible que la nécessité d'un ordre alphabétique n'apparaisse que lorsque l'on a quelque chose à ordonner. Il semblerait, par exemple, que l'ordre alphabétique ait commencé à être employé pour les alphabets latin et grec par les savants d'Alexandrie[1]. Par exemple, le « Recueil des mots qui se trouvent dans Hippocrate », attribué à Érotianus, utilise l'ordre alphabétique mais pas cependant de manière rigoureuse.
Concernant l'Europe, l'ordre qui a semble-t-il prévalu jusqu'au milieu du Moyen Âge était le classement thématique, probablement pour des raisons religieuses (la Bible utilise un tel système). L'usage de l'ordre alphabétique, progressif, est peut-être lié à une modification de la façon de concevoir et d'organiser le monde à cette époque[2]. L'invention de l'imprimerie donnera finalement un coup d'accélérateur à un tel usage.
De fait, les dictionnaires et les lexiques ont vraisemblablement été les premiers ouvrages en alphabet latin à utiliser l'ordre alphabétique. Donald Knuth[3] mentionne un dictionnaire datant du début de la renaissance, indiquant que l'ouvrage contient beaucoup d'erreurs de classement des mots à son début et bien moins à la fin, ce qui suggère que l'auteur a lui-même dû se familiariser lentement avec son propre système.
Principes
Le principe fondamental consiste à comparer deux mots, caractère par caractère.
Si les n premiers caractères sont identiques, on prend le suivant. Si le n-ième caractère diffère, l'ordre est établi. Au-delà de la dernière lettre de l'un des deux mots, le mot le plus court est considéré comme venant en premier.
Il convient donc pour classer correctement de connaître :
- l'ordre dans lequel sont classées les lettres d'un alphabet donné, ordre qui dépend de règles historiques différant d'une langue à l'autre même si elles utilisent un alphabet très proche ;
- l'existence de graphèmes complexes (ligatures, digrammes) à prendre en compte (dans une langue, tel digramme comptera pour une lettre et aura son rang, dans telle autre, non).
- les exceptions et la justification de celles-ci.
- Il est clair qu'il ne faudra pas classer naïvement Louis IX avant Louis VIII, même si I précède alphabétiquement V.
- Moins évidente est la règle qu'un ouvrage français se nommant XVe siècle va à la lettre Q et non X, et que son équivalent italien sera classé non à Quinzième siècle, mais à Quattrocento !
- Les règles de classement peuvent varier selon le domaine considéré : un docteur Martin sera listé dans un annuaire à la lettre M, mais en filmographie le Docteur Mabuse comme le Docteur Jivago seront bien à la lettre D, le terme de docteur faisant partie du nom du film lui-même.
Technique des bibliothécaires
Un classement manuel est une opération dont le temps en fonction du nombre d'ouvrages est en O(N²). Comme dans une bibliothèque moyenne l'ordre de grandeur de N va typiquement de 10 000 à 100 000, les bibliothécaires associent à chaque ouvrage un code de 3 lettres (qui sont en général les trois premières de son titre), et n'ont ainsi à trier entre eux que les livres de trigramme identique, qui se réduisent pour la plupart à moins d'une centaine. La rapidité de l'opération en est ainsi considérablement augmentée, même s'il faut traiter un ou deux milliers de trigrammes.
Cette opération permet aussi de reclasser en permanence les livres pendant les heures de fonctionnement de la bibliothèque, y compris par plusieurs personnes en même temps, trigramme par trigramme à la fois.
Exemples
- ami, balance, butin, câlin
La ligature œ (ou e dans l'o) est à considérer en français comme un o suivi d'un e (deux caractères) pour le classement alphabétique, alors que oe et œ ont deux rôles entièrement distincts en français :
- moelle, mœurs
- coefficient, cœur, coexistence
En première analyse, les caractères accentués, de même que les majuscules, ont le même rang alphabétique que le caractère fondamental :
- Marx, marxisme
- règlement, réglementaire
- rebelle, rébellion
Si plusieurs mots ont le même rang alphabétique, on tâche de les distinguer entre eux grâce aux majuscules et aux accents (pour le e, on a l'ordre e, é, è, ê, ë) :
- calvados, Calvados
- légitime, légitimé
- pécher, pêcher
Ce double classement (sans puis avec les accents) donne au final :
- légitime, légitimé, légitimes, légitimés
La comparaison des caractères accentués se fait alors à l'envers en commençant par la dernière lettre :
- élève, élevé
Avantages et inconvénients
Avantages
Le classement alphabétique offre une méthode systématique de recherche d'un mot dans une énumération. Ceci est particulièrement adapté aux dictionnaires, classements de noms ou de catégories, annuaires, index et répertoires.
Inconvénients
Un reproche possible au classement alphabétique est qu'il ne tient pas compte du sens des mots ou expressions qu'il range. Des notions ou des éléments sans point commun se retrouvent juxtaposés, et au contraire, des éléments concernant un même sujet se retrouvent éparpillés. Par exemple, en ouvrant au hasard un dictionnaire, on trouve ronin, ronron et Ronsard. Si l'on avait souhaité une proximité de sens, le premier aurait pu être placé avec samouraï ou au moins Japon, le second à proximité de chat et le dernier avec poésie ou bien la Pléiade. En contrepartie, toutefois, celui qui ne connaît pas au départ le sens d'un mot (et c'est bien à cette fin qu'on utilise souvent un dictionnaire) risquerait de ne plus savoir à quel endroit le chercher !
Conséquences
Les inconvénients cités n'ont pas la moindre importance en ce qui concerne les listes de patronymes à caractère commercial, financier, administratif ou fiscal. L'ordre alphabétique est donc utilisé dans leur cas.
Le classement des encyclopédies, pour sa part, reste en général organisé par thème, afin d'éviter des feuilletages incessants au lecteur qui cherche à approfondir un sujet. Ces thèmes sont cependant classés eux-mêmes par ordre alphabétique. Le lecteur pallie la difficulté de savoir où se documenter sur mot dont le sens lui est inconnu en utilisant, en complément, un dictionnaire.
Ordre alphabétique
Parmi les langues utilisant l'alphabet latin, l'ordre alphabétique peut différer :
- en allemand, les umlaut (« Ä », « Ö », « Ü ») sont généralement traitées comme les lettres sans umlaut, mais il arrive pour les listes de noms qu'on les considère comme les combinaisons « Ae », « Oe » et « Ue ». Le « ß » est généralement ordonné comme « ss » ;
- en suédois, « w » est perçu comme une variante de « V » et pas comme une lettre distincte. L'alphabet suédois utilise de plus trois voyelles considérées comme distinctes et placées à la fin : « Å », « Ä » et « Ö ». Les mêmes conventions sont utilisées en finnois ;
- en danois et en norvégien, l'alphabet se termine par « Æ », « Ø » et « Å ». Cette dernière lettre est parfois assimilée à « Aa » ;
- pour l’alphabet français, les diacritiques sont rangés dans l'ordre aigu, grave, circonflexe, tréma. Pour e par exemple l'ordre alphabétique est : e é è ê ë (œ est considéré équivalent à oe) ;
- Le féringien possède plusieurs lettres supplémentaires : « Á », « Ð », « Í », « Ó », « Ú », « Ý », « Æ » et « Ø ». Les consonnes « C », « Q », « W », « X » et « Z » ne sont pas employées. Par conséquence, l'ordre alphabétique féringien diffère légèrement de l'ordre traditionnel de l'alphabet latin : A Á B D Ð E F G H I Í J K L M N O Ó P R S T U Ú V Y Ý Æ Ø ;
- pour le classement alphabétique en espagnol, l'ordre préconisé par l'Académie royale espagnole jusqu'en 1994 considérait « CH » et « LL » comme des lettres distinctes, placées respectivement après « C » et « L ». Depuis 1994, l'Académie a adopté l'usage conventionnel de les placer après « CG » et « LK ». En revanche, « Ñ » est toujours classé après « N » ;
- Le gallois possède des règles plus complexes : les combinaisons « CH », « DD », « FF », « NG », « LL », « PH » et « TH » sont parfois considérées comme des lettres uniques, ordonnées après le premier graphème de la combinaison, à l'exception de « NG », classé après « G ». Cependant, ces combinaisons ne sont pas toujours considérées comme des lettres uniques : par exemple, le gallois classe ainsi les mots suivants : LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH. Le dernier de ces mots, qui juxtapose « LLON » et « GYFARCH », n'utilise pas la lettre « NG ».
- En hongrois, les lettres Ö et Ü sont classées respectivement après O et U. Les voyelles longues Á, É, Í, Ó, Ú, Ő, Ű sont traitées avec leurs contreparties brèves A, E, I, O, U, Ö, Ü.
- En islandais, « Ð » suit « D » et « Þ » est ajoutée à la fin de l'alphabet.
- En néerlandais, la combinaison « IJ » était précédemment soit considérée comme « Y », soit classée après celle-ci, mais est à l'heure actuelle le plus souvent classées entre « II » et « IK », sauf pour les noms propres.
- En polonais, « Ą » suit « A », « Ć » suit « C », « Ę » suit « E », « Ł » suit « L », « Ń » suit « N », « Ó » suit « O », « Ś » suit « S », « Ź » et « Ż » suivent « Z ».
- En tchèque et slovaque, les voyelles accentuées (« Á », « É », « Í », « Ó », « Ô », « Ú », « Ů » et « Ý ») ainsi que certaines consonnes présentant un háček (« Ď », « Ň » et « Ť ») sont considérées comme leur homographe non accentuée; si deux mots diffèrent d'un accent sur une voyelle, la mot accentué est placé après. « Č », « Ř », « Š » et « Ž » sont considérées comme des lettres distinctes et placées après leur homographe sans háček. De plus, « CH » est considérée comme une lettre à part entière, située entre « H » et « I ». En slovaque, « DZ » et « DŽ » sont placées entre « Ď » et « E ».
- En espéranto, les lettres accentuées (« Ĉ », « Ĝ », « Ĥ », « Ĵ », « Ŝ » et « Ŭ ») sont placées après les versions non accentuées.
- En roumain, les lettres accentuées (« Ă », « Â », « Î », « Ş » et « Ţ ») sont des lettres distinctes, placées après les versions non accentuées.
- En tatar, « ä » est considéré comme « a », « ö » comme « o », « ü » comme « u », « í » comme « i » et « ı » comme « e ». « Ş » est associée à « SH », « Ç » à « CH », « Ñ » à « NG » et « Ğ » à « GH ».
- En croate, serbe et d'autres langues slaves du sud, « Č » et « Ć » suivent « C », « DŽ » et « Đ » suivent « D », « NJ » suit « N », « Š » suit « S » et « Ž » clot l'alphabet.
- En filipino, « NG » et « Ñ » sont des lettres distinctes.
Références
- ↑ Jonathon Green, Chasing the Sun: Dictionary-Makers and the Dictionaries They Made, Henry Holt & Co (1996) – ISBN 0712662162
- ↑ Michel Foucault, L'Ordre des choses
- ↑ Donald Ervin Knuth, The Art of Computer Programming, Volume 3: Sorting and Searching, Addison-Wesley Professional; (1998) – ISBN 0201896850
Bibliographie
- Jonathon Green, Chasing the Sun: Dictionary-Makers and the Dictionaries They Made, Henry Holt & Co, 1996. ISBN 0712662162.
- Donald Ervin Knuth, The Art of Computer Programming, Volume 3: Sorting and Searching, Addison-Wesley Professional, 1998. ISBN 0201896850.
- Michel Foucault, L'Ordre des choses.
- (fr) Jamblan, Ordre alphabétique, Éditions du Scorpion, 1952.
- (fr) Jean-Claude Boulanger, Petite histoire de la conquête de l'ordre alphabétique dans les dictionnaires médiévaux, Honoré Champion, Paris, janvier 2002.
- (fr) Catherine Vialles, Vocabulaire CE2, Retz, 2008.
Voir aussi
Articles connexes
Catégories : Alphabet | Algorithmique | Classement alphabétique | Internationalisation en informatique | Science de l'information
Wikimedia Foundation. 2010.