Classement Alphabétique Informatisé

Classement Alphabétique Informatisé

Classement alphabétique informatisé

Le classement alphabétique est le classement des caractères d'une écriture dans un ordre défini par un alphabet (le plus souvent), pour une langue donnée. Cet article décrit la question d'un point de vue informatique. On se reportera à Classement alphabétique pour des explications plus générales et historiques.

Sommaire

Principe

Le principe consiste à comparer deux mots, caractère par caractère.

Si les n premiers caractères sont identiques, on prend le suivant. Si le n-ième caractère diffère, l'ordre est établi. Si le mot est fini, le mot est considéré comme venant en premier.

Il convient donc pour classer correctement de connaître :

  • l'ordre dans lequel sont classées les lettres d'un alphabet donné, ordre qui dépend de règles historiques différant d'une langue à l'autre même si elles utilisent un alphabet très proche ;
  • l'existence de graphèmes complexes (ligatures, digrammes) à prendre en compte (dans une langue, tel digramme comptera pour une lettre et aura son rang, dans telle autre, non).

Type ASCII

Pour des raisons d'habitudes, d'ancienneté du principe, ou de facilité de mise en œuvre, de nombreux développeurs de logiciel utilisent ou ont utilisé le classement selon l’ordre des codes dans le codage de caractères utilisé (par exemple ASCII ou UTF-8). Ce classement coïncide avec le classement alphabétique pour les mots contenant uniquement des lettres sans diacritique et toutes en majuscule (ou en minuscules), mais donne un résultat généralement incorrect dès qu’il y a des diacritiques, des espaces, des signes de ponctuations ou un mélange de lettres majuscules et minuscules (ce dernier point est toutefois facilement résolu en convertissant tout en majuscule).

MediaWiki

Actuellement (juillet 2009), MediaWiki utilise le classement selon l’ordre de codage des caractères dans UTF-8.

On trouvera ci-dessous des classements plus pertinents.

Pour les programmeurs

Les programmeurs d'application devront donc faire attention aux spécificités locales. Par exemple la fonction str[n]cmp de la bibliothèque string.h de C compare simplement des codes des caractères ASCII. Il faut, soit bricoler une amélioration de cette fonction, soit utiliser des fonctions propres des bibliothèques disponibles sous les systèmes d'exploitation cible.

ICU, Java, Python et Perl sont compatibles Unicode et portables. Visual Basic gère l'Unicode mais ne fonctionne pas sur des systèmes tels que Linux.

Bibliothèques de Microsoft

Par exemple en programmation pour Windows :

  • on peut utiliser la fonction CompareString ;
  • On peut utiliser la bibliothèque ICU.

Bibliothèque d'UNIX

  • On peut utiliser la bibliothèque ICU.

[À développer]

Bibliothèque ICU

[À développer]

De nombreuses informations sont disponibles dans les sites suivants :

Bibliothèques de GNU/Linux

Sous GNU/Linux, on peut utiliser la bibliothèque ICU.

Bibliothèques de Java

Sous java, le tri est natif. Il est certainement paramétrable avec des locales.

PHP

[À développer]

PHP est utilisé par Wikipédia.

mySQL

mySQL est utilisé par Wikipédia. MySQL 4.0 sait faire du tri allemand avec un jeu de caractères étendu : latin1_de.

La fonction 4.1 semble savoir faire le vrai tri.

Un HOWTO sur le classement alphabétique

Ordre ASCII

Wikipédia considère l'ordre ASCII comme un ordre alphabétique.

Wikipédia sur ce point est touché par le bug 164. Pour les développeurs, on pourrait ajouter le commentaire suivant.

It looks like mySQL 4.1 support nationals collate of utf-8
http://dev.mysql.com/doc/mysql/en/Charset.html
http://bugzilla.wikipedia.org/show_bug.cgi?id=164

Articles connexes

Liens externes

Bibliographie

  • Jonathon Green, Chasing the Sun: Dictionary-Makers and the Dictionaries They Made, Henry Holt & Co (1996) - ISBN 0712662162
  • Donald Ervin Knuth, The Art of Computer Programming, Volume 3: Sorting and Searching, Addison-Wesley Professional; (1998) - ISBN 0201896850
  • Michel Foucault, L'Ordre des choses

Algorithmes informatiques

Voir aussi

  • Prefs.js, un fichier de configuration de Mozilla Thunderbird qui est classé alphabétiquement à l'exécution.
Ce document provient de « Classement alphab%C3%A9tique informatis%C3%A9 ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Classement Alphabétique Informatisé de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Classement alphabetique informatise — Classement alphabétique informatisé Le classement alphabétique est le classement des caractères d une écriture dans un ordre défini par un alphabet (le plus souvent), pour une langue donnée. Cet article décrit la question d un point de vue… …   Wikipédia en Français

  • Classement alphabétique informatisé — Le classement alphabétique est le classement des caractères d une écriture dans un ordre défini par un alphabet (le plus souvent), pour une langue donnée. Cet article décrit la question d un point de vue informatique. On se reportera à Classement …   Wikipédia en Français

  • Classement Alphabétique — Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique. L ordre alphabétique (des lettres), comme son nom l indique, ordonne conventionnellement un alphabet, par exemple dans un but d enseignement méthodique de… …   Wikipédia en Français

  • Classement alphabetique — Classement alphabétique Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique. L ordre alphabétique (des lettres), comme son nom l indique, ordonne conventionnellement un alphabet, par exemple dans un but d… …   Wikipédia en Français

  • Classement alphabétique — Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique. L ordre alphabétique (des lettres), comme son nom l indique, ordonne conventionnellement un alphabet, par exemple dans un but d enseignement méthodique de… …   Wikipédia en Français

  • Ordre alphabétique — Classement alphabétique Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique. L ordre alphabétique (des lettres), comme son nom l indique, ordonne conventionnellement un alphabet, par exemple dans un but d… …   Wikipédia en Français

  • Lexicographie arabe — La lexicographie arabe étudie le vocabulaire de cette langue et la composition de dictionnaires. Pour des raisons religieuses mais aussi pour assurer la transmission de la langue arabe aux peuples arabisés, les lexicographes arabes ont effectué… …   Wikipédia en Français

  • INDEXATION — L’indexation consiste à identifier dans un document certains éléments significatifs qui serviront de clé pour retrouver ce document au sein d’une collection. Ces éléments comprennent le nom de l’auteur, le titre de l’ouvrage, le nom de l’éditeur …   Encyclopédie Universelle

  • Catalogue De Bibliothèque — Pour les articles homonymes, voir catalogue. Catalogue sous forme de fiches cartonnées Un catalogue de bibliothèque est …   Wikipédia en Français

  • Catalogue de bibliotheque — Catalogue de bibliothèque Pour les articles homonymes, voir catalogue. Catalogue sous forme de fiches cartonnées Un catalogue de bibliothèque est …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”