- ISO/CEI 2022
-
ISO 2022, ou plus formellement ISO/CEI 2022 (ICS no 35.040), est une norme ISO spécifiant une technique pour inclure de multiples jeux de caractères dans un seul codage de caractères. À la différence du codage de caractères ISO 8859 qui utilise 8 bits pour tous les caractères, les codages ISO 2022 sont de tailles variables en utilisant typiquement 8 ou 16 bits par caractère. Un grand nombre de codages de caractères utilise les mécanismes spécifiés dans l'ISO 2022. Par exemple, l'ISO-2022-JP est largement utilisé comme codage de caractères pour le japonais.
Sommaire
Introduction
Beaucoup de langues ou de famille de langues ne sont pas basées sur l'alphabet latin telles que le grec, russe, l'arabe, ou l'hébreu, qui historiquement étaient représentées sur les ordinateurs avec un jeu de caractères ASCII étendu de 8 bit et incluant la famille du jeu de caractères de l'ISO 8859. Les langues écrites de l'Asie de l'Est, et spécifiquement, le chinois, le japonais et le coréen, utilisent nettement plus de caractères que ne peut contenir un octet. C'est pourquoi, afin de représenter ces multiples caractères, on a tout d'abord utilisé un codage spécifique composé de deux octets.
L'ISO 2022 avait développé une technique pour représenter les caractères de multiples systèmes de caractères à travers un unique système de codage. Les caractères ISO 2022 incorporent des séquences d'échappement qui indiquent le jeu à utiliser pour le caractère qui suit. Les séquences d'échappement sont enregistrées dans l'ISO et sont souvent codées par une chaîne de trois caractères utilisant le caractère ASCII ECHAP (hexadécimal : 1B, octal : 33). Ces codages de caractères requièrent que les données soient exécutées séquentiellement afin de parvenir à une interprétation correcte des diverses séquences d'échappement.
Même si le jeu de caractères ISO 2022, et particulièrement, ISO-2022-JP, est encore énormément utilisé, les logiciels modernes utilisent aujourd'hui des codages de caractères de type Unicode tel que l'UTF-8.
Jeux de caractères ISO 2022
Les codages de caractères utilisant les mécanismes ISO 2022 incluent :
- ISO-2022-JP - largement utilisé dans le codage du japonais. Commence par des caractères ASCII et inclut les séquences d'échappements suivantes :
- ESC ( B pour utiliser le code ASCII (1 octet par caractère)
- ESC ( J pour utiliser le codage JIS X 0201-1976 (1 octet par caractère)
- ESC $ @ pour utiliser le codage JIS X 0208-1978 (2 octets par caractère)
- ESC $ B pour utiliser le codage JIS X 0208-1983 (2 octets par caractère)
- ISO-2022-JP-1 - Identique à ISO-2022-JP avec une séquence d'échappement supplémentaire :
- ESC $ ( D pour utiliser le codage JIS X 0212-1990 (2 octets par caractère)
- ISO-2022-JP-2 - Extension multilingue de l'ISO-2022-JP. Identique à l'ISO-2022-JP-1 avec les séquences d'échappement supplémentaires suivantes :
- ESC $ A pour utiliser le codage GB2312-1980 (2 octets par caractère)
- ESC $ ( C pour utiliser le codage KSC5601-1987 (2 octets par caractère)
- ESC . À pour utiliser le codage ISO 8859-1 (1 octet par caractère)
- ESC . B pour utiliser le codage ISO 8859-7 (1 octet par caractère)
- ISO-2022-JP-3 - japonais
- ISO-2022-KR - coréen
- ISO-2022-CN - chinois
- ISO-2022-CN-EXT - chinois
Voir aussi
Liens externes
- (fr) Site de l'ISO
- (en) International Register of Coded Character Sets to be Used with Escape Sequences
- (en) RFC 1468, description de l'ISO-2022-JP
- (en) RFC 2237, description de l'ISO-2022-JP-1
- (en) RFC 1554, description de l'ISO-2022-JP-2
- (en) RFC 1922, description de l'ISO-2022-CN et de l'ISO-2022-CN-EXT
- (en) RFC 1557, description de l'ISO-2022-KR
- (en) Histoire du codage des caractères en Europe, Amérique du Nord et Asie de l'Est
- (en) CJK.INF: un document sur le codage du chinois, du japonais et du coréen (CJK), incluant une discussion sur de nombreuses variantes de l'ISO 2022. aussi disponible par HTTP.
Articles connexes
- ISO 646
- CJC
- Mojibake
- Unicode
- Ken, Lunde, CJKV Information Processing, O'Reilly & Associates (1998). (ISBN 1565922247)
Codés sur 8 bits ISO/CEI 8859 ISO/CEI 8859-1 (latin-1), ISO/CEI 8859-3 (latin-3), ISO/CEI 8859-15 (latin-9) Pages de code Windows Windows-1252 (latin-1), Windows-1258 (vietnamien) Pages de code MacOS MacRoman Pages de code DOS CP437 (latin-US), CP850 (latin-1), CP852 (latin-2) Pages de code diverses DEC-MCS, KOI8-R (russe), KOI8-U (ukrainien), StandardEncoding (PostScript) Non basés sur ISO 646 VISCII, EBCDIC, EBCDIC 297, EBCDIC 8859 Autres Codés sur 7 bits ASCII, ISO 646 Moins de 7 bits Code morse, Code wabun, Code Baudot, RADIX-50, Sixbit Articles connexes Codage des caractères, Clavier d’ordinateur, Police numérique, Glyphe, Portail:Écriture Catégories :- Norme ISO
- Norme CEI
- Codage du texte
- ISO-2022-JP - largement utilisé dans le codage du japonais. Commence par des caractères ASCII et inclut les séquences d'échappements suivantes :
Wikimedia Foundation. 2010.