CESU-8

CESU-8: Le CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) est un codage de caractères variante d'UTF-8 décrit dans le document Unicode Technical Report #26^[1] publié par le consortium Unicode. C'est un encodage d'Unicode sur 8 bits non normalisé, destiné à un usage interne et non destiné à, ni recommandé pour, des communications. Certains considèrent que sa place est davantage parmi les Technical Notes de l'organisation que dans les rapports techniques.

Le but principal de CESU-8 est de maintenir la même collation binaire qu'UTF-16 tout en gardant un codage 8 bits. Cependant, comme aucun traitement du caractère NUL n'est appliqué, la chaîne résultante ne peut être traitée comme une chaine terminée par un caractère NUL si la chaine d'origine contient le caractère U+0000.

Sommaire

1 Détails techniques

2 Utilisation de CESU-8

3 Exemple

4 Voir aussi

4.1 Notes et références

4.2 Liens externes

5 Articles connexes

Détails techniques

CESU-8 s'apparente à l'UTF-8 modifié de Java (Modified UTF-8) mais privé du codage spécial du caractère NUL (U+0000). Il diffère seulement d'UTF-8 par sa représentation différente des caractères supplémentaires. Pour les caractères extérieurs au Plan multilingue de base (ceux générant une paire de seizets d'indirection en UTF-16), CESU-8 génère uniquement des séquences de 6 octets (c'est-à-dire deux fois 3 octets), là où UTF-8 génère une séquence de taille de 4 octets pour la valeur du caractère dans UTF-32. Pour ces caractères, CESU-8 prend les valeurs, situées dans U+D000..U+D7FF, de chacun des deux points de code de la paire de seizets, puis les code sur 6 octets, au lieu de coder le caractère représenté par la paire.

En dehors de ces caractères, assez peu courants, les flux UTF-8 et CESU-8 sont similaires et peuvent conduire à des détections erronées. C'est une des raisons pour lesquelles le consortium Unicode ne recommande pas son usage hors d'une mise en œuvre fermée. Le nom originel de CESU-8 était d'ailleurs UTF-8S, ce qui renforçait la confusion.

Dans le cas de données UTF-16 d'entrée invalides (c'est-à-dire un seizet de paire non couplé), bien que reproduire l'erreur dans la sortie serait fidèle, il est recommandé que le convertisseur notifie l'erreur et arrête le traitement^[2].

Utilisation de CESU-8

Dans la pratique, le seul environnement majeur faisant usage de CESU-8 est le SGBD relationnel Oracle, qui semble-t-il utilise désormais UTF-16 comme représentation interne des caractères. « L'UTF8 » (sans le trait d'union) d'Oracle, en réalité CESU-8, est un codec non-standard rejetant les séquences représentant un caractère hors BMP mais acceptant et générant celles usitées dans CESU-8. Le schéma d'encodage 8-bits actuellement recommandé en lieu et place de CESU-8 est AL32UTF8^[3].

Il a aussi été rapporté que MySQL depuis la version 5 tolère les séquences CESU-8 quand UTF-8 est attendu^[4].

Exemple

Codage U+0045 U+0205 U+10400

UTF-8 45 C8 85 F0 90 90 80

UTF-16 0045 0205 D801 DC00

CESU-8 45 C8 85 ED A0 81 ED B0 80

Voir aussi

Notes et références

↑ (en) Unicode Technical Report #26: Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8) (html)

↑ Q: How do I convert an unpaired UTF-16 surrogate to UTF-8? unicode.org, récupéré le 26 septembre 2006

↑ (en) Globalization Support - Oracle Unicode database support white paper, May 2005 (pdf, 192 Ko)

↑ (en) Re: Unicode high characters versus MySQL 5 sur la liste de diffusion Wikitech-l.

Liens externes

Articles connexes

UTF-8

UTF-16

Unicode

v · Unicode

Jeux de caractères UCS (ISO/CEI 10646) · ISO 646, ASCII · ISO 8859-1 · WGL4 · UniHan

Équivalences normalisées NFC (précomposée) · NFD (décomposée) · NFKC (compatibilité) · NFKD (compatibilité)

Propriétés et algorithmes ISO 15924 · Casse · Ordonnancement UCA · Texte bidirectionnel · BOM

Codage UTF-7 · UTF-8 · CESU-8 · UTF-EBCDIC · BOCU-1 · SCSU · UTF-16 · UTF-32

Autres transformations Punycode · GB 18030

Applications d’échanges de données Courriel et Unicode · Unicode et HTML

v · Unicode
ISO/CEI 10646, Table des caractères Unicode, UTF-8, UTF-16, UTF-32, UTF-EBCDIC, CESU-8, BOCU-1

Autres ISO/CEI 2022, Big5, ISCII, GB 18030, GBK, Shift-JIS, Codage des caractères chinois

Codés sur 8 bits

ISO/CEI 8859 ISO/CEI 8859-1 (latin-1), ISO/CEI 8859-3 (latin-3), ISO/CEI 8859-15 (latin-9)

Pages de code Windows Windows-1252 (latin-1), Windows-1258 (vietnamien)

Pages de code MacOS MacRoman

Pages de code DOS CP437 (latin-US), CP850 (latin-1), CP852 (latin-2)

Pages de code diverses DEC-MCS, KOI8-R (russe), KOI8-U (ukrainien), StandardEncoding (PostScript)

Non basés sur ISO 646 VISCII, EBCDIC, EBCDIC 297, EBCDIC 8859

Autres

Codés sur 7 bits ASCII, ISO 646

Moins de 7 bits Code morse, Code wabun, Code Baudot, RADIX-50, Sixbit

Articles connexes Codage des caractères, Clavier d’ordinateur, Police numérique, Glyphe, Portail:Écriture

Portail de l’informatique

Portail de l’écriture

Catégorie :
Unicode

Codage	U+0045	U+0205	U+10400
UTF-8	45	C8	85	F0	90	90	80
UTF-16	0045	0205	D801	DC00
CESU-8	45	C8	85	ED	A0	81	ED	B0	80

Contenu soumis à la licence CC-BY-SA. Source : Article CESU-8 de Wikipédia en français (auteurs)

Игры ⚽ Нужно решить контрольную?

Regardez d'autres dictionnaires:

CESU-8 — (kurz für Compatibility Encoding Scheme for UTF 16: 8 Bit) ist eine Variante von UTF 8, die im Unicode Technical Report #26 beschrieben wird. Der Codepoint wird zunächst in UTF 16 ausgedrückt, dann wird das Ergebnis in UTF 8 rekodiert, als wäre… … Deutsch Wikipedia
čėsu — ×čėsù adv. K; R411 reikiamu momentu, nustatytu terminu: Čėsu dar atvažiavo brolis J. Ne čėsu gimęs vaikas N. Taigi dabokitės ir mašnas čėsù prisikraukit K.Donel. ^ Geriau čėsu skatikas, negu po čėso rublis KrvP(Mrs) … Dictionary of the Lithuanian Language
CESU — Chèque emploi service universel « CESU » redirige ici. Pour l article homonyme, voir Centre d enseignement des soins d urgence … Wikipédia en Français
Cesu — Chèque emploi service universel « CESU » redirige ici. Pour l article homonyme, voir Centre d enseignement des soins d urgence … Wikipédia en Français
CESU-8 — Compatibility Encoding Scheme for UTF 16: 8 Bit (CESU 8) is a variant of UTF 8 that is described in Unicode Technical Report #26 [http://www.unicode.org/reports/tr26/] . A Unicode code point from the Basic Multilingual Plane (BMP), i.e. a code… … Wikipedia
Cēsu Alus — Industry Light alcoholic and non alcoholic beverages Founded 1995 (roots 1590) Headquarters Aldaru laukums 1, Cēsis, Latvia Key people Eva Sietiņsone Zatlere Products Beer, cider … Wikipedia
Cēsu Namiņš — (Цесис,Латвия) Категория отеля: Адрес: Lielā Skolas iela 7, Цесис, LV 4101, Латвия … Каталог отелей
Cesu Rajons — Cesis Pays Lettonie Population * 59914 hab … Wikipédia en Français
Cēsu rajons — Cesu rajons Cesis Pays Lettonie Population * 59914 hab … Wikipédia en Français
Cēsu alus — AS «Cēsu alus» … Википедия

Dictionnaires et Encyclopédies sur 'Academic'

CESU-8

Sommaire

Détails techniques

Utilisation de CESU-8

Exemple

Voir aussi

Notes et références

Liens externes

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

v · Unicode
Jeux de caractères	UCS (ISO/CEI 10646) · ISO 646, ASCII · ISO 8859-1 · WGL4 · UniHan
Équivalences normalisées	NFC (précomposée) · NFD (décomposée) · NFKC (compatibilité) · NFKD (compatibilité)
Propriétés et algorithmes	ISO 15924 · Casse · Ordonnancement UCA · Texte bidirectionnel · BOM
Codage	UTF-7 · UTF-8 · CESU-8 · UTF-EBCDIC · BOCU-1 · SCSU · UTF-16 · UTF-32
Autres transformations	Punycode · GB 18030
Applications d’échanges de données	Courriel et Unicode · Unicode et HTML

v · Unicode			ISO/CEI 10646, Table des caractères Unicode, UTF-8, UTF-16, UTF-32, UTF-EBCDIC, CESU-8, BOCU-1
Autres	ISO/CEI 2022, Big5, ISCII, GB 18030, GBK, Shift-JIS, Codage des caractères chinois

ISO/CEI 8859	ISO/CEI 8859-1 (latin-1), ISO/CEI 8859-3 (latin-3), ISO/CEI 8859-15 (latin-9)
Pages de code Windows	Windows-1252 (latin-1), Windows-1258 (vietnamien)
Pages de code MacOS	MacRoman
Pages de code DOS	CP437 (latin-US), CP850 (latin-1), CP852 (latin-2)
Pages de code diverses	DEC-MCS, KOI8-R (russe), KOI8-U (ukrainien), StandardEncoding (PostScript)
Non basés sur ISO 646	VISCII, EBCDIC, EBCDIC 297, EBCDIC 8859

Codés sur 7 bits	ASCII, ISO 646
Moins de 7 bits	Code morse, Code wabun, Code Baudot, RADIX-50, Sixbit

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

CESU-8

Sommaire

Détails techniques

Utilisation de CESU-8

Exemple

Voir aussi

Notes et références

Liens externes

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link