- Utf-8
-
UTF-8 - Wikipédia UTF-8
Unicode Jeux de caractères Équivalences normalisées Propriétés et algorithmes - ISO 15924
- Casse
- Ordonnancement UCA
- Texte bi-directionnel
Codage - UTF-7
- UTF-8
- CESU-8
- UTF-EBCDIC
- BOCU-1
- SCSU
- UTF-16
- UTF-32
Autres transformations Applications d'échanges de données UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères défini pour les caractères Unicode (UCS). Chaque caractère est codé sur une suite d'un à quatre octets. Il a été conçu pour être compatible avec certains logiciels originellement prévus pour traiter des caractères d'un seul octet.
UTF-8 est standardisé dans la RFC 3629 (« UTF-8, a transformation format of ISO 10646 »). Le codage était aussi défini dans le rapport technique 17 de la norme Unicode. En 2009, il fait partie intégrante de la norme dans son chapitre 3 Conformance et est également approuvé par l’Organisation internationale de normalisation (ISO), l’Internet Engineering Task Force (IETF) et la plupart des organismes de normalisation nationaux.
L’IETF requiert qu’UTF-8 soit pris en charge par les protocoles de communication d’Internet échangeant du texte.
Sommaire
Description
Le numéro de chaque caractère est donné par le standard Unicode.
Les caractères de numéro 0 à 127 sont codés sur un octet dont le bit de poids fort est toujours nul.
Les caractères de numéro supérieur à 127 sont codés sur plusieurs octets. Dans ce cas, les bits de poids fort du premier octet forment une suite de 1 de longueur égale au nombre d'octets utilisés pour coder le caractère, les octets suivants ayant 10 comme bits de poids fort.
Définition du nombre d'octets utilisés Représentation binaire UTF-8 Signification 0xxxxxxx 1 octet codant 1 à 7 bits 110xxxxx 10xxxxxx 2 octets codant 8 à 11 bits 1110xxxx 10xxxxxx 10xxxxxx 3 octets codant 12 à 16 bits 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 4 octets codant 17 à 21 bits Ce principe pourrait être étendu jusqu'à huit octets pour un caractère, mais UTF-8 pose la limite à quatre.[1]
Exemples de codage UTF-8 Caractère Numéro du caractère Codage binaire UTF-8 A 65 01000001 é 233 11000011 10101001 € 8364 11100010 10000010 10101100
Wikimedia Foundation. 2010.
Contenu soumis à la licence CC-BY-SA. Source : Article Utf-8 de Wikipédia en français (auteurs)
Regardez d'autres dictionnaires:
UTF-8 — (8 bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable. UTF 8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la RFC 3629 … Wikipedia Español
UTF-7 — (7 bit Unicode Transformation Format) is a variable length character encoding that was proposed for representing Unicode text using a stream of ASCII characters. It was originally intended to provide a means of encoding Unicode text for use in… … Wikipedia
UTF-8 — (от англ. Unicode Transformation Format, 8 bit «формат преобразования Юникода, 8 битный») распространённая кодировка символов Юникода, совместимая с 8 битными форматами передачи текста. Нашла широкое применение в операционных… … Википедия
UTF-8 — (Abk. für 8 bit UCS Transformation Format wobei UCS wiederum Universal Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken … Deutsch Wikipedia
UTF-7 — (7 bit Unicode Transformation Format) es una codificación de caracteres de longitud variable que fue propuesta para representar texto codificado con Unicode usando un flujo de caracteres ASCII, para ser usado, por ejemplo en mensajes de correo… … Wikipedia Español
UTF-8 — (UCS Transformation Format 8 bit[1]) is a multibyte character encoding for Unicode. Like UTF 16 and UTF 32, UTF 8 can represent every character in the Unicode character set. Unlike them, it is backward compatible with ASCII and avoids the… … Wikipedia
UTF-16 — (англ. Unicode Transformation Format) в информатике один из способов кодирования символов из Unicode в виде последовательности 16 битных слов. Данная кодировка позволяет записывать символы Юникода в диапазонах U+0000..U+D7FF и… … Википедия
UTF-16 — est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un ou deux mots de 16 bits. Le codage était défini dans le rapport technique 17 à la norme Unicode. Depuis, cette annexe est devenue obsolète car UTF… … Wikipédia en Français
Utf-16 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 … Wikipédia en Français
Utf-8 — (от англ. Unicode Transformation Format формат преобразования Юникода) в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8 битным кодированием текста. Текст, состоящий только из символов с номером… … Википедия
UTF-8 — (UCS transformation format 8 bits) est un format de codage de caractères. Chaque caractère ou graphème est représenté dans le répertoire du jeu universel de caractères sous la forme d’une suite d’un ou plusieurs « caractères abstraits » … Wikipédia en Français