UTF8

UTF8
UTF-8 - Wikipédia

UTF-8

Unicode
Jeux de caractères
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
Codage
Autres transformations
Applications d'échanges de données

UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères défini pour les caractères Unicode (UCS). Chaque caractère est codé sur une suite d'un à quatre octets. Il a été conçu pour être compatible avec certains logiciels originellement prévus pour traiter des caractères d'un seul octet.

UTF-8 est standardisé dans la RFC 3629 (« UTF-8, a transformation format of ISO 10646 »). Le codage était aussi défini dans le rapport technique 17 de la norme Unicode. En 2009, il fait partie intégrante de la norme dans son chapitre 3 Conformance et est également approuvé par l’Organisation internationale de normalisation (ISO), l’Internet Engineering Task Force (IETF) et la plupart des organismes de normalisation nationaux.

L’IETF requiert qu’UTF-8 soit pris en charge par les protocoles de communication d’Internet échangeant du texte.

Sommaire

Description

Le numéro de chaque caractère est donné par le standard Unicode.

Les caractères de numéro 0 à 127 sont codés sur un octet dont le bit de poids fort est toujours nul.

Les caractères de numéro supérieur à 127 sont codés sur plusieurs octets. Dans ce cas, les bits de poids fort du premier octet forment une suite de 1 de longueur égale au nombre d'octets utilisés pour coder le caractère, les octets suivants ayant 10 comme bits de poids fort.

Définition du nombre d'octets utilisés
Représentation binaire UTF-8 Signification
0xxxxxxx 1 octet codant 1 à 7 bits
110xxxxx 10xxxxxx 2 octets codant 8 à 11 bits
1110xxxx 10xxxxxx 10xxxxxx 3 octets codant 12 à 16 bits
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 4 octets codant 17 à 21 bits

Ce principe pourrait être étendu jusqu'à huit octets pour un caractère, mais UTF-8 pose la limite à quatre.[1]

Exemples de codage UTF-8
Caractère Numéro du caractère Codage binaire UTF-8
A 65 01000001
é 233 11000011 10101001
8364 11100010 10000010 10101100

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article UTF8 de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • UTF8 — UTF 8 (от англ. Unicode Transformation Format формат преобразования Юникода) в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8 битным кодированием текста. Текст, состоящий только из символов с… …   Википедия

  • UTF8 — …   Deutsch Wikipedia

  • Utf8 — …   Deutsch Wikipedia

  • Utf8 — UTF 8 Wikipédia …   Wikipédia en Français

  • List of unused highways in the United States — An unused highway may reference a highway or highway ramp that was partially or fully constructed but was unused [ US R and NY TF1 Practice for the Real Thing. City of New York 20 June 2005. 15 Jan. 2007 [http://www.nyc.gov/html/oem/html/news/05… …   Wikipedia

  • Lichens of Soldiers Delight — Trunk of oak covered with lichens: Flavoparmelia caperata and Punctelia rudecta .(Photographed at Soldiers Delight NEA).The Soldiers Delight Natural Environment Area [http://www.dnr.state.md.us/publiclands/central/soldiers.html]… …   Wikipedia

  • List of state highways in Maryland shorter than one mile (800–899) — The following is a list of state highways in Maryland shorter than one mile (1.6 km) in length with route numbers between 800 and 899. Most of these highways act as service roads, old alignments of more prominent highways, or connectors between… …   Wikipedia

  • List of unused highways in Canada — An unused highway may reference a highway or highway ramp that was partially or fully constructed but was unused [ US R and NY TF1 Practice for the Real Thing. City of New York 20 June 2005. 15 Jan. 2007 [http://www.nyc.gov/html/oem/html/news/05… …   Wikipedia

  • List of unused highways in New Jersey — An unused highway may reference a highway or highway ramp that was partially or fully constructed but was unused [ US R and NY TF1 Practice for the Real Thing. City of New York 20 June 2005. 15 Jan. 2007 [http://www.nyc.gov/html/oem/html/news/05… …   Wikipedia

  • List of Saint Seiya chapters — This is a list of chapters of the Saint Seiya manga, part of the Saint Seiya media franchise. The series was written and drawn by Masami Kurumada and was published by Shueisha in the Japanese language magazine Weekly Shonen Jump from January 1986 …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”