Chaînes de caractères

Chaînes de caractères: Chaîne de caractères

En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string.

Sommaire

1 Dans les langages de programmations

2 Représentation numérique

2.1 Représentation en mémoire

3 Sucre syntaxique

4 Algorithmes

5 Voir aussi

Dans les langages de programmations

La plupart des langages de programmation offrent une classe ou un type dédié à la représentation et à la manipulation des chaînes de caractères.

langage type de donnée description

python str, unicode A été modifié avec python 3.0

java java.lang.String Depuis le début les chaînes Java sont des chaînes unicode

C char* et char[] Le type de donnée chaîne n'a jamais existé en C. Ce type de donné est couramment simulé, par un pointeur sur une séquence de caractère mono-octets se terminant par un octet nul. Des bibliothèques existent pour gérer les chaînes, notamment pour palier aux limites des chaînes mono-octets.

C++ char* et char[], basic_string, string Les templates du C++ définissent la classe std::string (chaînes à base de caractères mono octets). En plus de bibliothèques C fournissant des fonctionnalités sur les chaînes, il existe des bibliothèques C++ concurrente à la représentation standard (std::string).

Représentation numérique

Différentes techniques existent pour représenter des chaînes à l'aide d'octets. Elle nécessitent généralement de pouvoir représenter chaque caractère (encodage), mais aussi de marquer la fin de la chaîne.

La fin de la chaîne peut être connue à l'aide d'un caractère de fin de chaîne (0 en C, $ en assembleur), ou en stockant simultanément le nombre de caractères ou le nombre d'octets de la chaîne.

Chaque caractère est représenté par un nombre d'octets qui dépend du codages de caractère. En fonction de l'encodage utilisé, des limites pourront exister sur l'ensemble des caractères disponibles, les algorithmes de parcours de caractère, l'interopérabilité et/ou des performances. En particulier les codages à base de caractères mono-octets tels que les ASCII étendu, peuvent être plus performant, mais limitant et/ou contraignants dans un contexte d'internationalisation et/ou d'interopérabilité. Les autres encodages UTF-8 par exemple présentent d'autres caractéristiques.

Représentation en mémoire

Dans une mémoire informatique, l'adresse mémoire du premier caractère est connu. Pour délimiter la fin de la chaîne, soit elle est terminée par un caractère de fin de chaîne (zéro binaire en langage C, et on parle alors d'ASCIIZ pour indiquer « terminé par un zéro »), soit le nombre de caractères est stocké en parallèle (BASIC, Pascal, PL/I). Dans certains langages orientés objet, le codage interne de la chaîne n'a pas besoin d'être connu (encapsulation).

FRANK en mémoire, délimité par un caractère nul
F R A N K NUL k e f w

46 52 41 4E 4B 00 6B 65 66 77

FRANK en mémoire stocké avec la longueur
length F R A N K k f f w

05 46 52 41 4E 4B 6B 66 66 77

Sucre syntaxique

La représentation d'une chaîne de caractères dépend d'un système à un autre.

Pour représenter une chaîne de caractères dans un flux de caractères (comme un fichier texte, en particulier dans un code source), il est généralement nécessaire de marquer le début et la fin de la chaîne, et éventuellement d'utiliser des séquences d'échappement.

Généralement, pour représenter une chaîne de caractères on l'entoure par une paire de caractères spéciaux. Les guillemets doubles sont souvent utilisés. On notera par exemple "Wikipedia" pour désigner la chaîne de caractères composée par neuf caractères, qui sont respectivement: W, i, k, i, p, e, d, i et a. Exemples :

"Wikipedia"

'Cette phrase est une chaîne de caractères, en langage Pascal.'

(Le langage PostScript manipule aussi des chaînes de caractères.)

Pour éviter des confusions d'usage des caractères spéciaux dans une chaîne de caractères, on imagine des conventions, toujours valables selon les systèmes. Avec le langage Pascal, par exemple, on double le guillemet simple pour l'introduire dans la liste des caractères d'une chaîne de caractères. C'est le cas dans l'exemple suivant :

'Il s''agit d''un simple guillemet dans la chaîne de caractères.'

D'autres conventions consistent à utiliser un caractère d'échappement pour introduire des caracxtères spéciaux. L'antislash est le plus utilisé ici. Pour les langages Java, C, C++ et d'autres, on note \" pour introduire un guillemet double dans une chaîne de caractères. Par exemple :

"Première solution pour contenir le délimiteur \", un caractère d'échappement"

"Seconde solution pour contenir le délimiteur\\, le doublage du délimiteur"

Algorithmes

Plusieurs algorithmes font partie de l'état de l'art pour traiter les chaînes, chacun pouvant connaître différentes formes. Quelques exemples de catégories de tels algorithmes :

algorithmes de recherche de sous-chaîne(s) comme celui de Boyer-Moore

algorithmes de recherche d'expressions rationnelles

algorithmes de tri en Unicode ; classement alphabétique ; classement alphabétique complexe

analyse syntaxique d'une chaîne

algorithmes de conversion (Unicode, capitalisation, transcodages...)

Le programmeur n'a, aujourd'hui, généralement plus à s'en préoccuper (même s'il doit en connaître le principe), ces algorithmes étant directement utilisés par les primitives du langage.

Voir aussi

Voir « chaîne de caractères » sur le Wiktionnaire.

Codage de caractères

Expression rationnelle

Ce document provient de « Cha%C3%AEne de caract%C3%A8res ».

Catégorie : Développement logiciel

langage	type de donnée	description
python	str, unicode	A été modifié avec python 3.0
java	java.lang.String	Depuis le début les chaînes Java sont des chaînes unicode
C	char* et char[]	Le type de donnée chaîne n'a jamais existé en C. Ce type de donné est couramment simulé, par un pointeur sur une séquence de caractère mono-octets se terminant par un octet nul. Des bibliothèques existent pour gérer les chaînes, notamment pour palier aux limites des chaînes mono-octets.
C++	char* et char[], basic_string, string	Les templates du C++ définissent la classe std::string (chaînes à base de caractères mono octets). En plus de bibliothèques C fournissant des fonctionnalités sur les chaînes, il existe des bibliothèques C++ concurrente à la représentation standard (std::string).

FRANK en mémoire, délimité par un caractère nul
F	R	A	N	K	NUL	k	e	f	w
46	52	41	4E	4B	00	6B	65	66	77

FRANK en mémoire stocké avec la longueur
length	F	R	A	N	K	k	f	f	w
05	46	52	41	4E	4B	6B	66	66	77

Contenu soumis à la licence CC-BY-SA. Source : Article Chaînes de caractères de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

Chaines de caractères — Chaîne de caractères En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1… … Wikipédia en Français
CHAÎNES (géomorphologie) — Les géomorphologues appellent chaîne une unité montagneuse complexe, caractérisée par un relief élevé, à fortes dénivellations, et, surtout, par la disposition ordonnée de ses éléments et de leurs combinaisons, selon une direction privilégiée qui … Encyclopédie Universelle
CHAÎNES DE MONTAGNES (typologie) — À la surface de la Terre, les zones de relief élevé qui forment ce que l’on appelle des « chaînes de montagnes» constituent un trait morphologique de première importance, comparable à celui des dorsales qui sillonnent le fond des océans. Les… … Encyclopédie Universelle
Chaînes — Chaîne Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Pour l’article homophone, voir Chêne (homonymie) … Wikipédia en Français
Chaîne de caractères — En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1 Dans les lang … Wikipédia en Français
Chaine De Caractères — Chaîne de caractères En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1… … Wikipédia en Français
Chaine de caracteres — Chaîne de caractères En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1… … Wikipédia en Français
Chaine de caractères — Chaîne de caractères En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1… … Wikipédia en Français
Chaîne De Caractères — En informatique, une chaîne de caractères est une suite ordonnée de caractères. La chaîne de caractères est un type de donnée dans de nombreux langages informatiques. En anglais, on emploie le terme (en) string. Sommaire 1 Dans … Wikipédia en Français
Algorithme de recherche de chaîne de caractères de Boyer-Moore — Algorithme de Boyer Moore L algorithme de Boyer Moore est un algorithme de recherche de sous chaîne particulièrement efficace. Il a été développé par Bob Boyer et J. Strother Moore en 1977. Sommaire 1 Présentation 2 Fonctionnement de l algorithme … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Chaînes de caractères

Chaîne de caractères

Sommaire

Dans les langages de programmations

Représentation numérique

Représentation en mémoire

Sucre syntaxique

Algorithmes

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Chaînes de caractères

Chaîne de caractères

Sommaire

Dans les langages de programmations

Représentation numérique

Représentation en mémoire

Sucre syntaxique

Algorithmes

Voir aussi

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link