Écritures indiennes et informatique

Écritures indiennes et informatique

Les particularités des écritures indiennes par rapport aux autres écritures (notamment l’alphabet latin) ont obligé les informaticiens à inventer des techniques spécifiques permettant de les afficher, les saisir et stocker des textes les utilisant.

Sommaire

Codage

Il existe actuellement (2007) plusieurs systèmes de codage des caractères des écritures indiennes. Il y a une norme Unicode et en parallèle des codages propriétaires.

Unicode

Le Consortium Unicode a attribué des plages de caractères (de U+0900 à U+0DFF) aux différentes écritures indiennes et a donné des recommandations sur leur représentation et leur codage. Il a établi une norme de départ basée sur l’implémentation de la devanagari puis l’a appliquée aux autres écritures en faisant des adaptations quand c’était nécessaire.

Généralités

Chaque forme indépendante de consonne, de voyelle, chaque forme dépendante de voyelle et chaque chiffre dispose est représenté par un code de caractère propre. Chaque plage d’écriture suit autant que possible un ordre similaire :

  1. Bindus
  2. Visarga
  3. Formes indépendantes des voyelles
  4. Formes indépendantes des consonnes dans l'ordre phonétique suivant (selon le point d'articulation) :
    1. vélaires
    2. palatales
    3. rétroflexes
    4. dentales
    5. bilabiales
  5. Formes dépendantes des voyelles
  6. Virama
  7. Chiffres

Les codes de ces séries de caractères sont les mêmes relativement au début de la plage de l’écriture. Des caractères spécifiques peuvent être intercalés entre ces séries.

Les exemples suivants utilisent la devanagari.

Lorsqu’une voyelle dépendante suit phonétiquement une consonne, son caractère est toujours codé logiquement après le caractère de la consonne, comme l’ordre de prononciation, quel que soit le rendu graphique, par exemple की est codé <U+0915,U+0940> (ka, ī), et कि ki est codé <U+0915,U+093F> (ka, i).

Pour écrire une combinaison de consonnes, on insère le caractère du virama entre 2 consonnes, par exemple स्त sta s’écrit <U+0938,U+094D,U+0924> (sa, virama, ta). En dévanagari ou en gujarati Lorsque la consonne r- (ra plus virama) précède phonétiquement une autre consonne, ces caractères sont toujours codés avant l’autre consonne indépendamment du rendu graphique, comme dans l’ordre de prononciation, même si cette consonne est représentée graphiquement comme un diacritique de la consonne suivante dans le même akshara.

Si on veut réellement écrire une consonne dotée d’un virama puis une autre consonne au lieu de faire la ligature, on insère le caractère de contrôle Unicode de code U+200C ZWNJ (Zero Width Non-Joiner, antiliant sans chasse) entre le caractère du virama et celui de la consonne qui doit le suivre, par exemple क्‌ष (au lieu de la ligature attendue क्ष) s’écrit <U+0915,U+094D,U+200C,U+0937>.

Si, pour écrire une combinaison de consonnes utilisant normalement un nouveau symbole à part entière, on veut utiliser les « demi-formes » des consonnes, on insère le caractère ZWJ (Zero Width Joiner) de code U+200D entre le caractère U+094D du virama dévanagari et le caractère dévanagari codant la consonne qui doit le suivre ; par exemple श्‍व (au lieu de l’attendu श्व, qui se prononcerait de façon semblable) s’écrit <U+0936,U+094D,U+200D,U+0935>.

Le signe nuqta est placé immédiatement après la consonne à laquelle il se rattache, même en cas de consonne suivie par une forme dépendante de voyelle ou de groupement de consonnes (par l’intermédiaire d'un virama).

Les signes de ponctuation danda et double danda sont utilisés dans plusieurs écritures mais sont codés uniquement dans la plage de la dévanâgarî. Ce n'est pas le cas pour Om̐.

Devanāgarī

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
090
कऀ
कँ
कं
कः
091
092
093
कऺ
कऻ
क़
का
कि
094
की
कु
कू
कृ
कॄ
कॅ
कॆ
के
कै
कॉ
कॊ
को
कौ
क्
कॎ
कॏ
095
क॑
क॒
क॓
क॔
कॕ
कॖ
कॗ
096
कॢ
कॣ
097
 
ॿ

code ISO 15924 : Deva

Bengali

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
098
 
কঁ
কং
কঃ
 
 
099
 
09A
 
09B
 
 
 
ক়
কা
কি
09C
কী
কু
কূ
কৃ
কৄ
 
কে
কৈ
 
কো
কৌ
ক্
 
09D
 
কৗ
 
 
09E
কৢ
কৣ
 
09F
 

code ISO 15924 : Beng

Gurmukhî

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0A0
 
ਕਁ
ਕਂ
ਕਃ
 
 
0A1
 
0A2
 
0A3
 
 
 
 
ਕ਼
 
ਕਾ
ਕਿ
0A4
ਕੀ
ਕੁ
ਕੂ
 
ਕੇ
ਕੈ
 
ਕੋ
ਕੌ
ਕ੍
 
0A5
 
ਕੑ
 
 
 
0A6
 
0A7
ਕੰ
ਕੱ
ਕੵ
 

code ISO 15924 : Guru

Le symbôle religieux khanda (☬) parfois utilisé dans les textes écrits en Gurmukhi est codé par le caractère U+262C.

Gujarati

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0A8
 
કઁ
કં
કઃ
 
 
0A9
 
0AA
 
0AB
 
 
 
ક઼
કા
કિ
0AC
કી
કુ
કૂ
કૃ
કૄ
કૅ
 
કે
કૈ
કૉ
 
કો
કૌ
ક્
 
0AD
 
0AE
કૢ
કૣ
 
0AF
 
 

code ISO 15924 : Gujr

Oriyâ

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0B0
 
କଁ
କଂ
କଃ
 
 
0B1
 
0B2
 
0B3
 
 
 
କ଼
କା
କି
0B4
କୀ
କୁ
କୂ
କୃ
କୄ
 
କେ
କୈ
 
କୋ
କୌ
କ୍
 
0B5
 
କୖ
କୗ
 
 
0B6
କୢ
କୣ
 
0B7
 

code ISO 15924 : Orya

Tamoul

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0B8
 
பஂ
 
 
0B9
 
 
 
 
0BA
 
 
 
0BB
 
பா
பி
0BC
பீ
பு
பூ
 
பெ
பே
பை
 
பொ
போ
பௌ
ப்
 
0BD
 
பௗ
 
0BE
 
0BF
 

code ISO 15924 : Taml

Télougou

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0C0
 
కఁ
కం
కః
 
 
0C1
 
0C2
 
0C3
 
 
కా
కి
0C4
కీ
కు
కూ
కృ
కౄ
 
కె
కే
కై
 
కొ
కో
కౌ
క్
 
0C5
 
కౕ
కౖ
 
 
0C6
కౢ
కౣ
 
0C7
 
౿

code ISO 15924 : Telu

Kannara

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0C8
 
ಲಂ
ಲಃ
 
 
0C9
 
0CA
 
0CB
 
 
ಲ಼
ಲಾ
ಲಿ
0CC
ಲೀ
ಲು
ಲೂ
ಲೃ
ಲೄ
 
ಲೆ
ಲೇ
ಲೈ
 
ಲೊ
ಲೋ
ಲೌ
ಲ್
 
0CD
 
ಲೕ
ಲೖ
 
 
0CE
ಲೢ
ಲೣ
 
0CF
 
 

code ISO 15924 : Knda

Malayâlam

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0D0
 
കം
കഃ
 
 
0D1
 
0D2
0D3
 
കാ
കി
0D4
കീ
കു
കൂ
കൃ
കൄ
 
കെ
കേ
കൈ
 
കൊ
കോ
കൌ
ക്
 
0D5
 
കൗ
 
0D6
കൢ
കൣ
 
0D7
 
ൿ

code ISO 15924 : Mlym

Singhalais

PDF :
fr en
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0D8
 
ථං
ථඃ
 
0D9
 
0DA
0DB
 
 
 
0DC
 
ථ්
 
ථා
0DD
ථැ
ථෑ
ථි
ථී
ථු
 
ථූ
 
ථෘ
ථෙ
ථේ
ථෛ
ථො
ථෝ
ථෞ
ථෟ
0DE
 
0DF
 
ථෲ
ථෳ
 

code ISO 15924 : Sinh

Codages propriétaires

Des sites web codent les caractères des écritures indiennes sur 1 octet sans table de caractères particulière. L'attributation d’un caractère à un code est dépendant de la police de caractères utilisée, chaque caractère en principe représenté par un code étant remplacé par un caractère arbitraire de l'écriture indienne en question. Ainsi les demi-formes utilisées dans des groupes de consonnes, les représentations de consonnes dépendant d’un contexte particulier, etc. ont leur propre code, avec le symbole correspondant dans la police.

Ce type de codage gêne considérablement tout traitement automatisé – comme la recherche de texte ou l’indexation par des moteurs de recherche – des textes ainsi écrits.

Affichage

Cas d’Unicode

L'utilisateur doit disposer d’une police Unicode de son choix ou au moins d’un police disposant de la plage de caractères correspondant à l’écriture voulue. Les logiciels de l’utilisateur doivent exploiter correctement la police, notamment afficher les caractères ou morceaux de caractères dans le bon ordre graphique même quand il est contraire à celui du codage.

Si un groupement de consonnes nécessite un glyphe dont la police ne dispose pas, les demi-formes des consonnes doivent être affichées. Si même ces dernières sont indisponibles, les formes indépendantes rattachées au virama sont utilisées.

Cas des systèmes propriétaires

L’utilisateur doit disposer de la police de caractères spécifiquement conçue pour le codage. Pour une même écriture il y a souvent plusieurs codages ou plusieurs polices, ce qui oblige l’utilisateur à installer une nouvelle police à chaque fois. Ces polices ne sont disponibles que sur Windows.

Saisie

Unix

Tous les Unix utilisant X-Window peuvent soit modifier directement l’attribution des caractères aux touches du clavier via xmodmap ou XKB, soit utiliser une méthode d'entrée. L’utilisation de ces technologies peut éventuellement être laissée aux soins du gestionnaire de fenêtres.

Références


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Écritures indiennes et informatique de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Ecritures indiennes et informatique — Écritures indiennes et informatique Les particularités des écritures indiennes par rapport aux autres écritures (notamment l alphabet latin) ont obligé les informaticiens à inventer des techniques spécifiques permettant de les afficher, les… …   Wikipédia en Français

  • Parque Informatique de Dalian — Parc informatique de Dalian Le Parc informatique de Dalian (Dalian Software Park, dans l écritures chinoise simplifiée : 大连软件园, littéralement Parc du logiciel de Dalian ) est une zone industrielle qui fut créée en 1998 dans le périphérie… …   Wikipédia en Français

  • Alphasyllabaire bengali — Bengali (বাংলা) « Bangla lipi » écrit en bengali Caractéristiques Type Alphasyllabaire Langue(s) Langues de l’Est de l’Ind …   Wikipédia en Français

  • Alphabet hindi — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

  • Devanagari — Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques Type Alphasyllabaire Langue …   Wikipédia en Français

  • Devanâgarî — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

  • Devanāgarī — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

  • Devnagari — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

  • Diacritiques de la devanâgarî — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

  • Dévanâgarî — Dévanagari Dévanagari Manuscrit du Rig Veda en dévanagari (début du XIXe siècle). Caractéristiques …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”