- Fréquence d'apparition des lettres en Français
-
Fréquence d'apparition des lettres en français
Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats :
- Le style narratif : s’il y a beaucoup de verbes à la 2e personne du pluriel (le vouvoiement, présent dans beaucoup de dialogues), il y aura significativement plus de « Z ».
- Le vocabulaire spécifique du document : si l’on parle de chemins de fer, il y aura beaucoup plus de « W » (wagon) ; si l’un des protagonistes se dénomme Loïs, le nombre de « Ï » s’en ressentira.
- Le type de document : des petites annonces en France présenteront souvent le symbole Euro (€), qui est absent de la plupart des autres documents.
- Les paramètres techniques : on peut facilement calculer des statistiques sur des textes informatisés, mais bien souvent, ceux-ci ne comportent pas de majuscules accentuées (qui ne sont faciles à entrer sur certains ordinateurs) ; l’e-dans-l’o (œ), qui n'est pas une ligature esthétique car il se prononce différemment de la suite de voyelles « oe » (comparer vœux et coexistence), est impossible à représenter dans le codage latin-1, qui est hélas souvent utilisé pour les textes en français ; de plus, certains auteurs omettent des accents.
- La présence de caractères non-alphabétiques (symboles de ponctuation, chiffres, parenthèses et accolades, symboles mathématiques courants…) peut ou non être pris en compte ; la virgule, le point ou l’apostrophe sont par exemple plus fréquents que plus de la moitié des lettres.
Si ces paramètres ont un impact spectaculaire sur les symboles les moins fréquents (la fréquence du œ varie entre 0,002% et 0,09% pour trois textes pris au hasard), elle est également sensible même pour les lettres les plus fréquentes (l’ordre de fréquence des lettres A, S, I, T et N, qui sont les plus fréquentes à part E, fluctue d’un texte à l’autre).
Sommaire
Remarque importante
La fréquence des lettres dans un texte diffère de celle de la liste des mots d’un dictionnaire. En effet, très peu de mots apparaissent au pluriel dans un dictionnaire, ce qui conduit la lettre s à y être moins fréquente. De plus, les lettres accentuées à et ù apparaissent dans un nombre très limité de mots, mais dont certains sont d'usage fréquent (à, où), ce qui contribue à en modifier la fréquence relative de ces lettres.
Le corpus de textes littéraires disponible sur le Net (par exemple sur le site de l’Association des bibliophiles universels (ABU), permet à tout un chacun de se livrer en quelques minutes aux analyses de fréquence de lettres chez l’auteur de son choix.
Quelques mesures
Pour un corpus donné en français représentant 1 533 629 lettres, on a trouvé la répartition suivante. Seuls les caractères listés ont été pris en compte dans les calculs de pourcentages. Voir les détails du corpus.
Rang Lettre Nombre Pourcentage 1. e 225947 14,715 2. s 121895 7,948 3. a 117110 7,636 4. i 115465 7,529 5. t 111103 7,244 6. n 108812 7,095 7. r 100500 6,553 8. u 96785 6,311 9. l 83668 5,456 10. o 82762 5,378 11. d 56269 3,669 12. c 50003 3,260 13. p 46335 3,021 14. m 45521 2,968 15 é 29206 1,904 16. v 24975 1,628 17. q 20889 1,362 18. f 16351 1,066 19. b 13822 0,901 20. g 13288 0,866 21. h 11298 0,737 22. j 8351 0,545 23. à 7449 0,486 24. x 5928 0,387 25. y 4725 0,308 26. è 4160 0,271 27. ê 3445 0,225 28. z 2093 0,136 29. w 1747 0,114 30. ç 1306 0,085 31. ù 890 0,058 32. k 745 0,049 33. î 695 0,045 34. œ 283 0,018 34. ï 84 0,005 35. ë 7 0,000 Articles connexes
Liens externes
Catégorie : Langue française
Wikimedia Foundation. 2010.