- Traitement de la parole
-
Le traitement de la parole est une discipline scientique situé au croisement du traitement du signal numérique et du traitement du langage. Il existe quatre grandes familles de modules vocaux:
- Analyseur de parole
- La Reconnaissance vocale qui regroupe
- la Reconnaissance de la parole où l'on s'attache à comprendre ce qui est dit
- et la Reconnaissance du locuteur qui permet d'effectuer une identification du locuteur
- Synthèse vocale
- Codeur de parole
Sommaire
Traitement analogique
Dès l'origine du téléphone, le signal utile obtenu par le microphone est d'une puissance de 1 mW (0,775 V sur une impédance de 600 Ω (Ohms) dit niveau 0 dB). Sachant qu'il a fallu exploiter ces données fondamentales pendant des décennies sans pouvoir bénéficier d'éléments actifs (amplification), les normes de transmissions analogiques se sont basées sur cette réalité.
Ce faible signal utile exigeait une qualité optimum des câbles pour que les bruits induits entre circuits soient les plus faibles possibles (plan de brassage des paires entre segment de câble, à chaque point de raccordement afin de compenser les déséquilibres de capacité mesurés après fabrication des segments).
Des ingénieurs tels que l'américain Michael Pupin (1900) ou le danois Emil Krarup (1902) ont amélioré la portée du signal en compensant la forte capacité du câble par l'ajout de self (uniformément répartie dans la méthode Krarup (krarupisation) telle une corde à piano ou par des bobines de self tous les 1830 m dans la méthode du pas Pupin (pupinisation)) Si par cette méthode on augmente la portée du signal, on perd sur la bande passante transmise (filtre passe-bas limité à 4000 Hz)
La bande passante normalisée pour la téléphonie est de 300 Hz à 3400 Hz. Cette bande passante est suffisante pour l'intelligibilité de la conversation (le % de netteté est vérifié par mesures sur des émissions aléatoires de logatomes (proche des phonèmes))
Affaiblissement linéique
la liaison téléphonique subit les contraintes des paramètres physiques dit paramètres primaires (résistance R, inductance L, perditance G, capacité C).
- La transmission s'analyse sur les paramètres secondaires qui en découlent :
- l'impédance caractéristique Zc = Φ [R(ω), L(ω), G(ω), C(ω), ω ]
- l'exposant de transfert γ = α + j β
l'affaiblissement linéique est le terme (α alpha) de l'exposant de transfert rapporté à l'unité de longueur. C'est une loi logarithmique comparable à la sensibilité de l'oreille humaine (adéquation par des filtres psophométriques)
- La dynamique de l'oreille est très large :
- +120 dB seuil de la douleur
- +90 dB niveau d'appel, cri
- +60 dB niveau d'une conversation normale
- +30 dB chuchotement
- 0 dB seuil de perception de l'oreille
- le seuil de perception de l'oreille à 1000 Hz correspond à une variation de pression acoustique de 20 nPa sur le tympan de l'oreille.
- La dynamique des niveaux de transmission sur la ligne téléphonique est quant à elle :
- 0 dB le niveau du microphone du téléphone
- -30 dB le niveau de réception sur l'écouteur encore acceptable
- (1/1 000 de la puissance du microphone)
- -60 dB niveau de bruit encore perceptible
- (1/1 000 000 de la puissance du microphone)
Le recollement entre les deux échelles dépend de l'efficacité du micro et de l'écouteur, de la distance entre l'oreille et ceux-ci (donc de la forme du combiné), et de l'affaiblissement de la ligne. Pour une transmission entièrement passive (sans amplification), dans le meilleur des cas, le 0 dB de la seconde échelle s'aligne avec environ 80 dB de la première.
Premières amplifications
Pour les premières amplifications (AF audio fréquence), il a fallu résoudre les problèmes d'adaptation d'impédance (équilibreurs sur le transformateur différentiel) afin d'éviter l'amorçage du circuit (l'effet Larsen).
Premières liaisons multiplexées analogiques
Pour les premiers multiplexage (HF haute fréquence), il a fallu limiter les niveaux de bruit sur les blancs de conversation à l'aide de compresseur-extenseur (bruit repoussé à moins de -50 dB).
Traitement numérique
Le théorème de Shannon avait déterminé dès 1948 qu'il suffisait d'échantillonner le signal de base à 2 fois la fréquence maximale de ce signal pour conserver l'information contenue dans le signal à transmettre.
Il a fallu attendre encore une vingtaine d'années pour disposer des composants électroniques assez véloces pour exploiter les premières liaisons numériques de Modulation par Impulsion Codées (MIC).
Sachant que la bande passante de la téléphonie est normalisée à 300-3 400 Hz (interprétée à 0-4 000 Hz en multiplexage), il suffit d'échantillonner à 8 000 Hz pour transmettre les caractéristiques du signal. Soit prélever un échantillon toutes les 125 micro-secondes (1 s/8 000 Hz)
Les CODEC normalisés (codeurs-décodeurs) travaillent sur 32 IT (intervalles de temps) donc accordent 3,9 micro-secondes à chaque voie utile (30 voies téléphoniques et 2 IT techniques de signalisation) L'échantillon prélevé est codé sur une échelle numérique de 8 bits. Cette échelle est logarithmique afin de minimiser les bruits de quantification, le codage étant plus fin sur les faibles niveaux. Les deux codages les plus utilisés sont le µ-Law (principalement aux États-Unis) et le a-Law (Europe). Plage de -127 à +128 (256 valeurs soit un octet)
La transmission numérique est donc standardisée sur des MIC de base à 2,048 Mbit/s (256 x 8 000) et accordent 64 kbit/s à chaque voie (8 000 octets).
Ces transmissions numériques ont l'avantage d'être affranchies des bruits de transmission. Mais bien d'autres problèmes ont dû être résolus (codage HDB3 : viols de bipolarité et bourrage afin de conserver le rythme de 2 Mbit/s, même en l'absence de signaux sur les voies d'entrée).
- Portail de l’électricité et de l’électronique
Wikimedia Foundation. 2010.