Reconnaissance vocale

Reconnaissance vocale
Page d'aide sur l'homonymie Pour les articles homonymes, voir ASR.

La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la parole captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. La reconnaissance de la parole, ainsi que la synthèse de la parole, l'identification du locuteur ou la vérification du locuteur, font partie des techniques de traitement de la parole. Ces techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des interfaces homme-machine (IHM) où une partie de l'interaction se fait à la voix. Parmi les nombreuses applications, on peut citer les applications de dictée vocale sur PC où la difficulté tient à la taille du vocabulaire et à la longueur des phrases, mais aussi les applications téléphoniques de type serveur vocal, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).

Sommaire

Domaine de recherche

La reconnaissance de la parole peut se rattacher à de nombreux plans de la science : traitement automatique des langues, linguistique, théorie des langages formels, théorie de l'information, traitement du signal, réseaux neuronaux, intelligence artificielle, etc.

Historique

Les travaux sur la reconnaissance de la parole datent du début du XXe siècle. Le premier système pouvant être considéré comme faisant de la reconnaissance de la parole date de 1952.

Ce système électronique développé par Davis, Biddulph et Balashek aux laboratoires Bell Labs était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés (voir référence). La recherche s'est ensuite considérablement accrue durant les années 1970 avec les travaux de Jelinek chez IBM (1972-1993). La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance de la parole est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Principe de base

Une phrase enregistrée et numérisée est donnée au programme de reconnaissance automatique de la parole (RAP). Dans le formalisme RAP (ASR en anglais), le découpage fonctionnel est le suivant :

  • Le traitement acoustique (front-end en anglais) permet principalement d'extraire du signal vocal une image acoustique compacte sous forme de vecteurs acoustiques correspondant à des tranches de 20 à 30ms de signal avec un pas de 10ms (technique de fenêtrage de hamming). Le signal est numérisé et paramétré par une technique d'analyse fréquentielle utilisant la transformée de Fourier (par exemple MFCC, Mel-Frequency Cepstral Coefficients).
  • L'apprentissage automatique réalise une association entre les segments élémentaires de la parole et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autres par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
  • La décodage en concaténant les modèles élémentaires précédemment appris reconstitue le discours le plus probable. Il s'agit donc d'une correspondance de motif (pattern matching) temporelle, réalisée souvent par l'algorithme de déformation temporelle dynamique (en anglais DTW, dynamic time warping).

Les modèles

Un tel système s'appuie sur trois modèles principaux :

  • Modèle de langage : ce modèle donne la probabilité P(W) de chaque suite de mots W dans le langage cible.
  • Modèle de prononciation : ce modèle donne pour chaque suite de mots W, la ou les prononciations possibles H avec leurs probabilités P(H | W).
  • Modèle acoustico-phonétique : ce modèle estime la probabilité P(X | H) de la séquence observée de vecteurs acoustiques X étant donnée une prononciation possible H d'une séquence de mots donnée.

La combinaison de ces trois modèles permet de calculer la probabilité de toute suite de mots étant donné un signal vocal observé. La reconnaissance de la parole consiste à trouver la suite de mots qui a la probabilité la plus élevée. Formellement la solution au problème est la suite de mots W qui maximise l'expression mathématique suivante : \textstyle P(W)\sum_H P(H|W)P(X|H).

Classification

Les systèmes de reconnaissance de la parole peuvent être classifiés selon plusieurs axes :

  • le type de signal : signal bruité ou signal non bruité (ex. microphone casque avec réduction de bruit), signal téléphonique (téléphone fixe ou mobile) ou large bande, signal compressé ou non, ...
  • le type de modèle acoustique : modèle monolocuteur (ex. dictée vocale), modèle multilocuteur (speaker independant en anglais)
  • la nature des enregistrements : dictée de texte, commande vocale, dialogue homme-machine, message téléphonique, radio, TV, podcast, ...
  • la langue.

La taille vocabulaire et la complexité du modèle de langage sont directement liés à la langue et à la nature des données à traitées, de quelques dizaines de mots pour de la commande vocale à quelques centaines de milliers de mots pour couvrir une langue comme le français ou l'allemand.

Performance

Les performances brutes d'un moteur de reconnaissance de la parole sont souvent mesurées en taux d'erreur de mots (Word error rate). On peut, réciproquement, évaluer le taux de succès. Ce taux varie fortement en fonction de la nature des données à transcrire, du locuteur, et des conditions acoustiques. Il dépend peu de la langue. Voici sa définition formelle:

\mathit{WER} = \frac{S + E + I}{N}

  • S est le nombre de substitutions,
  • E est le nombre d'élisions,
  • I est le nombre d'insertions,
  • N est le nombre de mots dans la transcription de référence (transcription exacte).

Voici quelques résultats moyens en termes de taux d'erreur :

  • Textes lus (dictée vocale, système monolocuteur) : 5%
  • Journaux radio et TV : 10%
  • Conversations téléphoniques informelles : 40%

Mentions dans la littérature

La reconnaissance de la parole est évoquée dans Le Premier cercle de l'écrivain dissident soviétique Alexandre Soljenitsyne, comme un outil de répression au service de Staline.

La reconnaissance de la parole est également évoquée dans un roman policier[1]:

« Rien à voir avec nos bons vieux rapport de chez nous pianotés sur ordinateur d'un doigt frileux par un pote qui a longtemps hésité entre la carrière de flic et celle de maréchal-ferrant. Chez les Yankees, tu causes et ça s'enregistre, propre et en ordre, sans ratures, répétitions ni impropriétés de termes. N'importe quelle crapule, ayant appris à lire sur une machine à sous, te torche des aveux en comparaison desquels la Confession d'un enfant du siècle passerait pour le mode d'emploi d'une poudre insecticide traduit du romanche. Pour piloter ce machin, y avait pas besoin de sortir de Princeton. Tout ce qu'avait à branler l'opératrice, en dehors de son touffu joli, c'était de faire répéter un mot mal prononcé, et encore l'appareil suggérait-il une tripotée de synonymes concordant avec le sens de la phrase. En voyant fonctionner l'engin, je pensai à tous mes confrères trémulsés de la coiffe dont il rendrait la prose intelligible. »

— Frédéric Dard alias San-Antonio, Du sable dans la vaseline

Il est fait mention de la reconnaissance de la parole comme unique interface entre l'homme et la machine dans La trilogie des prophéties de Pierre Bordage. En effet, dans cette trilogie, il est présenté un super-ordinateur, le D.N.A P-C.

Notes et références

  1. San Antonio, Du sable dans la vaseline, Fleuve noir, septembre 1998 (ISBN 2265065307), p. 40-41 

Voir aussi

Bibliographie

  • Traitement de la parole, par René Boite, Hervé Bourlard, Thierry Dutoit, Joel Hancq et Henri Leich, Presses polytechniques et universitaires romandes, 2000.
  • Reconnaissance de la parole: Traitement automatique du langage parlé 2. Hermes Science - Lavoisier (Traité IC2, Informatique et systèmes d'information), J. Mariani (Ed.), 2002
  • Jean-Paul Haton, Reconnaissance automatique de la parole : du signal à son interprétation, Dunod Paris, 2006

Articles connexes

Liens externes


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Reconnaissance vocale de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

  • reconnaissance vocale — kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f …   Automatikos terminų žodynas

  • Reconnaissance de la parole — Reconnaissance vocale Pour les articles homonymes, voir ASR. La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition ASR) est une technologie informatique qui permet d analyser un mot ou une phrase captée …   Wikipédia en Français

  • reconnaissance — [ r(ə)kɔnɛsɑ̃s ] n. f. • 1538; reconissance « gratitude » 1180; reconuisance « signe de ralliement » 1080; de reconnaître I ♦ Fait de reconnaître, d identifier un objet, un être comme tel; ce qui sert à reconnaître. 1 ♦ Acte de juger qu un objet… …   Encyclopédie Universelle

  • Reconnaissance de forme — Reconnaissance de formes On désigne par reconnaissance de formes (ou parfois reconnaissance de motifs) un ensemble de techniques et méthodes visant à identifier des motifs à partir de données brutes afin de prendre une décision dépendant de la… …   Wikipédia en Français

  • Reconnaissance de motif — Reconnaissance de formes On désigne par reconnaissance de formes (ou parfois reconnaissance de motifs) un ensemble de techniques et méthodes visant à identifier des motifs à partir de données brutes afin de prendre une décision dépendant de la… …   Wikipédia en Français

  • Reconnaissance des formes — Reconnaissance de formes On désigne par reconnaissance de formes (ou parfois reconnaissance de motifs) un ensemble de techniques et méthodes visant à identifier des motifs à partir de données brutes afin de prendre une décision dépendant de la… …   Wikipédia en Français

  • Reconnaissance faciale — Biométrie Le mot biométrie désigne dans un sens très large l étude quantitative des êtres vivants. Parmi les principaux domaines d application de la biométrie, on peut citer l agronomie, l anthropologie, l écologie et la médecine. L usage de ce… …   Wikipédia en Français

  • Reconnaissance — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Reconnaissance », sur le Wiktionnaire (dictionnaire universel) Sur le plan philosophique, la… …   Wikipédia en Français

  • Reconnaissance de formes — On désigne par reconnaissance de formes (ou parfois reconnaissance de motifs) un ensemble de techniques et méthodes visant à identifier des motifs à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce… …   Wikipédia en Français

  • reconnaissance de parole — kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f …   Automatikos terminų žodynas

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”