Speech synthesis

Speech synthesis: Synthèse vocale

Stephen Hawking est l'une des personnes les plus célèbres à utiliser ce genre de technique pour communiquer

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur. Il s'agit, comme la reconnaissance vocale, d'une technologie permettant de construire des interfaces vocales. Parmi les applications, on peut citer la vocalisation d'écrans informatiques pour les malvoyants (screenreader, ou lecteur d'écran), ainsi que de nombreuses applications de serveurs vocaux téléphoniques, comme les annuaires vocaux de grande taille, où la synthèse vocale est la seule technique viable pour permettre la restitution sonore des noms et des adresses des abonnés.

Sommaire

1 Historique

2 Techniques

2.1 Transcription phonétique

2.2 Formants

2.3 Intonation et prosodie

2.4 Diphones

3 Voir aussi

3.1 Liens externes

4 Démos en ligne

5 Logiciels

5.1 Libres

5.2 Proprietaires

5.2.1 Gratuits

5.2.2 Payants

6 Références

Historique

Plusieurs générations de techniques ont été proposées pour la tâche de synthèse vocale.

La première génération, populaire entre 1965 et 1985, est appelée synthèse vocale par règles ou synthèse vocale par formants. Elle est basée sur la modélisation paramétrique du spectre sonore de la parole, notamment à partir de ses formant mesurées en Hz. Des règles servaient à décrire l'évolution temporelle des formants et des paramètres associés, ce qui permet de générer un spectre sonore artificiel à partir duquel on génère le signal acoustique de synthèse. Cette technique, qui est entièrement synthétique, était compatible avec la mémoire informatique limitée disponible à cette époque.

Une seconde génération de techniques, semi-synthétiques, a ensuite été développée dès lors qu'on pouvait stocker de façon permanente dans une mémoire informatiques des durées suffisantes de parole naturelle. Les techniques ont alors consisté à assembler (à "concaténer") des petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité.

La première technique de cette génération est la synthèse vocale par diphones. Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres. Cette technique peut être produite pour le français à partir d'une base de 1200 diphones, ce qui nécessite de stocker en tout quelque 120 secondes de parole ce qui nécessite quelque 2 mégaoctets de son numérisé. La parole synthétisée semble plus naturelle que celle produite par règles, mais des problèmes persistent lorsque la longueur de phonème, l'intonation et l'accent tonique sont pris en compte. Pour remédier à ces problèmes, il est possible d'augmenter la quantité d'extrait sonore à utiliser pour la concaténation. Plusieurs extraits pour un même diphone peuvent être utilisés dans un même contexte, et plusieurs types de contextes (intonation, accent, type de phrase) peuvent avoir chacun leurs diphones. On parle alors de synthèse par sélection de diphones ou sélection d'unités (Unit Selection). Ceux-ci sont ensuite utilisés lors de la synthèse vocale de façon à réduire les mauvaises transitions. Cette amélioration peut demander des bases de données de diphones de plusieurs mégaoctets, voire de plusieurs gigaoctets.

Techniques

Transcription phonétique

La première opération à réaliser par un logiciel de synthèse vocale est de transcrire le texte, généralement écrit sous une forme orthographique, en une séquence de phonèmes, qui représentent exactement les sons qui doivent être prononcés. La technique classique pour réaliser la transcription phonétique est d'appliquer à la suite de lettres composant le texte une série de règles de réécritures dépendant du contexte. En français, mais encore plus en anglais, il est aussi nécessaire de connaître la catégorie grammaticale de certains mots: par exemple dans la phrase "les présidents président" la catégorie grammaticale du mot "président" détermine sa voyelle finale ("e" muet ou le digramme "en"). Enfin pour les mots dont la prononciation n'est pas régulière, et notamment pour les noms propres, on stocke tout simplement leur transcription phonétique dans un lexique d'exception.

Formants

La synthèse par formant repose typiquement sur la description des trois premiers formants du spectre de la parole. Chaque formant (maximum du spectre de parole) est classiquement décrit par trois paramètres, sa fréquence (en Hz), son amplitude (en dB) et sa bande passante (en Hz). L'amplitude représente l'intensité du signal à la fréquence du formant tandis que la bande passante représente la largeur du spectre autour du maximum formantique.

Intonation et prosodie

On entend par intonation d'une phrase le parcours mélodique de la voix pendant la prononciation de la phrase. L'intonation se mesure par la fréquence fondamentale de la voix. C'est une fréquence variable au cours du temps correspondant à la fréquence de vibration des cordes vocales pendant l'énonciation de la phrase, et qui s'observe aisément comme la périodicité du signal vocal. Typiquement la fréquence fondamentale d'une voix masculine possède une plage de variation dans la zone des 80 Hz à 150 Hz tandis que celle d'une voix féminine se situera plutôt dans la zone des 140 Hz à 200 Hz.

L'intonation est une caractéristique importante de la voix naturelle, qui dépend également très fortement de la langue concernée et du contenu linguistique de la phrase. Pour les langues à tons comme le chinois mandarin ou cantonnais, l'intonation conditionne même le sens des mots. En français, plus simplement, elle est une caractéristique reliée au type de phrase (affirmative, impérative, interrogative) et à la position des mots dans la phrases (intonation descendante en fin de phrase), et parfois reliée à la mise en valeur de certains mots (emphase). En tout cas, pour donner une impression de voix naturelle, la voix synthétique doit s'efforcer d'imiter l'intonation naturelle, et à l'inverse un énoncé synthétisé sans intonation est perçu comme anormal, et à la limite une voix synthétisée avec une fréquence fondamentale absolument constante, est perçue comme totalement artificielle ("voix de robot").

L'intonation constitue l'un des trois éléments de la prosodie, les deux autres paramètres prosodiques étant le rythme et l'intensité. En fait, pour être perçue comme naturelle, la synthèse vocale nécessite d'imiter une prosodie naturelle dans son ensemble. Ceci nécessite de reproduire aussi un rythme naturel, c'est-à-dire une durée naturelle des sons élémentaires (phonèmes). Quant à l'intensité, qui correspond aussi au volume sonore, elle est beaucoup moins critique que l'intonation ou le rythme pour obtenir un rendu naturel.

Diphones

Un diphone représente la transition entre deux phonèmes successifs.

Voir aussi

Icophone

Lecteur d'écran

Reconnaissance vocale

Vocalisation

Vocoder

Miku Hatsune

Liens externes

Démos en ligne

Démonstration de la synthèse vocale par Loquendo

Démonstration de la synthèse vocale de SVOX

Démonstration de la synthèse vocale par sélection d'unité de la société Européenne Acapela Group

Démonstration de la synthèse vocale de la société Américaine Cepstral

Démonstration de la synthèse vocale de Nuance (RealSpeak)

Démonstration de la synthèse vocale de la société italienne Loquendo

Démonstration en ligne de Synthèse Vocale de SitePal

Démonstration de la synthèse vocale de Multitel ASBL

Démonstration de la synthèse vocale de Pediaphon (synthèse vocale des articles de Wikipédia en français)

Démonstration de la synthèse vocale d'Orange Labs

Laboratoire CRISCO - Université de Caen Basse-Normandie

Logiciels

Libres

Festival (Linux) Festival

eSpeak (Linux) Synthèse vocale libre pour l'anglais et d'autres langues.

FreeTTS (Java)

Sayz Me (Windows, libre, simple d'utilisation, interface en anglais, possibilité d'ajouter des voix pour le français)

Proprietaires

Gratuits

MBROLA (synthétiseur vocal)

yread (gratuit, Windows, compatible avec le protocole SAPI 5.1)

TTSReader (synthétiseur vocal)

Payants

Voice Reader ( Windows )

Naturally Speaking (Windows)

Cepstral Swift (Windows Linux et Mac OS X)

SnapVoice (Windows)

eLite (Windows & Linux)

Digit PC (Windows)

Infovox Desktop (Windows) et Infovox iVox (Mac OS X)

Speechissimo (Mac OS X)

Proloquo (Mac OS X)

GhostReader (Mac OS X)

DECtalk software Synthèse vocale (Linux) multilangues.

Zyyne Synthèse vocale de documents (en ligne).

Logiciels AIACA Synthèse vocale Kali sur clé USB

Références

Synthèse Vocale et Reconnaisance de la Parole : Droites Gauches et Mondes Parallèles, T. Dutoit, L. Couvreur, F. Malfrère, V Pagel, C. Ris (http://tcts.fpms.ac.be/publications/papers/2002/cfa2002_tdlcfmvpcr.pdf)

Ce document provient de « Synth%C3%A8se vocale ».

Catégories : Interface utilisateur | Traitement de la parole | Traitement automatique du langage naturel

Contenu soumis à la licence CC-BY-SA. Source : Article Speech synthesis de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

speech synthesis — noun The generation of spoken sounds by a computer from input text • • • Main Entry: ↑speech * * * speech synthesis UK US noun [uncountable] computing a process in which a computer produces sounds that are similar to human speech Thesaurus:… … Useful english dictionary
Speech synthesis — Stephen Hawking is one of the most famous people using speech synthesis to communicate Speech synthesis is the artificial production of human speech. A computer system used for this purpose is called a speech synthesizer, and can be implemented… … Wikipedia
speech synthesis — kalbos sintezė statusas T sritis automatika atitikmenys: angl. speech synthesis vok. Sprachsynthese, f rus. синтез речи, m pranc. synthèse de parole, f … Automatikos terminų žodynas
Speech Synthesis Markup Language — (SSML) (Язык Разметки Синтеза Речи) представляет собой основанный на XML язык разметки для приложений синтеза речи[1]. Он был рекомендован рабочей группой W3C[2]. SSML часто встраивается в сценарии VoiceXML для интерактивных систем телефонии[3].… … Википедия
Speech Synthesis Markup Language — (SSML) is an XML based markup language for speech synthesis applications. It is a recommendation of the W3C s voice browser working group. SSML is often embedded in VoiceXML scripts to drive interactive telephony systems. However, it also may be… … Wikipedia
Speech Synthesis Markup Language — SSML (Speech Synthesis Markup Language) ist eine auf XML basierende Auszeichnungssprache, die um zusätzliche Befehle für die Sprachausgabe erweitert wurde. SSML wird häufig auch zusammen mit VoiceXML verwendet. Programmbeispiel <?xml version=… … Deutsch Wikipedia
speech synthesis — Generation of speech by artificial means, usually by computer. Production of sound to simulate human speech is referred to as low level synthesis. High level synthesis deals with the conversion of written text or symbols into an abstract… … Universalium
speech synthesis — creation through the use of a computer of sound output which resembles human speech … English contemporary dictionary
speech synthesis — UK / US noun [uncountable] computing a process in which a computer produces sounds that are similar to human speech … English dictionary
Speech Synthesis — A computer system which can produce human understandable words from electronic data … International financial encyclopaedia

Dictionnaires et Encyclopédies sur 'Academic'

Speech synthesis

Synthèse vocale

Sommaire

Historique

Techniques

Transcription phonétique

Formants

Intonation et prosodie

Diphones

Voir aussi

Liens externes

Démos en ligne

Logiciels

Libres

Proprietaires

Gratuits

Payants

Références

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Speech synthesis

Synthèse vocale

Sommaire

Historique

Techniques

Transcription phonétique

Formants

Intonation et prosodie

Diphones

Voir aussi

Liens externes

Démos en ligne

Logiciels

Libres

Proprietaires

Gratuits

Payants

Références

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link