- Moteur de traduction automatique Google
-
Le moteur de traduction automatique Google est le programme utilisé par le sevice de traduction automatique Google Translate.
En 2007 le moteur de traduction automatique Google a révolutionné le domaine où il pénétrait en s'appuyant sur des principes absolument nouveaux. Le système Systran qu'il utilisait jusqu'alors était conçu pour des ordinateurs individuels et était soumis à leurs limitations : il gérait des centaines de milliers de mots et d'expressions avec des traductions possibles en appliquant des règles de grammaire qu'on lui avait inculquées.
Une autre différence essentielle, dont curieusement il est très rare d'entendre parler[1], est qu'avec Google traduction l'anglais se trouve désormais au cœur du système[2]. Alors que, chez ses concurrents, l'espagnol par exemple est directement traduit en français et réciproquement, Google commence par traduire la langue source en anglais puis à retraduire de l'anglais vers la langue cible. C'est un système qui peut rappeler le défunt projet traduction de langues distribuée, avec cette différence que la langue-pont n'est plus une langue artificielle soigneusement élaborée pour présenter le moins d'équivoques possibles, mais une langue réelle dont, malgré son prestige, on connaît l'imprécision. Un seul exemple suffira : une phrase espagnole comme « Mi hermano podía venir » est correctement rendue en français par « Mon frère pouvait venir », que ce soit par Promt, par Reverso ou par Systran ; mais Google nous donne « Mon frère pourrait venir ». C'est que la phrase a dû faire le tour par l'anglais où elle est devenue « My brother could come », et l'on sait que « could » veut dire à la fois « pouvait » et « pourrait » ; obligé de choisir entre les deux, Google a opté pour le sens le plus fréquent qui en l'occurrence ne convient pas. L'erreur se retrouve même entre deux langues voisines puisque l'espagnol « Mi hermano podía venir » nous donne en portugais « Meu irmão poderia vir », avec « poderia » au lieu de « podia », c'est-à-dire le conditionnel au lieu de l'imparfait.
Sommaire
Google, Systran et Promt
Le système Google, qui travaille à partir d'un centre serveur, est capable de jongler avec des milliards de mots et d'expressions, « provenant de textes monolingues dans la langue cible et de textes mettant en parallèle les deux langues »[3]. La grammaire est laissée de côté : ce qu'on recherche, ce sont les équivalences les plus rapprochées. Un résultat gênant est que, si Google ne trouve pas une expression dans sa base de données, il l'omet purement et simplement. Christian Boitet, Directeur du GETA (Groupe d'étude pour la traduction automatique) à Grenoble écrit ainsi : « Tout le monde peut constater que GoogleTranslate fournit des traductions apparemment « fluides », mais, au moins à 30%, incompréhensibles, ou fausses, et surtout où des parties d'information ont disparu. »[4]
On aura un exemple en demandant à Systran et à Promt de traduire en ligne : « The monks prayed for the redemption of sinners and worked for the redemption of captives » ; le premier nous dira : « Les moines ont prié pour le rachat des pécheurs et ont travaillé pour le rachat des captifs » et le second : « Les moines ont prié pour le remboursement de pécheurs et ont travaillé pour le remboursement de captifs ». Au contraire Google[5] distinguera tout de suite entre les deux sens de « redemption » et traduira : « Les moines ont prié pour la rédemption des pécheurs et a travaillé pour le rachat des captifs » ; c'est que, dans la base démesurée des expressions qu'il possède, il trouve facilement « rédemption des péchés » et « rachat des captifs » ; en revanche, comme « worked » n'est pas placé immédiatement derrière « monks » il emploie sans réfléchir (c'est une simple machine) le singulier.
Ce n'est pas que Systran et Promt soient incapables de se corriger. Celui qui possède les logiciels n'a qu'à introduire dans leur vocabulaire le sens de « redemption of sinners » et de « redemption of captives » et tous les deux traduiront sans problèmes : « Les moines ont prié pour la rédemption des pécheurs et ont travaillé pour le rachat des captifs ». Mais l'accroissement des dictionnaires personnels ralentit le travail et le nombre des mots qu'il est possible d'y mettre n'est parfois pas illimité.
Étendue du vocabulaire
Du fait de son immense vocabulaire, Google est donc avantagé dans le cas de sujets modérément techniques. Pour traduire, par exemple, « Erbkrankheit » Promt et Systran décomposeront le mot en ses deux éléments et donneront « maladie héréditaire », en face de « maladie génétique », plus précis et plus professionnel de Google. En revanche, si nous proposons « erbliche Belastung » (tare héréditaire), aucun des trois ne connaît « Belastung » dans ce sens et ils rendront le mot par son sens habituel de charge : « charge héréditaire » pour Google et « erbliche charge » pour Promt et Systran qui ignorent même l'adjectif. Avec ces deux derniers cependant, un médecin qui aura entré l'expression dans un dictionnaire utilisateur obtiendra désormais toujours « tare héréditaire », tandis qu'il n'a aucun pouvoir pour imposer cette traduction à Google[6].
Google en vient même à ne pas traduire ce qu'il ne comprend pas, ne le laissant même pas dans la langue originale. Avons-nous : « Many Jews now made a living by providing lodging and food for the masses of Hasidim who visited the Admor »[7] et la traduction sera : « Beaucoup de Juifs vivant aujourd'hui en offrant un hébergement et de nourriture pour les masses de Hasidim qui ont visité le Admor », « made a » est mis de côté comme s'il n'existait pas. On peut le vérifier en soumettant la même phrase débarrassée de ces deux mots : le résultat sera le même[8].
On doit pourtant reconnaître que Google est parfois fort élégant. « Looking for a home? » est rendu par : « Vous cherchez une maison ? » formule qu'il est possible d'apprendre à Promt et à Systran mais qu'ils ne produisent pas spontanément, le premier disant de lui-même : « Le fait de chercher une maison ? » et le second : « Recherche d'une maison ? » Malheureusement l'adjonction d'un mot suffit à tout changer pour Google et « Looking for a new home? » deviendra « La recherche d'une nouvelle maison ? » Mieux encore, si « Looking for a wife? » c'est « Cherchez-vous une femme ? », « Looking for a husband? » est traduit par « La recherche d'un mari ? » On voit par là qu'on ne peut même plus parler d'intelligence artificielle mais de passage en force ; le logiciel recherche dans une base de données colossale et propose une solution selon les équivalences dont il dispose, tant pis si elles se contredisent. C'est ce qui explique peut-être des étrangetés comme « I had an ape » rendu correctement par « J'avais un singe », tandis que « I had a very intelligent ape » se transforme mystérieusement en « J'ai eu une très intelligent singes » avec deux fautes d'orthographes assez grossières. Quand une phrase est correctement traduite, on ne peut jamais être sûr qu'une autre, presque analogue, le sera aussi.
Le cas des termes techniques
Dans le cas de textes très techniques, l'étendue du vocabulaire dont dispose Google ne peut tout de même pas réaliser des miracles. Si nous lisons dans un article en allemand sur une espèce d'araignées la Brachypelma smithi :
« Oft richtet das Weibchen den Vorderkörper auf, um dem Männchen das Einhaken seiner Schienbeinhaken in ihre Beißklauen zu ermöglichen[9] », Google nous donne : « Souvent, la chienne vise les Vorderkörper, pour le mâle, le Einhaken son tibia Beißklauen crochet dans leur permettre », c'est-à-dire qu'elle traduit « Weibchen » par « chienne » (c'est assez souvent le cas) et, devant des mots inconnus, n'essaie même pas de les analyser comme Systran le fait dans les deux cas (« Souvent, la femelle redresse le corps d'avant, pour permettre accrocher de ses crochets de jambe sembler dans ses griffes mordre au mâle ») et Promt dans un seul (« La femelle dresse souvent le corps avant pour permettre le fait d'accrocher ses crochets de tibia dans ses Beißklauen au mâle »).
Les progrès de Google translate
Précisons tout de même qu'il est difficile de parler d'un tel moteur puisqu'entre le moment où ces lignes ont été écrites et le moment où on les lira, la situation pourra être très différente. Au 26 octobre 2007 la phrase : « Preußen (lat.: Borussia, Prussia oder Prutenia; poln. Prusy; russ.: Prussija) war ursprünglich das Gebiet des baltischen Volksstamms der Pruzzen, später eines der Länder des Deutschen Ordens und seit dem 16. Jahrhundert ein Herzogtum der Hohenzollern unter polnisch-litauischer Lehenshoheit, das seit 1618 in Personalunion mit der Mark Brandenburg verbunden war[10] » était traduite par « Prusse (en latin: Borussia, Prussia ou Prutenia; Polonais ancienne; Russe: Prussija) était à l'origine le territoire du pays baltes Chinoise de l'exilé, plus tard, l'un des pays de l'ordre et les Allemands depuis le 16 Un siècle, le duché de Hohenzollern sous polnisch-litauischer fief de la souveraineté, qui, depuis 1618 en union personnelle avec le Mark Brandenburg connecté » mais la traduction était devenue au début de 2008 : « Prusse (en latin: Borussia, Prussia ou Prutenia; polonais Prusy; russe: Prussija) était à l'origine le territoire du pays baltes Volksstamms la Pruzzen, plus tard, l'un des pays de l'ordre et les Allemands depuis le 16 Un siècle de la Duché de Hohenzollern sous polnisch-litauischer fief de la souveraineté, qui, depuis 1618 en union personnelle avec le Mark Brandebourg était associé », tout de même moins ridicule. Le 13 juillet 2009 nous avons : « La Prusse (en latin: Borussia, Prussia ou Prutenia; poln. Prusy; russe: Prussija) était à l'origine le territoire du peuple baltes Pruzzen de la racine, plus tard, l'un des pays de l'Ordre teutonique et depuis le 16 Siècle, un duché des Hohenzollern polono-lituanien de fief de souveraineté, qui, depuis 1618 en union personnelle avec la Marche de Brandebourg a été connecté ». Encore quelques progrès, même s'ils restent insuffisants.
Lorsque le cas est plus simple, les traductions fautives peuvent être corrigées avec le temps. C'est ainsi qu'au 13 juillet 2009 les phrases signalées plus haut : « Looking for a new home? », « Looking for a husband? » et « I had a very intelligent ape » sont rendues en français de façon irréprochable.
L'avenir de l'innovation
Du fait de sa gratuité, Google représente-t-il un danger pour les traducteurs d'une part, et d'autre part pour Promt et Systran qui pourraient voir baisser leurs ventes ? Pour les premiers il suffit de faire l'expérience pour constater que de telles traductions automatiques ne sont toujours pas exploitables directement ; « l'expérience montre que le temps que le traducteur passe à effectuer la correction de la traduction automatique est souvent supérieur au temps qui lui est nécessaire pour effectuer sa propre traduction »[11] ; pour les seconds, on ne pense pas qu'une entreprise sérieuse pourrait faire traduire un mode d'emploi de cette façon en pensant faire des économies ; mais celles qui le font avec des logiciels sans les faire paramétrer soigneusement (ce qui exige des spécialistes compétents et donc bien payés) pourraient bien y avoir recours.
Mais que réserve l'avenir plus lointain à cette innovation ? Sur un forum réservé aux traducteurs[12] on peut seulement remarquer que leurs jugements sont très différents ; les uns sont effrayés : « Les essais que j'ai effectués font froid dans le dos : les progrès sont impressionnants. Des pans entiers de la traduction professionnelle vont sans doute disparaître d'ici une dizaine d'années (à commencer par la traduction "pour information"). » D'autres sont plus optimistes : « Je pense qu'il est difficile d'imaginer qu'un jour proche ou lointain tout ce que le cerveau humain peut produire comme textes trouvera son équivalent en appuyant sur le bouton d'un moteur de recherche. » Il est encore trop tôt pour juger.
Notes et références
- L'article « La montée en puissance de la traduction automatique » paru dans Le Monde du 23 février 2010 n'en dit pas un mot, bien qu'il comprenne des propos de Marie Candito, maître de conférences en linguistique à l'université Paris-VII et spécialisée dans le traitement automatique des langues.
- Barbara Cassin, Directrice de recherches au CNRS, nous dit en passant dans Intraduisible et mondialisation que « L'offre multilingue tout comme l'offre de traduction, omniprésentes sur Google, pivotent effectivement toutes deux autour d'une seule et même langue, l'anglais, ou plus exactement, le globish. »
- Foire aux questions de Google Traduction
- Traduction automatique : ça marche ou non ?
- une page spéciale On peut lui soumettre des passages à traduire sur
- Au 18 mars 2010, cependant, la traduction est devenue correcte
- « Beaucoup de Juifs alors gagnaient leur vie en offrant hébergement et restauration aux foules hassidiques qui venaient rendre visite à l'Admor »
- Au 13 juillet 2009 la traduction ne s'était guère améliorée.
- La femelle redresse souvent le céphalothorax pour permettre au mâle de fixer les crochets de ses tibias dans ses chélicères
- À l'origine la Prusse (latin: Borussia, Prussia ou Prutenia; polonais: Prusy; russe: Prussija) était un territoire habité par une population balte: les Vieux-Prussiens. Par la suite elle devint une des possessions des Chevaliers Teutoniques ; au XVIe siècle elle forma un duché vassal de l'État polono-lituanien et appartenant aux Hohenzollern, avant d'être liée en 1618 à la Marche de Brandebourg par une union personnelle.
- témoignage sur le site de a3t2s
- [1] Site de Proz
Voir aussi
Wikimedia Foundation. 2010.