1De toutes les technologies linguistiques, celles dont l’évolution a été suivie avec la plus grande minutie sont sans doute les technologies relatives à la traduction automatisée [1]. Ce sont également celles qui suscitent autant de sarcasmes (la traduction de « chère amie » par « expensive girlfriend » des débuts de l’automatisation n’est qu’un exemple parmi tant d’autres – et pas le plus cocasse) que de scepticisme (« jamais la traduction automatique n’égalera la traduction humaine »). La langue étant perçue comme l’élément distinctif de l’espèce humaine, imaginer qu’une machine pourrait nous remplacer – voire nous dépasser – dans cet exercice langagier et cognitif majeur qu’est la traduction, ne peut qu’éveiller des peurs profondes. Et pourtant, après de nombreuses années d’échecs et de risées, on ne serait pas si loin du but... du moins pour quelques couples de langues privilégiés et toujours pour la traduction spécialisée qui, ne l’oublions pas, concernerait entre huit et neuf pages sur dix traduites dans le monde.
La traduction automatisée, enjeux et état de la situation
2La traduction automatisée a connu depuis sa naissance plusieurs stades qui l’ont fait basculer de l’euphorie au scepticisme, entre projets faramineux et échecs cuisants, bonds majeurs et complète atonie. Des milliers de projets ont vu le jour, la plupart d’entre eux ont disparu, certains ont fusionné, d’autres se sont transformés et il en émerge encore chaque jour. Au départ de nature politico-militaire (avec une quasi-exclusivité du couple de langues anglais-russe), elle est devenue un outil des politiques linguistiques dans les années 1970 et 1980 (les gouvernements canadien, français, allemand et japonais, pour ne citer que les plus visibles, investirent fortement dans ce but, suivis, plus tard, par la Commission européenne), pour finalement se développer aujourd’hui davantage en fonction du marché et des bénéfices économiques qu’elle peut procurer.
3Si de nouveaux programmes publics se font jour dans le but de démocratiser l’usage de la traduction automatisée et de favoriser des couples de langues peu étudiées jusqu’à présent comme le montre le dernier appel à propositions lancé par la Commission européenne [2], la nouvelle administration américaine y voit plutôt un bon moyen de rendre ses entreprises compétitives [3], partant du constat qu’en moyenne 52 % des consommateurs n’achèteraient pas un produit qui n’est pas décrit dans leur langue (60 % en France), selon une enquête menée par le cabinet de consultation Common Sense Advisory en 2006 dans huit pays développés (Report on Global…, 2006).
4Les techniques évoluent rapidement et les modèles utilisés sont multiples [4]. Le public cible évolue également et si les administrations continuent à être de grandes utilisatrices (notamment les organisations internationales et certains pays plurilingues), les grandes multinationales font autant appel à la traduction automatisée que les petites entreprises et les particuliers, notamment les traducteurs eux-mêmes.
5Forcément, la gamme de prix est vaste et l’offre variée : depuis l’application grand public à quelques dizaines d’euros permettant de comprendre et de transmettre l’essentiel d’un message, jusqu’au système perfectionné pour traducteurs professionnels pouvant coûter plusieurs milliers d’euros (incluant souvent d’autres outils linguistiques complémentaires), mais ne nécessitant qu’une faible phase de post-édition, en passant par les outils gratuits en ligne.
6Les compagnies Systran, Trados, Metal, Logos, Softissimo, Star, IBM, entre autres, offrent depuis longtemps une large gamme de produits payants de qualité pour le traducteur professionnel. Certaines se sont même développées conjointement avec des organismes internationaux (la coopération la plus célèbre – non sans mal – étant celle de Systran avec la Commission européenne) ou de grandes multinationales (comme le font BabelFish et WorldLingo).
7D’autres initiatives, au départ moins ambitieuses, ont trouvé également un public professionnel comme le logiciel Wordfast, au début gratuit, aujourd’hui payant (mais abordable) et dont l’une des dynamiques repose sur un groupe d’utilisateurs qui puisent dans un corpus commun de mémoires de traduction alimenté par leurs soins [5].
8C’est précisément un modèle similaire (dans sa composante collaborative, mais non dans la technologie utilisée) qui permet à Google d’offrir des traductions en ligne d’une qualité parfois remarquable, du moins par rapport à ses concurrents offrant des solutions similaires sur la Toile. En effet, le géant américain, qui dispose d’un grand réservoir de textes ratissés chaque seconde par ses puissants moteurs et de traductions alimentées en permanence par ses utilisateurs, peut prendre ses distances avec ses concurrents. IBM semble aujourd’hui suivre ses pas, après l’annonce du lancement de N-fluent [6], un système de « traduction automatique collaborative », lors du dernier sommet de la traduction automatique (MT Summit, Ottawa, août 2009). Du reste, la banalisation et la mise à disposition gratuite ou incorporée par défaut de la traduction semblent être le chemin qu’empruntent la plupart des applications actuelles, comme la suite bureautique Office 2010 [7], Youtube [8] et Twitter [9] pour ne citer que les exemples les plus récents.
9Cependant, si tout semble indiquer que la traduction automatisée s’intégrera de facto à toutes nos applications et si la qualité semble être largement satisfaisante pour certains couples de langues et le panorama plus large en matière de langues concernées, la qualité est absente pour la plupart des paires traitées.
La « valeur » de la langue
10La langue est aussi, ne l’oublions pas, un chiffre d’affaires comme le démontrent les récentes études réalisées par les Espagnols (García Delgado, 2008) et les Portugais [10] sur la valeur de la langue estimant que celle-ci a une part équivalente à un sixième du PIB national ou les études similaires réalisées dans d’autres pays latins, notamment au Canada (Breton, 1978, 1998), en France et en Suisse (Grin, 1999). Précisément, François Grin (2005, p. 93-95) nous rappelle que la prédominance de l’anglais en Europe ferait gagner au Royaume-Uni entre 10 et 17 milliards d’Euros par an.
11C’est ainsi que le marché de la traduction en 2009 était estimé à 16 milliards de dollars par Common Sense Advisory [11] et le double par LISA [12], tandis que la société Systran, qui déclare être le « premier éditeur de logiciels de traduction automatique », affichait, début novembre 2009, une insolente progression de son chiffre d’affaires sur les neuf derniers mois, crise ou pas crise [13].
12Mais les chiffres de la traduction en général demeurent modestes par rapport aux besoins réels. Soulignons que le marché mondial de la traduction est concentré à 83 % en Europe et aux États-Unis [14] et que, si toute la traduction du monde était gérée par une seule entreprise, celle-ci ne figurerait pas dans le palmarès des 100 premières entreprises du monde [15]. La réalité est que plusieurs pays affichent clairement un manque de traducteurs comme le Canada, la Chine et l’Europe de l’Est, et la Commission européenne peine à en trouver, mais ce n’est que l’arbre qui cache la forêt.
13Les pays en développement manquent aussi cruellement de traducteurs et même si cette demande n’est pas formulée par les institutions, les utilisateurs en subissent les conséquences. Par ailleurs, si Daniel Gouadec (2009, p. 1) nous dit que « le secteur de la traduction se caractérise surtout par une très forte fragmentation avec énormément de très petites entreprises et une profusion de traducteurs indépendants », en 2007, un quart des traductions du monde était malgré tout assuré par 25 entreprises [16].
14Le déséquilibre géolinguistique est également nettement visible dans la traduction automatisée. Si elle arrive à maturité, si elle est performante, si elle est rentable, cela ne concerne que très peu de langues. En outre, elle est majoritairement utilisée en Amérique du Nord et en Europe, dans une moindre mesure en Chine et au Japon, tandis que le reste du monde est peu visé. Il existe, à l’heure actuelle, des systèmes de traduction pour une soixantaine de langues seulement, soit 1 % des langues de la planète, et si les couples qui comprennent l’anglais et une petite poignée de grandes langues de communication donnent satisfaction à leurs usagers, il n’en va pas de même pour les autres, y compris certaines langues supercentrales selon la classification déjà célèbre de Louis-Jean Calvet (1999). Notons néanmoins que la langue française est la mieux lotie de ces langues supercentrales. 60 % de la traduction mondiale se passerait entre l’anglais et le français, même si le couple anglaischinois enregistre aujourd’hui la plus forte croissance [17].
Traduction humaine et traduction automatisée dans les pays latins
15Si les systèmes de traduction automatisée ont d’abord vu le jour aux États-Unis et en Union soviétique, les Latins n’ont pas tardé à se manifester, les Français et les Italiens ayant commencé à s’y intéresser vers la fin des années 1950 (Léon, 2006). C’est dans les années 1970 que l’on verra les développements majeurs avec TAUM-MÉTÉO [18] au Canada, Ariane [19] et Titus en France (Loffler-Laurian, 1996). Quelques années plus tard, un ingénieur bolivien parviendra à vendre à l’administration du canal de Panamá un système de traduction automatique, Atamiri, basé sur une langue pivot, en l’occurrence – et c’est son originalité – une langue naturelle, l’aymara [20]. Les autres Latins n’ont commencé que tardivement à développer des outils pour leurs propres langues, et plus particulièrement suite au lancement par la Communauté européenne du projet Eurotra (qui, rappelons-le, n’a pas produit le système de traduction automatique pour lequel il avait été lancé, mais a permis de dynamiser fortement les industries langagières européennes).
16Bien évidemment, la plupart des outils développés par les pays de langues romanes se concentraient quasi exclusivement sur la traduction de et vers l’anglais, hormis quelques projets basés sur une langue pivot ou interlingua (comme les projets Ariane et Atamiri susmentionnés) qui vantaient leurs avantages du fait de la facilité d’inclure à moindre coût des langues supplémentaires.
17Ce n’est que récemment que l’on a vu apparaître des outils pour un éventail de paires de langues latines, même si quatre langues romanes figurent parmi les 8 langues les plus utilisées par les systèmes de traduction automatisée. La proximité entre langues latines – autrement dit, le haut degré d’intercompréhension entre ses locuteurs – couplée au faible intérêt économique des pays latins (hormis la francophonie) jusqu’au milieu des années 1990 n’a probablement pas été étrangère à ce développement tardif [21]. Et pourtant, cette proximité linguistique qui profite tant aux méthodes dites d’intercompréhension [22] aurait pu servir aussi au développement de systèmes de traduction automatique, pour un moindre coût.
18La traduction automatisée n’est pas la seule à avoir souffert de cette absence du « besoin ressenti ». Par exemple, ce n’est que très récemment que se sont multipliés des programmes de formation de traducteurs portugais-espagnol en Amérique latine (et ceci grâce à la création du Mercosur [23]), d’italien-portugais en Italie ou encore de roumain-espagnol en Roumanie. A contrario, la langue française a toujours figuré dans les programmes de formation de traducteurs des autres pays latins, mais les francophones n’ont intégré que timidement l’italien et le portugais dans leurs cursus et dans une bien moindre mesure le roumain.
19Dans les pays latins non francophones, les plus récents développements en nombre nous viennent d’Espagne où les développeurs actuels sont majoritairement issus des équipes d’IBM, Siemens ou Fujitsu – conséquence directe du projet Eurotra. Les politiques linguistiques des communautés autonomes ont favorisé l’essor des traducteurs automatisés entre les couples de langues catalan-espagnol, basque-espagnol, galicien-espagnol, mais également entre langues autonomiques [24]. L’Institut Cervantes [25], organisme officiel de diffusion de la langue espagnole, propose sur son site un système de traduction automatique [26] de l’espagnol vers l’anglais, le français et le portugais et vice-versa et même de et vers les langues autonomiques, à l’image de nombre de services officiels régionaux.
20Dans un panorama largement dominé par les technologies propriétaires, le logiciel libre et à code ouvert commence à apparaitre dans la traduction automatisée avec de bonnes surprises. Souvent issues d’une collaboration entre universités, entreprises et secteur public, ces applications libres s’intéressent généralement à des couples « rares ». Si c’est à Barcelone et à Madrid que les premiers projets ont vu le jour, aujourd’hui des applications naissent également à Vigo, San Sebastian ou Alicante. C’est précisément à l’université d’Alicante que sont apparues des applications pour les langues romanes comme Internostrum [27], pour la traduction entre l’espagnol et le catalan, Traductor Universia [28] pour la traduction entre l’espagnol et le portugais, ou encore Apertium [29] – qui a donné lieu à Opentrad [30] –, système gratuit et à code ouvert conçu pour plusieurs langues romanes comme l’espagnol, le portugais, le français, le catalan, le galicien et le roumain, mais développé également pour le basque et d’autres langues plus inhabituelles comme l’esperanto et le breton. L’une des applications dérivées (http://www.traductor.cc/) offre, comme beaucoup d’autres systèmes, des traductions Web où l’on peut apprécier l’avantage de traduire entre langues proches, même si la limite possible de traduction est réduite à la portion congrue (250 caractères). À cela viennent s’ajouter des projets de mémoires de traduction collaboratives gratuites et à code source ouvert comme le gestionnaire de mémoires de traduction Tumatxa [31], développé au Pays basque.
Défis pour les langues romanes
21Mais si certaines de ces applications entre langues romanes donnent des résultats intéressants (grâce à leur proximité déjà décrite), les traducteurs humains ont encore de beaux jours devant eux. La traduction automatisée se démocratise, s’insère naturellement dans de nombreuses applications et améliore substantiellement sa qualité pour un spectre de langues encore limité ; mais sans une impulsion du marché ou des politiques publiques, de nombreuses paires de langues auront du mal à trouver satisfaction, même si des systèmes collaboratifs comme Google, Wordfast, OmegaT ou autres pourraient accélérer le mouvement.
22Encore faut-il que les langues disposent de corpus écrits suffisamment importants et qu’elles soient assez outillées, ce qui est hélas loin d’être acquis pour le plus grand nombre de langues de la planète. Il est vrai que six des langues romanes sont convenablement équipées [32], mais des développements sont encore nécessaires pour donner entièrement satisfaction tant aux traducteurs automatisés qu’aux traducteurs humains travaillant avec ces langues. Ainsi, à une réforme orthographique qui tarde à se mettre en place pour la langue portugaise, à un manque de ressources publiques pour automatiser les langues italienne, portugaise et roumaine [33] en dehors de celles offertes par la Commission européenne, vient s’ajouter un manque flagrant de politique terminologique pour les langues romanes – hormis le français et le catalan. Cet état de fait est d’ailleurs à l’origine de la création d’initiatives associatives et notamment celle du Réseau panlatin de terminologie (Realiter) [34], qui réunit les principaux acteurs terminologiques de sept langues romanes et qui, malgré un remarquable travail, est, bien évidemment, loin de pouvoir subvenir à tous les besoins de ces langues.
23Une récente initiative des « Trois espaces linguistiques » [35] consistant en un projet d’interopérabilité entre banques de données terminologiques pour l’espagnol, le français et le portugais, pourrait donner un fort élan à la vitalité terminologique de ces trois langues, mais le chemin à parcourir est encore long. Souhaitons qu’un projet similaire en matière de technologies linguistiques pour l’ensemble des langues romanes puisse lui succéder.
Notes
-
[1]
Le terme « traduction automatisée » décrit ici, par souci d’économie de langage, l’ensemble des techniques permettant une automatisation de la traduction. Nous avons évité de dire « traduction automatique », car cette notion est communément utilisée pour décrire seulement l’une de ces techniques.
-
[2]
Soit dit en passant, la Commission européenne n’a pas cru bon de diffuser ces appels autrement qu’en anglais, faussant drastiquement les règles de jeu entre Européens. Voir l’appel en question (clos) : <http://cordis.europa.eu/fp7/ict/languagetechnologies/fp7-call4_en.html>.
-
[3]
Voir le dernier paragraphe du document synthétisant la « stratégie d’innovation » de la Maison Blanche : <http://www.whitehouse.gov/assets/documents/SEPT_20__Innovation_Whitepaper_FINAL.pdf>.
-
[4]
Voir notamment la présentation faite par Victoria Arranz à l’occasion de l’i-expo 2009 sur les systèmes de traduction automatique : <www.i-expo.net/documents/actes2009/a2_Arranz-diff.pdf>.
-
[5]
Projet VLTMT (Very Large Translation Memory project). Pour plus d’informations, voir : <http://www.wordfast.net/index.php?whichpage=jobs&lang=frfr>.
-
[6]
« IBM se lance dans la traduction automatique collaborative », nouvelobs.com, 4 septembre 2009. En ligne sur <http://tempsreel.nouvelobs.com/actualites/sciences/technologies/20090904.OBS9957/ibm_se_lance_dans_la_traduction_automatique_collaborati.html>.
-
[7]
La traduction automatisée concernerait, de façon transparente, toutes les applications de la suite. Voir <http://www.zebulon.fr/dossiers/124-7-traduction-automatique-office-2010.html>.
-
[8]
Youtube propose la traduction des sous-titres générés automatiquement : <http://www.youtube.com/watch?v=kTvHIDKLFqc>.
-
[9]
Les messages de Twitter peuvent être traduits grâce à l’application Twieee <http://www.twieee.com/>.
-
[10]
Voir les premières conclusions de l’étude qui devrait être publiée en 2010 : <http://www.instituto-camoes.pt/images/stories/destaques/apresentao_estudo_valor_lngua.pdf>.
-
[11]
Voir le rapport 2008 de Common Sense Advisory sur la taille du marché de la traduction et ses prévisions jusqu’en 2012 : <http://www.commonsenseadvisory.com/LinkClick.aspx?link=CSA_Research%2fAll_Users%2f080528_QT_2008_top_25_lsps.pdf&tabid=1492&mid=3261>.
-
[12]
Voir <http://www.lisa.org/>.
-
[13]
Voir le communiqué sur <http://www.systran.fr/download/financial-releases/SYSTRAN.2009.quarter3.revenue.pdf>.
-
[14]
Voir la note 11.
-
[15]
Selon le classement Fortune Global 500 des entreprises en fonction de leur chiffre d’affaires. Et pour l’anecdote, elle aurait six fois moins de personnel que la première de ces entreprises, en supposant que le chiffre de 350 000 traducteurs en exercice dans le monde avancé par la société Language Weaver (<http://www.languageweaver.com/>) ne soit pas éloigné de la vérité.
-
[16]
Voir la note 11.
-
[17]
« La traduction : une industrie de 26 G$ en expansion », Rue Frontenac, 30 juillet 2009. En ligne sur <http://www.ruefrontenac.com/affaires/119-enjeux/8761-traduction-le-boom>.
-
[18]
Système de traduction des bulletins météo du Canada dont le domaine très restreint certes n’est pas étranger à sa performance. Pour plus d’informations sur le système, lire l’article de Christian Boitet « La traduction automatique, on n’y arrivera jamais ? » paru dans le journal électronique Interstices, 2009. En ligne sur : <http://interstices.info/idee-recue-informatique-7>.
-
[19]
« Premier système de deuxième génération », comme l’indique l’historique du GETA : <http://www-clips.imag.fr/geta/historique/>.
-
[20]
La faillite de la compagnie Wang, système sur lequel fonctionnait Atamiri, portera un coup fatal au projet, et son créateur ne pourra jamais sortir du cadre de l’expérimentation pilote sur ordinateur. Pour plus d’informations sur le projet, voir <http://www.atamiri.cc/>.
-
[21]
Rappelons que l’Espagne et le Portugal réunissaient à peine les conditions pour rejoindre l’Union européenne (1986) et que l’Amérique latine traversait ce que l’on appela plus tard la « décennie perdue ».
-
[22]
Méthodes permettant de se comprendre mutuellement entre locuteurs de langues différentes, sans nécessairement parler la langue de l’autre. Voir à ce sujet la brochure <http://www.dglf.culture.gouv.fr/publications/intercomprehension.pdf> ou pour une initiation en ligne le lien <http://dpel.unilat.org/dpel/creation/ir/index.fr.asp>.
-
[23]
Marché commun composé de cinq pays hispanophones et du Brésil, pays lusophone, où l’espagnol et le portugais sont officiels.
-
[24]
On appelle communément langues autonomiques les langues qui ont un statut co-officiel avec l’espagnol dans les Communautés autonomes de l’Espagne, régions administratives disposant chacune d’un gouvernement autonome.
- [25]
-
[26]
Réalisé par la compagnie AutomaticTrans de Barcelone <http://www.automatictrans.es/home.asp>.
-
[27]
Voir <http://www.internostrum.com>.
-
[28]
Voir <http://traductor.universia.net>.
-
[29]
Voir <http://www.apertium.org>.
-
[30]
Voir <http://www.opentrad.org>.
-
[31]
Voir <http://www.tumatxa.com/es>.
-
[32]
Ce sont le catalan, l’espagnol, le français, l’italien, le portugais et le roumain. Le galicien peine à trouver satisfaction malgré diverses initiatives, tandis que les autres langues romanes (pour différentes raisons) sont loin d’être assez outillées pour être utilisées dans des contextes de spécialisation.
-
[33]
Malgré les activités soutenues de l’institut de linguistique et de l’institut de l’intelligence artificielle de l’Académie roumaine.
-
[34]
Voir <http://www.realiter.net>.
-
[35]
Groupement composé de cinq organisations intergouvernementales souhaitant agir en faveur des langues et cultures francophone, hispanophone et lusophone : Communauté des pays de langue portugaise (CPLP), Organisation intergouvernementale de la Francophonie (OIF), Organisation des États ibéro-américains (OEI), Secrétariat général ibéro-américain (SEGIB) et Union latine.