Les défis de l'alignement

Ou comment tirer le meilleur des logiciels d'alignement

[ Cet article a été présenté lors du séminaire Équivalences 01 consacré aux outils d'aide à la traduction (en particulier les mémoires de traduction), journée organisée par l'Association suisse des traducteurs, terminologues et interprètes, à Neuchâtel (Suisse) en avril 2001. Pour plus d'infos sur ce séminaire, veuillez consulter le site de l'ASTTI. ]

Approche

Le principal objectif de cet article est de partager une expérience acquise dans un contexte professionnel avec des outils d'alignement. Il ne s'agit pas ici d'évaluer les fonctionnalités des outils ou de les comparer a priori, mais bien d'observer la façon dont ils ont pu – ou non - être intégrés à un environnement de travail existant ou à un projet déterminé. Il s'agit d'analyser quelles sont les solutions que l'on peut imaginer en cas de problèmes. Je ne cherche pas à promouvoir un outil au détriment d'un autre mais plutôt à tirer des constatations objectives à partir d'expériences pratiques. Je cherche également à montrer qu'il existe des faiblesses inhérentes aux outils et des faiblesses qui ne se révèleront qu'en fonction de l'environnement ou plutôt de la tâche pour laquelle on destine les outils.

Remarques générales sur les aligneurs

Alignement ?

Aligner, c'est faire un découpage d'un texte A (en général texte en langue source) et d'un texte B (en général traduction), et mettre en parallèle les segments ainsi découpés des textes A et B, c'est-à-dire apparier ces segments. Selon les outils, on parlera soit de paire de segments ("segment pairs" pour SDLAlign) ou d'unités de traduction ("translation units" pour WinAlign). Notamment pour des raisons de mise en page et de mise en forme, qui diffèrent selon les documents à aligner, l'appariement des segments est rarement correct à 100 %. Il faut donc corriger l'alignement afin d'importer (càd enregistrer) dans la base de données (dans le cas qui nous intéresse, une mémoire de traduction) des paires de segments ou unités de traduction "propres" et qui pourront donc être utilisés en toute confiance par les traducteurs.

Le choix de l'outil – Critères

Interface

Lorsqu'on choisit un aligneur, plusieurs facteurs sont à prendre en considération. L'interface est un des premiers facteurs, qui concerne davantage la personne responsable de l'alignement et de la création des MT que les utilisateurs ultimes de celles-ci (à savoir des traducteurs). Par interface, on entend l'environnement du logiciel d'alignement, la présentation générale de l'outil (boutons, fenêtres, couleurs, etc.) et l'affichage du résultat de l'alignement à l'écran. Si la mémoire de traduction est principalement alimentée au moyen d'une insertion des traductions au fur et à mesure (par exemple lorsque les traducteurs travaillent en interface avec la mémoire de traduction, comme avec Translator's Workbench ou SDLEdit), l'alignement ne sera donc qu'occasionnel ou marginal; dans ce cas de figure, une interface un peu maladroite ou peu "user friendly" ne sera pas un critère très pertinent. Cependant, il faut considérer que si l'on doit aligner un corpus de textes très important (plusieurs centaines de textes, par exemple), une interface bien faite facilitera la correction des alignements et rendra l'ensemble du processus nettement moins fastidieux.

Fonctionnalités

Les autres facteurs à prendre en compte sont bien sûr les options ou fonctionnalités offertes par les outils. Les logiciels d'alignement proposent en général les options suivantes: le choix des langues, la sélection des fichiers à aligner, l'ajout de listes d'abréviations, la modification des règles de segmentation et différentes options liées à l'importation de l'alignement dans une MT. Un outil qui offre beaucoup de fonctionnalités paraît toujours très intéressant de prime abord. Il ne faut cependant pas succomber au "syndrome du couteau suisse" : à quoi sert d'avoir un tire-bouchon, une boussole, un ouvre-boîte, un loupe, une lime à ongles, etc., lorsque c'est simplement d'une lame bien affûtée dont on a besoin ? Dans un outil, quel que soit le nombre de fonctions, on finit toujours par utiliser uniquement celles qui sont vraiment utiles et par ne pas savoir que faire de toutes les autres (non pas parce qu'elles ne sont pas utilisables en elles-mêmes, mais parce qu'elles ne sont pas pertinentes pour la tâche à accomplir).

Mais pour déterminer si l'outil est intéressant, il ne suffit pas de considérer ce qu'il propose, il faut également définir quels sont les besoins de l'utilisateur, quelles sont les caractéristiques de l'environnement de travail dans lequel devra être intégré l'outil. Il est primordial de définir ces critères avant d'acquérir un outil. Lapalissade ? Peut-être, mais un utilisateur averti en vaut deux…

Les critères à considérer peuvent, entre autres, être les suivants:

le format des fichiers à traiter : quels formats supporte le logiciel ? quels formats utilisent les traducteurs ? l'outil offre-t-il des modules de conversion (par exemple pour convertir un grand nombre de fichiers en même temps) ?

les langues : le logiciel peut-il aligner des textes en langues non européennes (arabe, chinois, japonais, etc.) ?

la mise en forme des textes : l'outil affiche-t-il dans le résultat d'alignement la mise en forme (gras, italique, liens hypertextes, etc.) ? la mise en forme est-elle importée dans la mémoire de traduction ?

le traitement des tableaux et des images: comment réagit l'outil lorsque le document à aligner contient des images ? comment sont traités les tableaux dans l'alignement ?

les notes de bas de page: comment l'outil gère-t-il les notes de bas de page et les notes de fin de document ?

les listes d'abréviations : l'outil peut-il prendre en compte une liste d'abréviations lors de l'alignement ? si oui, est-il possible d'établir une liste par langue ?

les règles de segmentation : peut-on modifier les règles de segmentation (par ex. décider que le point-virgule est un marqueur de fin de segment) ?

les attributs : peut-on ajouter aux textes alignés des attributs (titre du document, cote, numéro de job, nom du traducteur, nom de l'auteur, domaine, sous-domaine, etc.) avant d'importer le résultat dans la mémoire de traduction ?

l'alignement : sous quelle forme est enregistrée le résultat d'alignement ? peut-on l'utiliser autrement que dans une mémoire de traduction ? peut-on l'importer dans différents systèmes de mémoires de traduction ?

Bien sûr, cette liste est loin d'être exhaustive et devra varier en fonction de l'environnement de travail. La détermination des critères doit être faite – idéalement – par les personnes qui se chargeront de la création des mémoires de traduction (et donc des alignements) et par celles qui utiliseront les mémoires, afin que les intérêts de chacun soient correctement pris en compte.

Deux outils, deux expériences

WinAlign – Fédération internationale des sociétés de la Croix-Rouge et du Croissant-Rouge (Fédération)

Contexte – objectifs

Comme son nom l'indique, la Fédération est l'organisme international qui regroupe toutes les sociétés de la Croix-Rouge et du Croissant-Rouge. Le Secrétariat de la Fédération, dont le siège est à Genève, a un service de traduction et conférences qui compte deux traductrices pour le français et une pour chacune des autres langues officielles, à savoir l'anglais, l'espagnol et l'arabe. Le Service de traduction compte également une responsable de la documentation, une répartitrice et trois assistants responsables notamment de la mise en forme des documents traduits. Il emploie en outre des traducteurs externes, dont le nombre varie en fonction du volume de travail. Conscient de la nécessité de produire des traductions de grande qualité, avec une terminologie fiable et cohérente, le Service a décidé d'acquérir un outil d'aide à la traduction. Il a opté pour les outils Trados, installés en avril 1999.

Les objectifs étaient les suivants: créer des mémoires de traduction pour traiter des textes répétitifs (par ex. les avis de vacance de poste), pour les utiliser comme matériel de référence tant pour les traducteurs internes qu'externes; et créer une base de données terminologiques (ou plutôt un glossaire multilingue complet) pour garantir la cohésion et la fiabilité des termes typiques à la Fédération. Il avait également été envisagé d'échanger ces données avec le CICR, qui utilisait aussi MultiTerm.

N'ayant pas participé à la prise de décision, je ne saurais dire exactement quels ont été les arguments qui ont convaincu le Service de traduction d'opter pour les outils Trados. Je pense cependant que ce choix a reposé sur deux critères: l'excellente réputation des outils Trados, notamment de MultiTerm, et la "promesse" de Trados de lancer une version supportant l'arabe.

Problèmes

Une des particularités du traitement des documents à la Fédération est que seules les versions papier font foi. Ce sont les versions finales et une version électronique sera toujours considérée comme moins fiable que la version papier. Les documents traduits que le Service de traduction publie sont parfois modifiés par d'autres services, qui ne gardent pas toujours une dernière version électronique de l'original et/ou de la traduction.

Lorsqu'on crée une mémoire de traduction (MT), il faut être sûr de ce qu'on y insère et il est inutile d'y intégrer des documents qui ont été révisés depuis leur parution. Le premier problème rencontré était donc de trouver la version finale des documents. Lorsque seule une version papier était disponible, il a fallu scanner le document et corriger le résultat du scanning avant même de pouvoir aligner.

L'autre particularité tient au traitement de textes utilisé à la Fédération: à l'exception des postes de travail pour l'arabe, équipés avec Word, tout le personnel du Secrétariat, et donc du Service de traduction, travail avec WordPro (traitement de textes Lotus). WordPro n'étant pas un logiciel aussi répandu que Word, les constructeurs d'outils d'aide à la traduction l'ont à ce jour ignoré. Le deuxième problème, et sans doute le plus important, était donc que WinAlign ne reconnaissait pas le format WordPro (extension .lwp). Chaque document à aligner devait donc être ouvert dans WordPro (Word ne reconnaissant pas non plus ce format) et converti en RichTextFormat. Outre la considérable perte de temps que la conversion représentait, cela causait d'énormes problèmes pour la mise en forme des documents, qui n'était plus respectée dans le format rtf. Si l'on ajoute à tout cela le fait que la présentation des documents différaient selon la langue (par ex. liste à puce en français et un seul paragraphe avec éléments séparés par point-virgule en anglais), on peut imaginer le résultat à l'alignement.

Étant donné la façon dont WinAlign présente le résultat d'alignement, sous forme de deux colonnes séparées par une zone de liens, si une paire de segments était mal alignée en début de document, il fallait revoir l'intégralité de l'alignement. L'interface de WinAlign s'est montrée alors extrêmement peu souple, obligeant un travail manuel à la souris qui, sur un texte de plusieurs dizaines de pages, peut se révéler particulièrement fastidieux.

Solutions

Lorsqu'on cherche des solutions dans un tel cas de figure, il faut bien distinguer les problèmes qui sont inhérents à l'environnement et ceux qui sont dus à l'outil. WinAlign est certes un outil fiable, solide, qui présente des fonctionnalités intéressantes, comme l'ajout d'attributs et de listes d'abréviations etc. En ce qui concerne l'alignement lui-même, WinAlign est performant pour autant que l'on travaille avec des documents mis en forme dans Word (par exemple à l'aide des styles) de manière rigoureuse et que la mise en forme soit semblable dans les deux langues.

Dans le cas présent, le fait que les documents disponibles étaient en format .lwp ne pouvait pas être changé et constituait un problème indépendant de l'outil lui-même. Il fallait donc trouver le moyen d'obtenir un premier résultat d'alignement le plus juste possible, de manière à éviter une perte de temps à la correction. La seule solution envisageable a donc été de procéder à une pré-édition des textes dans Word. Cette pré-édition consistait à ouvrir dans Word les deux textes à aligner, à en corriger la mise en forme générale (suppression des retours à la ligne manuels, par ex.), et à établir une mise en forme parallèle des deux textes (parallélisme dans les listes à puces, les tableaux, etc.). Une fois les deux textes pré-édités, il était possible de les aligner et d'obtenir un résultat satisfaisant, nécessitant un minimum de corrections.

Cette solution était bien sûr biaisée sur bien des plans, car le temps gagné au moment de la correction de l'alignement dans WinAlign était en partie perdu à l'étape de la pré-édition. De plus, ce n'était une solution envisageable que dans la mesure où le corpus des textes à traiter n'était pas très important (une cinquantaine de textes au départ, puis ajout de textes au fur et à mesure de leur parution). Ce n'est certes pas une solution adéquate si l'on doit aligner plusieurs centaines de textes, dans quel cas il faudrait tous les ouvrir d'abord dans Word etc.

Il faut noter ici que les options offertes par WinAlign supposées améliorer le résultat de l'alignement (prise en compte des styles, changement des règles de segmentation, etc.) se sont révélées particulièrement inefficaces pour régler le problème.

SDLAlign – Projet ISSCO/ETI – Chancellerie fédérale

Contexte et objectifs
Le contexte de cette deuxième expérience est très différent de celle ci-dessus. Dans le cadre du projet Suisstra, il a été décidé de créer des mémoires de traduction à partir des textes du Recueil systématique des lois (RSL), cela dans les trois combinaisons linguistiques. Parallèlement, nous avions à disposition une version beta (c'est-à-dire non encore commercialisée) de SDLX. SDLX est un ensemble d'outils d'aide à la traduction créé par SDL International, société spécialisée dans la localisation (logiciels et sites Web notamment). Nous avons donc décidé de tester l'aligneur de SDLX, SDLAlign, tout en créant les mémoires de traduction pour la Chancellerie.
En cours de projet, une nouvelle version de SDLX a vu le jour et nous avons continué les alignements avec cette nouvelle version. Étant donné l'important volume de textes à traiter, nous avions décidé de procéder par chapitre du RSL et par couple de langue (ex: chap 1 – français/allemand; chap. 1 français/italien; etc.).
Problèmes
SDLAlign est un outil relativement différent de WinAlign. Il travaille avec un format spécifique, le format OTF (OpenTagFormat). Lorsque l'on convertit un fichier à ce format, toutes les informations relatives à la mise en forme et au formatage du texte sont enregistrés dans un fichier à part et seul le texte brut ("les mots uniquement") est aligné. Avec la première version de SDLX, le seul format reconnu par SDLAlign était le format OTF. Comme la version des textes du RSL que nous possédions était en .doc, il fallait convertir tous les fichiers de .doc en .rtf puis de .rtf en .otf. De plus, certains fichiers .doc contenaient des images (images de formulaires types par ex.) qui, une fois convertis en .rtf, prenaient une taille énorme, ingérable par le module de conversion de .rtf en .otf; ces fichiers devaient donc être ouverts dans Word pour qu'on y efface les images (qui ne sont de toutes façons pas pris en compte par l'aligneur) avant de les convertir en .rtf.
Un autre problème provenait d'un bug du programme, qui ne permettait pas au logiciel de traiter correctement la liste d'abréviations.
Autre problème encore, et c'est là une particularité de SDLX, il n'est pas possible de modifier la segmentation du texte en langue source. Pour le texte en langue cible (la traduction), trois commandes sont disponibles pour corriger le résultat de l'alignement: "split", qui permet de couper un segment en une ou plusieurs parties, "merge", qui permet de réunir un ou plusieurs segments en un seul, et "delete" qui permet de supprimer un ou plusieurs segments. Mais la seule commande disponible pour le texte en langue source est "delete", ce qui limite parfois les possibilités de corriger l'alignement.
Solutions
Compte tenu de la masse de documents à traiter (plus de 350 par langue rien que pour le premier chapitre), il fallait trouver une solution rationnelle pour les convertir. Mais étant donné la particularité du format OTF, SDLX a prévu des modules de conversion, par lesquels on peut convertir un grand nombre de fichiers en même temps, sans passer par Word. De plus, dans la nouvelle version, on peut sélectionner directement les fichiers .doc dans SDLAlign et la conversion se fait en arrière-plan, ce qui supprime une étape jusque-là très fastidieuse.
Pour ce qui est des autres problèmes rencontrés, ils étaient avant tout inhérents au logiciel lui-même et n'ont pu être réglés. Le bug lié aux listes d'abréviation doit encore être réglé par SDL. Le problème de la segmentation du texte en langue source a été en quelque sorte contourné: étant donné les différences de structures entre les langues, l'alignement avec l'allemand se montrait souvent plus délicat à corriger; il était donc plus facile de faire correspondre le français ou l'italien au découpage de l'allemand que de resegmenter l'allemand en fonction du français ou de l'italien.
Les exigences des utilisateurs (ici les traducteurs de la Chancellerie) n'ont pas vraiment été clairement établies dans ce projet et il était donc impossible de savoir si le fait que les alignements étaient importés dans les mémoires tels quels, sans aucun attribut, pouvait poser un problème. Nous avons donc supposé que le plus important était de mettre le plus vite possible les mémoires de traduction à la disposition de traducteurs.

En conclusion

Il ne serait sans doute pas juste d'essayer de comparer WinAlign et SDLAlign sur la base de ces deux expériences pratiques; les contextes et les objectifs visés étaient en effet trop différents pour permettre de dresser un bilan comparatif objectif. Comme je l'ai dit plus haut, le but de cet article n'est pas de recommander un outil plutôt qu'un autre. Si l'interface de WinAlign me paraît lourde et contraignante et que ses différentes possibilités de paramétrage sont à mon sens souvent inutiles, ce logiciel reste intéressant sur d'autres plans (attributs, exportation facile, rapidité, etc.). Quant à SDLAlign, c'est un outil encore très neuf, qui a besoin d'évoluer et probablement d'intégrer de nouvelles fonctionnalités; cependant, il présente deux atouts majeurs: le format OTF, qui permet de se débarrasser, à l'alignement, de toute la mise en forme, et l'interface, qui permet une correction de l'alignement très rapide et agréable.

À mes yeux, aucun outil n'est parfait car ses performances dépendent non seulement des fonctionnalités qu'il propose, mais aussi de facteurs externes, déterminés par l'environnement auquel on l'intègre et la tâche pour laquelle on l'utilise. L'idéal serait de construire son propre outil, en fonction de ses besoins ou de combiner plusieurs outils, afin d'obtenir un aligneur fiable, performant, parfaitement adapté à l'environnement de travail. Dans l'intervalle, il faut savoir positiver, trouver des solutions ad hoc aux problèmes qui se présentent, bref tirer le meilleur des outils existants.

sommet de la page

[ article Polynésie ] [ infos personnelles ] [ ressources pour traducteurs ] [ sites en vrac ] [ idées d'évasion ]
[ page d'accueil ] [ contact ]