Introduction

Hérodote, que l’on a surnommé le « père de l’histoire », raconte que le pharaon Psammétique fit élever un enfant dans un milieu rigoureusement muet dans l’intention de découvrir la « langue originelle ». Ses efforts auraient finalement été couronnés de succès et l’enfant, dans toute son innocence, aurait proféré la parole bekos, ce qui veut dire « pain » en phrygien(2). Les grecs(3), eux aussi, s’interrogeaient sur l’origine des langues : le fameux débat entre « analogistes » (qui défendaient l’idée qu’il existait un rapport naturel entre les mots et les choses) et « anomalistes » (qui, au contraire, considéraient la langue comme une convention) en est un parfait exemple(4). C’est ce même peuple d’ailleurs qui a inventé l’étymologie, discipline qui, comme son nom (dérivé de etumoV – « vrai » et logoV – « discours ») l’indique, se propose de révéler le vrai sens des mots. C’est dire à quel point l’homme a depuis toujours été fasciné par le mystère de la provenance des langues.

Si l’étymologie reste, pendant de longs siècles, une science pleine de mythes et d’intuition(5), le XIXe siècle amène un renouveau fondamental dans la méthodologie même de cette branche de la philologie. En comparant plusieurs langues européennes au sanscrit, les chercheurs réussissent à découvrir des « ressemblances » entre elles. Grâce à des études toujours plus systématiques de ces ressemblances, il leur est finalement possible de déterminer non seulement le degré de parenté exact entre ces langues, mais encore d’établir des « lois phonétiques » qui servent ensuite à la reconstruction d’une hypothétique langue « mère » que l’on baptisera l’« indo-européen ». Autant les premières tentatives étymologiques ont donc été approximatives, autant le travail des chercheurs du XIXe siècle suivait une méthode rigoureuse et précise, à tel point que le passage d’un paradigme à l’autre a été comparé à une « révolution copernicienne », peut-être même la plus importante dans l’histoire de la linguistique. En effet, l’impact que le comparatisme ainsi que les théories des néogrammairiens ont eu sur les générations suivantes a été tel que les linguistes du XXe siècle se sont vus obligés de constater que « nous sommes tous désormais néogrammairiens »(6).

Se poser des questions sur l’origine des langues, tel que l’ont fait les comparatistes et les néogrammairiens, cela signifie en même temps s’interroger sur leur évolution. De ce fait, la linguistique historique – ou diachronique comme nous préférons la nommer depuis Saussure – peut toujours être envisagée de deux points de vue différents : d’une part, on peut partir d’une langue moderne et se demander « ce qu’elle a été avant » ; d’autre part, on peut prendre une langue dans le passé et se demander « ce qu’elle est devenue après ». Tandis que, dans le premier cas, la recherche aura recours à une comparaison systématique de plusieurs langues « sœurs », elle se limite, en général, à une seule langue dans le deuxième. Aucune des deux méthodes n’est a priori meilleure que l’autre, mais il est évident que la deuxième présuppose que la langue « mère » ainsi que les autres stades de son évolution soient connus et suffisamment documentés. Dans un cas idéal, les deux méthodes se combinent pour se compléter mutuellement : ainsi, l’une peut être utilisée pour vérifier les hypothèses avancées par l’autre et vice versa(7).

Quelle que soit l’approche que l’on choisit, elle exigera sans doute un travail précis, minutieux et surtout systématique. Rien de plus logique donc que de donner cette tâche à un ordinateur. En effet, nous constatons qu’à partir des années 70, toute une série de programmes informatiques ont été élaborés dont le but était soit de reconstruire une langue mère à partir de plusieurs langues sœurs (basés sur des méthodes essentiellement comparatistes, ces programmes effectuaient ce qu’on appelait des upstream calculations(8)), soit de dériver les formes postérieures d’un mot en simulant son évolution diachronique (il s’agit, cette fois-ci, d’une downstream calculation qui repose sur l’application linéaire d’une série de règles). Le nombre de programmes dans les deux catégories est pourtant loin d’être équilibré : tandis que le premier type prédomine clairement la scène, seule une poignée de linguistes ou d’informaticiens se sont intéressés à l’évolution diachronique des langues(9). Ce problème était, en effet, considéré comme peu intéressant, voire « trivial » (10).

C’est en constatant cette absence frappante de logiciels du deuxième type que nous avons mis sur pied, en septembre 1998, un groupe interdisciplinaire de linguistes et d’informaticiens (provenant respectivement de l’Université de Fribourg et de la Eidgenössisch Technische Hochschule Zürich) dont le but était de développer un interpréteur qui fonctionnerait comme une espèce de « machine étymologique abstraite » : celle-ci pourrait être programmée à l’aide d’un langage (des « règles linguistiques ») de façon à produire des étymologies dans différentes langues. Afin de donner un exemple d’une telle programmation et d’illustrer les capacités du programme, nous nous proposions en même temps d’élaborer un ensemble de règles décrivant l’évolution diachronique de l’espagnol.

Le développement d'un tel programme nous semblait utile pour plusieurs raisons : premièrement, en tant qu'outil scientifique, il permettrait de vérifier la justesse d'ensembles de règles d'une complexité quasiment illimitée et dont la vérification à la main prendrait non seulement plus de temps, mais serait encore moins exact et fiable. De même, ce programme serait capable de déterminer le pourcentage exact de mots qui, dans une langue et pour un ensemble de règles donné, présentent une évolution régulière(11). Deuxièmement, en tant qu’instrument didactique, il pourrait peut-être aider les étudiants en philologie à mieux comprendre l'évolution diachronique des langues vu qu’ils pourraient calculer des étymologies de manière interactive et observer ainsi le fonctionnement des lois phonétiques dans des exemples concrets. Nous pensions, outre cela, que les étymologies pourraient éventuellement être sauvegardées dans des banques de données qui serviraient ensuite de dictionnaires étymologiques informatisés. L'intérêt de ces dictionnaires consiste dans l'avantage de pouvoir accéder aux données par un nombre quasiment illimité de voies (les dictionnaires traditionnels, par contre, n'offrent souvent que l'accès par ordre alphabétique). Il serait donc possible de rechercher des mots qui contiennent certaines suites de phonèmes ou des contextes phonétiques spécifiques. Malheureusement nous avons bientôt dû nous rendre à l'évidence que, pour des raisons de temps, ce but était hors de notre portée.

En effet, lorsque nous commencions nos travaux en octobre 1998, nous étions (encore) très optimistes : nous pensions que le délai qui nous avait été accordé pour l’implémentation – un semestre, donc jusqu’en février 1999 – suffirait pour développer le programme sous UNIX et le porter ensuite sur MS-DOS (et éventuellement WINDOWS). Au début du mois de février, cependant, nous avons dû constater que nos planifications avaient été trop enthousiastes et qu’il faudrait probablement encore plusieurs mois pour terminer le programme.

Dans ce moment de crise(12), il fallait prendre une décision. Il semblait évident que le projet initial était trop ambitieux pour être terminé dans un délai utile. Dès lors, la seule solution consistait à le simplifier autant que possible afin de pouvoir au moins terminer une version minimale. Tandis que mes deux collègues continuaient à travailler sur la version UNIX pour la mener « aussi loin que possible », j’ai moi-même commencé à développer – directement sous MS-DOS, cette fois-ci – cette version minimale. C’est grâce à cette stratégie que nous avons finalement pu atteindre des résultats relativement satisfaisants dans les deux domaines : non seulement la version MS-DOS a pu être terminée, mais la version UNIX a elle aussi pu être continuée jusqu’à un stade où elle est maintenant capable d’effectuer quelques calculs rudimentaires.

Une fois qu’une première version a été disponible, nous l’avons présentée à un groupe d’étudiants en philologie romane, ceci dans l’espoir qu’ils accepteraient de l’utiliser pour leurs travaux étymologiques. Nous espérions que, grâce à cette collaboration, nous pourrions établir un corpus de mots qui, d’une part, nous aiderait à améliorer les règles, et qui, d’autre part, nous servirait de base à des calculs statistiques sur la régularité de l’évolution. Cette collaboration a effectivement porté ses fruits et les résultats ont été inclus dans ce travail.

Le but de ce travail est de présenter le programme ETYMO ainsi que les concepts théoriques sur lesquels il est basé. Nous commencerons par donner un bref aperçu historique des théories linguistiques qui s’intéressent à l’évolution diachronique des langues. Nous essaierons ensuite de construire un pont entre la linguistique et l’informatique en soulevant les nombreux problèmes qui se posent en vue d’une implémentation sur un ordinateur. Après ces considérations théoriques, nous nous arrêterons brièvement sur deux programmes concrets – IBEROCHANGE et PHONO – qui pourront donner une idée de ce qui a déjà été accompli dans le domaine. La présentation du programme ETYMO, qui constitue la partie centrale du travail, abordera ensuite toute une série d’aspects : nous aurons à parler, en premier lieu, du formalisme utilisé pour les règles, des principes de calcul, mais aussi de son utilisation dans la pratique. En vue d’une future amélioration du programme, nous révélerons aussi quelques détails concernant l’implémentation des deux versions. Une dernière partie sera finalement consacrée à l’évolution diachronique de l’espagnol telle que nous avons essayé de la simuler à l’aide du programme. Cette partie contient aussi les résultats des calculs effectués sur un corpus de 600 mots provenant du Libro de Buen Amor de l’Arcipreste de Hita et des Milagros de Nuestra Sennora de Gonzalo de Berceo.

5 Pour les grecs, « étymologie » signifiait surtout « ramener un mot à d’autres afin d’expliquer son sens », ce qui donnait parfois des résultats assez amusants : ainsi, anqrwpoV – « homme » – proviendrait, selon Platon, de anaqron a opwpen – « lever les yeux sur ce qu’il a vu »; poseidvn – nom du dieu de la mer – se serait formé, à son tour, à partir de posi desmoV – « gêne pour les pieds » (en effet, on s’imagine bien Poseidon en marchant dans l’eau, les pieds mouillés...). Robins, op. cit., 1976, p. 27.

Les romains, quant à eux, s’ils ne s’efforçaient pas d‘apparenter leurs mots à des mots grecs afin d’hériter un tant soit peu de leur prestige culturel, ils tombaient dans la même erreur que leurs maîtres vénérés : ainsi, selon Varron, anas – « canard » serait dérivé de nare – « nager »; vitis – « vin » – de vis – « force », et cura – « souci » – de cor urere – « brûler le coeur ». Robins, op. cit., 1976, p. 52.

Ces pratiques perduraient encore au Moyen Âge et pendant la renaissance, comme le prouve le quatrain qui précède cette introduction et dans lequel l’auteur se moque si royalement des étymologies fantaisistes du dictionnaire établi par Gilles Ménage (1613-1692). Tagliavini, op. cit., tome I, 1963, p. 38.

8 La métaphore du fleuve (stream) illustre les deux directions possibles sur l’axe temporel : upstream signifie donc « en amont », c’est-à-dire « en remontant dans le temps », tandis que downstream correspond à « en aval », c’est-à-dire « en avançant dans le temps ». Hewson, op. cit., 1989, p. 576.

10 « Devising an algorithm to reproduce a series of historical derivations is a reasonably straightforward task, quite often carried out, for example, as a purely heuristic device to test the workability of a set of ordered rules in generative phonology. [..] These algorithms were clearly considered trivial, an exercise for amusing ones colleagues ». Hewson, op. cit., 1989, p. 577. Inutile de dire que nous ne partageons pas cet avis.

12 … qui était un vrai moment de crise parce que, d’une part, les deux collègues qui s’occupaient de l’implémentation du programme ne voyaient aucune possibilité de prolonger leur participation au projet et que, d’autre part, il semblait difficile de remettre sur pied une deuxième équipe qui aurait pu prendre le relais.

En guise d’introduction