Alfana vient dequus sans doute, Mais il faut avouer aussi, Quen venant de là jusquici Il a bien changé sur la route.(1) |
Hérodote, que lon a surnommé le « père de lhistoire », raconte que le pharaon Psammétique fit élever un enfant dans un milieu rigoureusement muet dans lintention de découvrir la « langue originelle ». Ses efforts auraient finalement été couronnés de succès et lenfant, dans toute son innocence, aurait proféré la parole bekos, ce qui veut dire « pain » en phrygien(2). Les grecs(3), eux aussi, sinterrogeaient sur lorigine des langues : le fameux débat entre « analogistes » (qui défendaient lidée quil existait un rapport naturel entre les mots et les choses) et « anomalistes » (qui, au contraire, considéraient la langue comme une convention) en est un parfait exemple(4). Cest ce même peuple dailleurs qui a inventé létymologie, discipline qui, comme son nom (dérivé de etumoV « vrai » et logoV « discours ») lindique, se propose de révéler le vrai sens des mots. Cest dire à quel point lhomme a depuis toujours été fasciné par le mystère de la provenance des langues.
Si létymologie reste, pendant de longs siècles, une science pleine de mythes et dintuition(5), le XIXe siècle amène un renouveau fondamental dans la méthodologie même de cette branche de la philologie. En comparant plusieurs langues européennes au sanscrit, les chercheurs réussissent à découvrir des « ressemblances » entre elles. Grâce à des études toujours plus systématiques de ces ressemblances, il leur est finalement possible de déterminer non seulement le degré de parenté exact entre ces langues, mais encore détablir des « lois phonétiques » qui servent ensuite à la reconstruction dune hypothétique langue « mère » que lon baptisera l« indo-européen ». Autant les premières tentatives étymologiques ont donc été approximatives, autant le travail des chercheurs du XIXe siècle suivait une méthode rigoureuse et précise, à tel point que le passage dun paradigme à lautre a été comparé à une « révolution copernicienne », peut-être même la plus importante dans lhistoire de la linguistique. En effet, limpact que le comparatisme ainsi que les théories des néogrammairiens ont eu sur les générations suivantes a été tel que les linguistes du XXe siècle se sont vus obligés de constater que « nous sommes tous désormais néogrammairiens »(6).
Se poser des questions sur lorigine des langues, tel que lont fait les comparatistes et les néogrammairiens, cela signifie en même temps sinterroger sur leur évolution. De ce fait, la linguistique historique ou diachronique comme nous préférons la nommer depuis Saussure peut toujours être envisagée de deux points de vue différents : dune part, on peut partir dune langue moderne et se demander « ce quelle a été avant » ; dautre part, on peut prendre une langue dans le passé et se demander « ce quelle est devenue après ». Tandis que, dans le premier cas, la recherche aura recours à une comparaison systématique de plusieurs langues « surs », elle se limite, en général, à une seule langue dans le deuxième. Aucune des deux méthodes nest a priori meilleure que lautre, mais il est évident que la deuxième présuppose que la langue « mère » ainsi que les autres stades de son évolution soient connus et suffisamment documentés. Dans un cas idéal, les deux méthodes se combinent pour se compléter mutuellement : ainsi, lune peut être utilisée pour vérifier les hypothèses avancées par lautre et vice versa(7).
Quelle que soit lapproche que lon choisit, elle exigera sans doute un travail précis, minutieux et surtout systématique. Rien de plus logique donc que de donner cette tâche à un ordinateur. En effet, nous constatons quà partir des années 70, toute une série de programmes informatiques ont été élaborés dont le but était soit de reconstruire une langue mère à partir de plusieurs langues surs (basés sur des méthodes essentiellement comparatistes, ces programmes effectuaient ce quon appelait des upstream calculations(8)), soit de dériver les formes postérieures dun mot en simulant son évolution diachronique (il sagit, cette fois-ci, dune downstream calculation qui repose sur lapplication linéaire dune série de règles). Le nombre de programmes dans les deux catégories est pourtant loin dêtre équilibré : tandis que le premier type prédomine clairement la scène, seule une poignée de linguistes ou dinformaticiens se sont intéressés à lévolution diachronique des langues(9). Ce problème était, en effet, considéré comme peu intéressant, voire « trivial » (10).
Cest en constatant cette absence frappante de logiciels du deuxième type que nous avons mis sur pied, en septembre 1998, un groupe interdisciplinaire de linguistes et dinformaticiens (provenant respectivement de lUniversité de Fribourg et de la Eidgenössisch Technische Hochschule Zürich) dont le but était de développer un interpréteur qui fonctionnerait comme une espèce de « machine étymologique abstraite » : celle-ci pourrait être programmée à laide dun langage (des « règles linguistiques ») de façon à produire des étymologies dans différentes langues. Afin de donner un exemple dune telle programmation et dillustrer les capacités du programme, nous nous proposions en même temps délaborer un ensemble de règles décrivant lévolution diachronique de lespagnol.
Le développement d'un tel programme nous semblait utile pour plusieurs raisons : premièrement, en tant qu'outil scientifique, il permettrait de vérifier la justesse d'ensembles de règles d'une complexité quasiment illimitée et dont la vérification à la main prendrait non seulement plus de temps, mais serait encore moins exact et fiable. De même, ce programme serait capable de déterminer le pourcentage exact de mots qui, dans une langue et pour un ensemble de règles donné, présentent une évolution régulière(11). Deuxièmement, en tant quinstrument didactique, il pourrait peut-être aider les étudiants en philologie à mieux comprendre l'évolution diachronique des langues vu quils pourraient calculer des étymologies de manière interactive et observer ainsi le fonctionnement des lois phonétiques dans des exemples concrets. Nous pensions, outre cela, que les étymologies pourraient éventuellement être sauvegardées dans des banques de données qui serviraient ensuite de dictionnaires étymologiques informatisés. L'intérêt de ces dictionnaires consiste dans l'avantage de pouvoir accéder aux données par un nombre quasiment illimité de voies (les dictionnaires traditionnels, par contre, n'offrent souvent que l'accès par ordre alphabétique). Il serait donc possible de rechercher des mots qui contiennent certaines suites de phonèmes ou des contextes phonétiques spécifiques. Malheureusement nous avons bientôt dû nous rendre à l'évidence que, pour des raisons de temps, ce but était hors de notre portée.
En effet, lorsque nous commencions nos travaux en octobre 1998, nous étions (encore) très optimistes : nous pensions que le délai qui nous avait été accordé pour limplémentation un semestre, donc jusquen février 1999 suffirait pour développer le programme sous UNIX et le porter ensuite sur MS-DOS (et éventuellement WINDOWS). Au début du mois de février, cependant, nous avons dû constater que nos planifications avaient été trop enthousiastes et quil faudrait probablement encore plusieurs mois pour terminer le programme.
Dans ce moment de crise(12), il fallait prendre une décision. Il semblait évident que le projet initial était trop ambitieux pour être terminé dans un délai utile. Dès lors, la seule solution consistait à le simplifier autant que possible afin de pouvoir au moins terminer une version minimale. Tandis que mes deux collègues continuaient à travailler sur la version UNIX pour la mener « aussi loin que possible », jai moi-même commencé à développer directement sous MS-DOS, cette fois-ci cette version minimale. Cest grâce à cette stratégie que nous avons finalement pu atteindre des résultats relativement satisfaisants dans les deux domaines : non seulement la version MS-DOS a pu être terminée, mais la version UNIX a elle aussi pu être continuée jusquà un stade où elle est maintenant capable deffectuer quelques calculs rudimentaires.
Une fois quune première version a été disponible, nous lavons présentée à un groupe détudiants en philologie romane, ceci dans lespoir quils accepteraient de lutiliser pour leurs travaux étymologiques. Nous espérions que, grâce à cette collaboration, nous pourrions établir un corpus de mots qui, dune part, nous aiderait à améliorer les règles, et qui, dautre part, nous servirait de base à des calculs statistiques sur la régularité de lévolution. Cette collaboration a effectivement porté ses fruits et les résultats ont été inclus dans ce travail.
Le but de ce travail est de présenter le programme ETYMO ainsi que les concepts théoriques sur lesquels il est basé. Nous commencerons par donner un bref aperçu historique des théories linguistiques qui sintéressent à lévolution diachronique des langues. Nous essaierons ensuite de construire un pont entre la linguistique et linformatique en soulevant les nombreux problèmes qui se posent en vue dune implémentation sur un ordinateur. Après ces considérations théoriques, nous nous arrêterons brièvement sur deux programmes concrets IBEROCHANGE et PHONO qui pourront donner une idée de ce qui a déjà été accompli dans le domaine. La présentation du programme ETYMO, qui constitue la partie centrale du travail, abordera ensuite toute une série daspects : nous aurons à parler, en premier lieu, du formalisme utilisé pour les règles, des principes de calcul, mais aussi de son utilisation dans la pratique. En vue dune future amélioration du programme, nous révélerons aussi quelques détails concernant limplémentation des deux versions. Une dernière partie sera finalement consacrée à lévolution diachronique de lespagnol telle que nous avons essayé de la simuler à laide du programme. Cette partie contient aussi les résultats des calculs effectués sur un corpus de 600 mots provenant du Libro de Buen Amor de lArcipreste de Hita et des Milagros de Nuestra Sennora de Gonzalo de Berceo.
1 Giacomo de Cailly (aussi connu sous lanagramme DAceilly) sur une des étymologies proposées par Gilles Ménage dans son dictionnaire Origini della lingua italiana (Paris, 1969). Cité dans Tagliavini, op. cit., tome I, 1963, p. 39.
2 Lhistoire est racontée dans Robins, op. cit., 1976, p. 157.
3 Pour des raisons de lisibilité, nous utiliserons partout la forme masculine qui sadresse, bien entendu, au public féminin aussi bien que masculin.
4 Voir Robins, op. cit., 1976, p. 21.
5 Pour les grecs, « étymologie » signifiait surtout « ramener un mot à dautres afin dexpliquer son sens », ce qui donnait parfois des résultats assez amusants : ainsi, anqrwpoV « homme » proviendrait, selon Platon, de anaqron a opwpen « lever les yeux sur ce quil a vu »; poseidvn nom du dieu de la mer se serait formé, à son tour, à partir de posi desmoV « gêne pour les pieds » (en effet, on simagine bien Poseidon en marchant dans leau, les pieds mouillés...). Robins, op. cit., 1976, p. 27.
Les romains, quant à eux, sils ne sefforçaient pas dapparenter leurs mots à des mots grecs afin dhériter un tant soit peu de leur prestige culturel, ils tombaient dans la même erreur que leurs maîtres vénérés : ainsi, selon Varron, anas « canard » serait dérivé de nare « nager »; vitis « vin » de vis « force », et cura « souci » de cor urere « brûler le coeur ». Robins, op. cit., 1976, p. 52.
Ces pratiques perduraient encore au Moyen Âge et pendant la renaissance, comme le prouve le quatrain qui précède cette introduction et dans lequel lauteur se moque si royalement des étymologies fantaisistes du dictionnaire établi par Gilles Ménage (1613-1692). Tagliavini, op. cit., tome I, 1963, p. 38.
6 Robins, op. cit., 1976, p. 193.
7 Le projet nommé The Reconstruction Engine dont nous parlerons brièvement au ch. , p. peut être considéré comme un bon exemple dune telle symbiose.
8 La métaphore du fleuve (stream) illustre les deux directions possibles sur laxe temporel : upstream signifie donc « en amont », cest-à-dire « en remontant dans le temps », tandis que downstream correspond à « en aval », cest-à-dire « en avançant dans le temps ». Hewson, op. cit., 1989, p. 576.
9 Voir tableau au ch. , p. .
10 « Devising an algorithm to reproduce a series of historical derivations is a reasonably straightforward task, quite often carried out, for example, as a purely heuristic device to test the workability of a set of ordered rules in generative phonology. [..] These algorithms were clearly considered trivial, an exercise for amusing ones colleagues ». Hewson, op. cit., 1989, p. 577. Inutile de dire que nous ne partageons pas cet avis.
11 Ce qui constituerait, en quelque sorte, une réponse empirique à la théorie des néogrammairiens.
12 qui était un vrai moment de crise parce que, dune part, les deux collègues qui soccupaient de limplémentation du programme ne voyaient aucune possibilité de prolonger leur participation au projet et que, dautre part, il semblait difficile de remettre sur pied une deuxième équipe qui aurait pu prendre le relais.
Retour à la page principale | << Chapitre précédent | Chapitre suivant >> |