Depuis les années 70, plusieurs « programmes étymologiques » ont vu le jour. Ces programmes se répartissent essentiellement en deux catégories(1) : (1) ceux basés sur des méthodes statistiques et/ou comparatives dont le but consiste à reconstruire les proto-formes dune langue mère à partir dun corpus de mots provenant de plusieurs langues surs, et (2) ceux utilisant des règles qui sont appliquées à des formes provenant dune langue mère attestée afin de calculer leur évolution postérieure (forme/s moderne/s et stades intermédiaires). Vu que ces deux techniques sont directement liées à la direction du calcul sur laxe temporel, on parle aussi de upstream calculation (type 1) ou downstream calculation (type 2) (2).
Les programmes du deuxième type qui sont ceux qui nous intéressent à cet endroit sont assez peu nombreux(3). Les voici dans lordre chronologique(4) :
Année |
Auteur |
Langue(s) concernée(s) |
1971 |
Raoul N. Smith |
(aucune indication) |
1976 |
Sarah K. Burton-Hunter |
latin classique => latin vulgaire => ancien français |
1977 |
Charles L. Eastlack |
latin vulgaire => espagnol médiéval |
1980 |
Albert Maniet |
proto-indo-européen => latin |
1979/80 |
Mart Remmel |
balto-finnois |
1981 |
Bátori |
ouralien |
1982 |
Donald A. Becker |
allemand |
1996 |
Lee Hartmann |
latin => espagnol |
Nous pourrions aussi mentionner le projet intitulé The Reconstruction Engine dirigé par John Lowe et Martine Mazaudon qui combine les deux méthodes(5). Si malgré sa date récente nous ne nous intéressons guère à ce programme, cest que son objectif principal réside dans la reconstruction de proto-formes. Nous ne parlerons pas non plus du programme FONOL, développé par Frank Brandon(6) à partir de 1983 qui est clairement orienté vers la grammaire générative malgré certains points communs quil peut présenter avec notre projet notamment en ce qui concerne le formalisme des règles.
Par la suite, nous allons traiter plus en détails les deux programmes qui touchent au domaine de lespagnol, cest-à-dire IBEROCHANGE de Charles Eastlack et PHONO de Lee Hartmann.
IBEROCHANGE de Charles Eastlack fait partie des programmes pionniers dans le domaine de la linguistique historique. Il dérive des mots de lespagnol médiéval de lépoque du Cantar de Mio Cid (~1200 apr.J.-C.) à partir de formes provenant du latin vulgaire (~100 av.J.-C.). Pour le calcul, le programme se sert dune base de 42 règles qui ont été directement intégrées au programme(7). Quoique laccent soit surtout mis sur les changements « phonologiquement conditionnés » (phonologically conditionned changes), Eastlack a aussi essayé de formuler des règles qui tiennent compte de certaines conditions lexicales ou morphologiques(8).
Comme beaucoup de symboles phonétiques ne sont pas disponibles sur lordinateur, Eastlack a mis sur pied un système de notation où certains sons sont représentés par un seul caractère (par exemple P, T, K, B, D, G pour les consonnes occlusives) et dautres par deux (C; et Z; par exemple représentent les affriquées palatales sourde et sonore). Les semi-voyelles yod et wau, ainsi que les variantes ouvertes de e et o sont exprimées par des chiffres (1, 2 et 3, 9). La longueur des voyelles ainsi que laccent sont notés par : et . Lutilisateur doit également indiquer les frontières de mots (#) et de syllabe (en plaçant un espace entre les symboles)(9). Les mots fuerça, çiego et oy sont donc notés #F2ER C;A#, #C;1E GO# et #01#.
Une fois que lutilisateur a dûment introduit le mot à calculer, IBEROCHANGE applique les règles, les unes après les autres. Chaque fois quune règle transforme le mot, la nouvelle forme ainsi que le numéro de la règle responsable du changement sont affichés à lécran, ce qui donne pour FECI et ALTERUM les évolutions suivantes :
#FE: KI# Rule7(a) #FE: KI# Rule7(h) #FE KI# Rule17 #FE CI# Rule22 #FE JI# Rule27(a) #FE Z;I# Rule40 #FI Z;I# Rule41(a) #FI Z;E# Rule42 #FI Z;# |
#AL TE RUM# Rule 2(x) #A2 TE RUM# Rule 3 #A2 TE RU# Rule 7(a) #A2 TE RU# Rule 7(f) #A2 TRU# Rule 7(g) #A2 TRO# Rule 30(ax) #O2 TRO# Rule 39 #O TRO# |
Comme on peut voir, le programme profite du fait que le latin a un accent mécanique pour ajouter automatiquement laccent au mot (règle 7).
Eastlack insiste sur lutilité de son programme dans le domaine scientifique en signalant, par exemple, que, déjà pendant son développement, il a pu faire de nouvelles découvertes notamment par rapport à lordre des règles(10). Si ces exploits ainsi que le programme en général méritent sans aucun doute notre plus grande admiration, il nen reste pas moins vrai quIBEROCHANGE na pas toujours su choisir la solution idéale aux problèmes posés : ainsi, par exemple, la non-dissociation du programme, dune part, et des règles linguistiques, dautre part, a comme conséquence évidente quil est difficile et laborieux (voire impossible) dutiliser le même programme pour plusieurs langues. Aussi, IBEROCHANGE traite-t-il les sons comme des unités phonématiques sans représentation interne, cest-à-dire sans recourir à une analyse en traits distinctifs des phonèmes. Ce sont là des points que Hartmann essaiera daméliorer beaucoup plus tard avec PHONO.
Lee Hartmann définit son programme lui-même comme « a DOS-based software tool for developping and testing models of regular historical sound change »(12). Afin d'illustrer son fonctionnement, l'auteur a pris soin de l'accompagner de deux « modèles » : IGPAY, un exemple très simple et plutôt ludique qui convertit des mots anglais en « Pig Latin »(13) et SPAN1, un ensemble de quelques 130 règles décrivant l'évolution du latin vers l'espagnol, qui montre les vraies capacités de cet outil.
Le calcul des étymologies repose donc sur un « modèle » qui comprend trois éléments :
Alphabet : Des 256 caractères théoriquement disponibles sur l'ordinateur, 70 peuvent être modifiés par l'utilisateur. Les caractères sont définis par une liste de traits distinctifs qui peuvent avoir des valeurs positives (+ et #) ou négatives ( et =)(14). Le nombre des traits est limité à 23. Voici, à titre d'exemple, la définition du modèle SPAN1 :
SPAN1 aábßcçddeéÉføgGhiíjkl£mµnñnoóOpqrs$StTuúvwüxy¥zZ3: cons ==++++++===+++++==+++++++++===++#+++++==+--+=#+++= syllabic ##------###----=##---------###--------##-==-=----= obstr ==######===####===##==========##=#####==#--#=####= high ==--#=-====--++-####=#--=#+===-+-=#---##-+++##=-#= low ##-------=#-----------------=#-------------------= back ##------===--##-==-#-----=##++-#------##-++#==--== round ==------===-----==-=-------###-#------##-##-==---= coronal --==####---=====--#=##==##=---=-+#####--=----####= anterior --##-#+#---##===----+-##+==---#-+#==##--#----=#=== distrib ++##+++++++=#+++++++++#=+++++++++#+=+-++=++++++=+= cont ++=#===#+++++=##++=========+++==####=#++####+++##= delrel ++-###-#+++##-#+++#-++++++++++--++++-++++++++++++= strident ---=##==---#------#--------------###==--#----=###= voice ++##==##+++==##=++#=++++++++++==+=====++#++=+####= nasal --------------------==#####----------------------= long -------------------------------------------------# stress =#------=##-----=#---------=##--------=#---------= |
Makeup : Le makeup (que l'on pourrait traduire par « arrangement ») contient les règles phonétiques. Chacune de celles-ci reçoit un nom univoque qui apparaît au début et à la fin de sa définition proprement dite, définition qui se compose de lignes « IF » (if-lines), marquées par une majuscule, et de lignes « THEN » (then-lines), marquées par un chiffre. Ces lignes peuvent, à leur tour, être de différents types : il existe quatre types de lignes « IF » (branching, COUNT, constant, variable) et cinq types de lignes « THEN » (constant, variable, DELETE, INSERT, SWAP), donc sept types différents en tout (puisque les types constant et variable apparaissent dans les deux catégories). Voici à nouveau, à titre dexemple, la règle responsable de la diphtongaison de /o/ et /e/ ouverts (qui, en espagnol, aboutissent respectivement à /wé/ et /jé/) :
DIPHTHONG A : B and C B : +low(*) C : back(*) = round(*) 1 : -low(*) +high(*) -syllabic(*) 2 : INSERT e (*+1) 3 : stress(*+1) = stress(*) 4 : -stress(*) END DIPHTHONG |
Order : Après la définition des règles, celles-ci doivent être mises dans un certain ordre. Cette tâche peut être accomplie de manière interactive et les informations qui en résultent sont sauvegardées dans un fichier séparé. L'utilisateur peut donc, à tout moment, changer l'ordre des règles indépendamment du makeup. Dans lorder les règles sont, outre cela, marquées comme transient ou persistent.
Une fois que toutes ces données sont disponibles, le calcul peut s'effectuer de différentes manières :
Interactif : L'utilisateur peut entrer des mots à l'aide du clavier. Ces mots sont ensuite calculés et le résultat est affiché à l'écran.
Singleton : Dans ce mode, les mots à calculer proviennent d'un fichier créé au préalable. PHONO lit les mots les uns après les autres et les calcule individuellement. Les évolutions sont sauvegardées dans le fichier SINGLE.OUT où elles peuvent être lues après le calcul.
Pair : Comme dans le cas de singleton, les mots proviennent d'un fichier qui, cette fois-ci, contient aussi, pour chaque mot, le résultat attendu du calcul. PHONO compare donc le mot calculé à l'évolution correcte et les trie en fonction de cette comparaison (les « bonnes » et les « mauvaises » évolutions étant sauvegardées dans deux fichiers différents, respectivement GOOD.OUT et BAD.OUT).
Dans les modes singleton et pair, PHONO offre en outre la possibilité de créer un fichier où lon trouve pour chaque règle les mots affectés par celle-ci pendant le calcul (Hartmann appelle cette fonction rule trace).
Dans les trois cas, une seule ligne de descendance (descendancy line) est calculée. Si on travaille dans le mode interactif, les évolutions sont présentées à peu près de la même façon que dans IBEROCHANGE (sauf que les règles, ici, ne sont pas numérotées, mais pourvues dun nom comme nous lavons signalé plus haut) :
ETYMON --> auricula O-CEE_KAY: => aurikula O-LATIN_DIPHTHONGS: => awrikula O-STRESS_2: => awríkula SYNCOPE_EXECUTION: => awríkla VELAR_SPIRANT: => awríxla HIGH_LOWERING: => awréxla VELAR_YOD_EARLY: => awréyla RESONANT_PALATAL: => awréy£a GLIDE_ABSORPTION: => awré£a LATERAL_AFFRICATION: => awréja J_Y_MERGER: => awré3a A_COLORING: => owré3a P-BACK_MONOPHTHONG: => oré3a UNVOICE: => oré$a PALATAL_VELARIZATION: => oréxa |
Les règles précédées de « O » sont ce que Hartmann appelle « old orthographic rules » qui transcrivent linput graphique dans une forme phonétique (outre la transformation de c en k et de u en w, cela inclut le placement dun accent tonique). Il est important de signaler, à cet endroit, que ces transformations nont rien à voir avec le programme lui-même, mais uniquement avec le modèle (SPAN1 dans ce cas). Cest-à-dire que même si linsertion de laccent tonique ressemble, à première vue, à celui dIBEROCHANGE, il existe une différence fondamentale entre eux : IBEROCHANGE place laccent en appliquant une règle qui est intimement liée au programme, tandis que PHONO ne fait quexécuter des règles provenant dun modèle (donc de lextérieur, en quelque sorte). La même remarque est valable pour les deux points utilisés pour marquer la longueur des sons (« : ») : dans le cas dIBEROCHANGE, le signe « : » est défini comme « longueur » à lintérieur même du programme, tandis que dans le cas de PHONO, le signe « : » apparaît dans lalphabet (voir plus haut) qui peut être librement défini par lutilisateur. PHONO présente donc une dissociation absolue entre le programme et les règles, ce qui a pour conséquence quil peut, en principe, être utilisé pour nimporte quelle langue(16). Lévolution ci-dessus présente aussi une règle précédée par « P » : il sagit dune règle persistante qui, ici, nest appliquée quune seule fois.
PHONO présente aussi des innovations dans le domaine phonologique : les « sons » ne sont plus considérés comme des « unités de surface » dont on ne connaît pas la structure interne, mais comme des unités phonologiques, représentées par les caractères de lalphabet, dont chacune reçoit une définition sous forme dune liste de traits distinctifs. Le mot à calculer est traduit dans une représentation interne (qui correspond à une suite de segments qui contiennent un certain nombre de traits), ce qui fait que les règles phonétiques ne se présentent plus comme une transformation de phonèmes (ou de caractères), mais comme une modification de traits distinctifs. Il est évident que, une fois que ce procédé a été choisi, il se pose le problème de la « retraduction » des sons, cest-à-dire que le programme doit être capable de reconvertir les ensembles de traits distinctifs (contenus dans les segments) en caractères. Dans cette retraduction on peut distinguer deux cas possibles : (1) lensemble de traits correspond parfaitement à un caractère, et (2) lensemble de traits ne correspond que partiellement (il est possible quil y ait trop ou trop peu de traits). Tandis que le premier cas est trivial, le deuxième peut poser des problèmes. Supposons, par exemple, que nous ayons définis trois traits distinctifs, x, y et z, et deux phonèmes, A et B, qui se présentent de manière suivante :
A := [ x, y ] et B := [ z, y ]
Si notre mot contient un segment constitué par [ x, z ], il est impossible de dire si le phonème est du type A ou B. La situation serait différente, cependant, si les traits navaient pas tous la même « valeur » à lintérieur du système, cest-à-dire sil existait une hiérarchie entre eux. Dans ce cas, si, par exemple, x a plus de « valeur » que y et z, on pourrait considérer que [ x, z ] est une variante du phonème A. Si nous regardons encore une fois lalphabet du modèle SPAN1, nous constatons que Hartmann a effectivement introduit une hiérarchie qui comprend deux plans :
|
valeur positive |
valeur négative |
plan supérieur |
# |
= |
plan inférieur |
+ |
|
Lors de la retraduction dun segment, le programme compare dabord les traits du plan supérieur, après quoi il compare les traits du plan inférieur et détermine, de cette façon, la meilleure correspondance. Si après ce processus, il reste des traits superflus, ils sont notés à droite de lévolution, par exemple :
ádtranS +long/-ante-dist ^^
Ici, le signe ^ est utilisé pour désigner les segments ayant des traits superflus. Sil y en a plusieurs, les traits superflus sont séparés par /.
Il est incontestable que grâce à tous ces éléments mentionnés (dissociation entre programme et règles, distinction entre règles séquentielles et persistantes, représentation interne des phonèmes à laide dune système de traits distinctifs, hiérarchisation des traits en deux plans) PHONO constitue un outil très puissant qui offre à peu près toutes les capacités dont un philologue peut avoir besoin. Néanmoins, il nous semble que le programme pourrait encore être amélioré dans certains points : ainsi, la limitation du calcul à une seule ligne évolutive nous paraît une entrave importante. De même, nous considérons que le système de traits distinctifs binaires pourrait être changé en un système de traits distinctifs multiples, ce qui permettrait peut-être aussi daméliorer la hiérarchisation entre eux. Outre cela, PHONO est incapable de tenir compte de certains facteurs grammaticaux ou morphologiques qui peuvent avoir une influence sur le calcul. Finalement, il faudrait simplifier la notation des règles qui, assez insolite pour le linguiste ordinaire, peut poser des problèmes. Ce sont là les principales améliorations que nous nous proposerions dapporter au programme ETYMO.
1 Voir Charles Eastlack, op. cit., 1977 ou John Lowe et Martine Mazaudon, op. cit., 1994.
2 Expressions empruntées à Hewson, op. cit., 1989.
3 Outre cela, il nexiste que très peu de bibliographie à ce sujet.
4 Hewson, op. cit., 1989, p. 577.
5 « The reconstruction engine is bi-directional : given words in modern languages, it can propose cognate sets (with reconstructions); given reconstructions, it can project the modern formes which would result from regular changes. », John Lowe et Martine Mazaudon, op. cit., 1994.
6 Voir Frank Brandon, op. cit., 1984.
7 « Each sound change rule is written as a separate program module », Eastlack, op. cit., 1977, p. 82.
8 Pour plus de détails, voir son article.
9 Ceci à la différence du programme de Sarah Burton-Hunter qui effectue la syllabation du mot de façon automatique. Eastlack justifie sa manière de procéder en signalant des irrégularités dans la syllabation de certains mots.
10 « In the writing of the Iberochange program it was discovered, for example, that the loss of high and high-mid vowels in posttonic syllables of words with three or more syllables [..] must have occurred long before the loss of high and high-mid vowels in pretonic syllables of words with four or more syllables ». Eastlack, op. cit., 1977, p. 84.
11 D'après nos informations lors de la rédaction de ce chapitre, la version la plus récente du programme était 3.3 (PHONO33.ZIP) qui avait été mise à disposition des utilisateurs sur internet en octobre 1996. Tous nos commentaires se réfèrent donc à cette version qui a été incluse sur le CD-ROM qui accompagne ce travail.
12 Tiré du fichier READ.ME livré avec le programme.
13 Pour plus de détails, voir le programme sur le CD-ROM.
14 Nous verrons pourquoi PHONO recourt à deux caractères différents pour chacune de ces valeurs.
15 Hartmann indique comme source de ces termes Wallace Chafe, International Journal of American Linguistics, no. 34, 1968, p. 131. Voir le fichier READ.ME qui accompagne le programme.
16 La seule condition est que la langue soit « représentable » par les éléments mis à disposition, ce qui veut dire essentiellement quil doit être possible de représenter les unités lexicales comme des segments phonétiques qui peuvent être définis comme des « ensembles de traits distinctifs binaires ».
Retour à la page principale | << Chapitre précédent | Chapitre suivant >> |