Calculs

Afin de tester le programme et de donner un exemple concret de ce à quoi il peut servir, nous avons élaboré un catalogue de règles décrivant l’évolution du latin (vulgaire) à l’espagnol moderne ainsi qu’un corpus de mots auquel ces dernières ont été appliquées.

Le « setting »

Tout calcul repose sur un « setting » : par setting nous entendons un cadre de données qui a été établi à l’aide d’une certaine méthode ou en fonction de critères bien définis. Suivant la nature de cette méthode ou de ces critères, l’interprétation des résultats obtenus par le calcul peut être différente. Il est donc important de se demander au préalable quelle est la meilleure façon de définir un catalogue de règles ou un corpus.

Les règles

En partant de l’idée qu’un catalogue de règles n’est, dans le fond, rien d’autre qu’une « grammaire historique sous forme abrégée », on pourrait croire que la meilleure méthode consiste à recourir à une ou plusieurs grammaires de ce type et à en « traduire » le contenu. Ce procédé, cependant, même s’il peut sans doute mener à des résultats plus ou moins satisfaisants, est loin d’être idéal. Car si ces grammaires sont extrêmement riches en informations dans certains domaines, elles restent beaucoup plus vagues dans d’autres : ainsi, elles donnent certes beaucoup de renseignements sur l’évolution globale de la langue et les phénomènes généraux qui y interviennent, mais elles sont souvent trop peu précises par rapport à la chronologie des changements linguistiques ou aux prémisses mathématiques exactes (c’est-à-dire les critères d’application ou de non-application) de ceux-ci.

Une méthode qui semble déjà plus appropriée est celle de recourir à des « listes » de lois phonétiques : dans celles-ci, les informations linguistiques sont réduites à un minimum (tout élément superflu a donc été enlevé) et la chronologie est clairement définie par l’ordre des différentes lois. Ces listes peuvent être de différents types : il y a, tout d’abord, des listes qui apparaissent dans certaines grammaires historiques et qui en constituent un espèce de « résumé final »(1) ; il existe, ensuite, des listes qui ont déjà été utilisées pour des programmes informatiques et qui, basées sur des grammaires historiques à l’origine, ont été améliorées en fonction des calculs effectués(2) ; finalement, on trouve des listes qui sont le fruit de recherches linguistiques à la fois diverses et spécifiques et qui essaient de faire le point sur toutes les connaissances que l’on a sur l’évolution phonétique d’une langue(3). À la différence des deux premiers types où la liste est un espèce de produit supplémentaire d’un travail qui, en réalité, poursuit un autre but, elle est l’objectif principal dans le troisième cas. C’est la raison pour laquelle nous considérons ce type comme le plus approprié pour notre travail.

Bien qu’une telle liste constitue, comme nous venons de le dire, une source d’information idéale, elle ne peut jamais qu’être un point de départ : vu le nombre immense de changements linguistiques auxquels une langue peut être soumise, aucune liste ne saura être exhaustive. Il sera donc à tout moment nécessaire de la compléter en recourrant à d’autres sources (des grammaires historiques, évidemment, mais aussi des études sur des phénomènes plus spécifiques) ou en l’adaptant en accord avec les résultats obtenus dans les calculs. C’est là d’ailleurs le but final d’un programme comme ETYMO : démontrer la justesse ou la fausseté de certains ensembles de règles afin que le linguiste puisse ensuite les améliorer, soit en corrigeant une règle fausse, soit en ajoutant de nouvelles règles.

Listing : RULES.TXT

Le catalogue RULES.TXT est basé sur une liste de lois phonétiques établie par C. Lleal. Pour des questions précises concernant la chronologie nous avons ponctuellement consulté l’ouvrage de C. Pensado Ruiz. Quant aux grammaires historiques, ce sont celles de Penny et de Lloyd qui ont été le plus utilisées. Lors de l’impression de ce travail, le catalogue de règles se présente comme suit :


Cliquer ici pour voir les règles


Le corpus

Il existe peu d’unanimité parmi les linguistes quant à la définition du terme « corpus »(4). Malgré la variété des opinions, on peut établir comme terme commun qu’un corpus est « (1) une collection de pièces de textes qui (2) ont été choisies et arrangées selon des critères linguistiques explicites afin de (3) servir comme échantillon (sample) de la langue »(5). De ces trois points, il faut surtout retenir le dernier, c’est-à-dire l’idée de l’échantillon : un corpus est donc un sous-ensemble de la langue qui est censé représenter celle-ci dans sa totalité. Ce postulat théorique a pour conséquence logique que tout calcul effectué sur le corpus devrait être généralisable. Autrement dit : tous les résultats valables pour le corpus devrait aussi être valable pour la langue entière.

Afin d’atteindre cette « généralisabilité » du corpus, celui-ci doit suffire à certains critères (c’est donc le point 2 de notre définition) dont nous ne mentionnons que les trois principaux : (1) il doit être le plus large possible, (2) il doit être d’une grande diversité et (3) cette diversité doit être équilibrée (ce qui veut dire que les différents échantillons de textes doivent avoir à peu près la même longueur)(6). Tout corpus qui ne respecte pas ces critères doit être considéré comme un corpus spécialisé qui n’est représentatif que pour certains sous-ensembles de la langue.

Notons que la définition parle d’une collection de « pièces de textes » et non pas d’un ensemble de mots isolés. Cela s’explique par le fait qu’un corpus doit, en principe, être ouvert à un nombre non déterminé de recherches(7). Cela veut dire, par exemple, qu’il doit être utilisable pour des recherches syntaxiques (qui exigent des « phrases » entières) aussi bien que lexiques (qui, au contraire, peuvent s’effectuer sur des mots simples). Dans le cas d’ETYMO, par contre, vu que chaque étymologie est traitée séparément(8), nous modifions la définition initialement donnée : tout en laissant intacts les critères de la largeur, de la diversité et de l’équilibre, nous sommes moins exigeants par rapport au nombre de recherches potentielles et définissons un corpus comme une collection de « mots », tout simplement.

Le corpus : deux textes médiévaux

Étant donné qu’ETYMO ne traite que des mots isolés, nous aurions pu recourir à un dictionnaire espagnol ou latin et en choisir, au hasard, un certain nombre de mots. Cette méthode, cependant, nous semblait aussi inefficace qu’ennuyeuse. On sait bien que les dictionnaires ne répertorient qu’un nombre limité de mots et qu’il existe donc le danger que notamment les mots rares n’y figurent pas. Outre cela, les mots d’un dictionnaire sont toujours présentés sous une forme standard : les verbes, par exemple, apparaissent toujours à l’infinitif, les substantif au nominatif etc. Nous aurions donc artificiellement dû « introduire » d’autres formes afin d’atteindre une certaine diversité par rapport à ce critère. Finalement, il faut aussi tenir compte du fait qu’en prenant un dictionnaire latin, on risque de tomber sur des mots qui n’existent plus en espagnol (problème qui se pose évidemment à l’envers lorsqu’on choisit un dictionnaire espagnol).

Des réflexions théoriques de ce style, mais aussi des considérations pratiques nous ont finalement décidé de travailler sur des textes : nous avions, en effet, la possibilité de collaborer avec quelques étudiants qui suivaient un cours de grammaire historique en espagnol à l’université de Fribourg et cette aide nous était bienvenue à plusieurs égards(9). Le corpus a donc été établi à partir des deux textes de base du cours, le Libro de Buen Amor de l’Arcipreste de Hita (coplas 1067 – 1087), d’une part, et les Milagros de Nuestra Señora de Gonzalo de Berceo (coplas 461 – 481), d’autre part.

La première tâche consistait à isoler les mots du texte, le but étant de ne répertorier chaque forme qu’une seule fois. Ce travail a été effectué de manière automatique à l’aide du programme informatique MKCOR(10). Néanmoins, certaines formes ont dû être regroupées manuellement(11). Ceci fait, nous avons établi pour chaque mot ces « projections » latine et espagnole, c’est-à-dire que nous lui avons ajouté l’étymon latin ainsi que la forme correspondante de l’espagnol moderne(12). A ce moment, nous nous sommes vus confrontés aux mêmes problèmes que nous avons déjà mentionnés, c’est-à-dire qu’il y a des mots où l’une ou l’autre forme n’existe pas(13). Nous reviendrons sur ces cas lors de la discussion des résultats.

Notons que ce corpus ne peut pas être qualifié d’idéal vu qu’il ne respecte ni le critère de la diversité (puisqu’il ne tient compte que de deux textes médiévaux), ni celui de la quantité (le temps ainsi que le nombre de collaborateurs disponibles ne nous a pas permis d’établir un corpus plus large). Malgré ces limites, nous sommes de l’avis que les résultats que nous avons pu en tirer sont intéressants. Il s’agit, à notre connaissance, de la première recherche de ce style qui ait été faite dans le domaine de la philologie romane.

Listing : CORPUS.TXT

Au chapitre  (p. ), nous avons présenté le format informatique qu’il faut respecter afin qu’ETYMO puisse lire les mots d’un corpus directement à partir d’un fichier. Il se trouve que ce format est peu lisible notamment lorsque le corpus contient beaucoup d’informations grammaticales. Nous avons donc décidé de le présenter sous la forme plus amène d’un tableau : celui-ci contient pour chaque mot la référence exacte(14), l’étymon latin(15), l’origine du mot (O)(16), le mot tel qu’il apparaît dans le texte(17) et la forme moderne. Notons que le corpus contient aussi des informations grammaticales qui ne sont pas représentées dans le tableau(18).


Cliquer ici pour voir le tableau.


Résultats

A partir des 594 mots du corpus et des 444 règles, ETYMO produit un fichier de résultats (STAT.LOG) qui est long de 10303 lignes et qui contient plusieurs milliers d’évolutions calculées(19). Vu le grand nombre d’étymologies, il est évident que la discussion des résultats ne pourra prendre en considération tous les cas et qu’elle ne saura donc être exhaustive. Par conséquent, nous aurons forcément à faire un choix et nous nous concentrerons sur « quelques cas » qui nous semblent particulièrement intéressants et qui montrent soit les réussites soit les échecs ou limites du programme tel qu’il se présente à l’heure actuelle. Afin de donner une vision globale du succès du calcul, nous commencerons par un bref sommaire statistique.

Sommaire statistique

Nous présentons séparément les résultats concernant le catalogue de règles (RULES.LOG) et le corpus (STAT.LOG).

Le catalogue de règles

Lors de l’impression de ce travail, le catalogue contient 444 règles dont 372 seulement ont été utilisées pour le calcul du corpus(20). Ces 372 règles ont été appliquées 27694 fois qui correspondent à 74 applications par règle en moyenne(21). Avec 2309 applications, la règle 118.3 (ligne 806) est la plus utilisée : cette règle s’applique donc environs 3.9 fois par mot(22). Pour plus de détails nous renvoyons le lecteur au fichier RULES.LOG.

Le corpus

Le corpus CORPUS.TXT contient 594 étymons et 600 évolutions attendues(23). Quant aux catégories grammaticales, ces mots se répartissent comme suit :


Nombre%
Substantifs20234.01
Verbes21836.70
Adjectifs8213.80
Prépositions183.03
Pronoms193.20
Numéros71.18
Démonstratifs101.68
Conjonctions101.68
Amalgamés40.67
Adverbes203.37
Non classifiés40.67
Total:594100.00


Le corpus contient 145 (24.41%) étymons hypothétiques face à 449 (75.59%) étymons documentés. Sur l’ensemble des étymologies, 29 (4.88%) sont incomplètes dans le sens où soit la forme latine, soit la forme moderne n’existe pas.

Quant aux résultats du calcul à proprement parler, nous avons distingué (au chapitre , p. ) entre les quatre types ideal, partial, sufficient et insufficient. Dans le cas de notre corpus, nous avons obtenus les résultats suivants :


TypeNombrePourcentage
ideal15726%
sufficient24841%
partial51%
insufficient18432%


Le succès global du calcul peut donc être représenté dans un schéma :


schéma


L’échelle de succès est progressive et va des étymologies incomplètes (= aucun succès) jusqu’aux étymologies idéales (= plein succès) :


incomplètes : l’étymologie n’a pas pu être calculée correctement parce que soit l’étymon latin, soit la forme moderne est absente.
insufficient : l’étymologie est fausse soit parce que le catalogue de règles est incomplet ou qu’il contient des règles incorrectes, soit parce que l’étymologie en tant que telle est irrégulière(24).
partial : au moins une des formes attendues a été calculée.
sufficient : toutes les formes attendues ont été calculées, mais il existe des formes superflues.
ideal : toutes les formes attendues ont été calculées et il n’y a pas de formes superflues.


Pour résumer, on peut donc dire que, sous réserve des étymologies superflues, ETYMO est capable de fournir des résultats corrects dans à peu près deux tiers des cas.

Discussion de quelques cas intéressants

Comme nous l’avons déjà dit, la liste des cas « intéressants » représente un choix assez arbitraire d’évolutions et elle pourrait donc facilement être prolongée. Néanmoins, considérant qu’à l’aide de ces exemples le linguiste averti devrait être capable de développer des réflexions analogues sur le reste des étymologies (contenues dans le fichier STAT.LOG), nous avons décidé de nous limiter à un strict minimum.

Evolutions proclitiques / enclitiques

Une des plus grandes innovations d’ETYMO (par rapport à PHONO, par exemple) est certainement celle de permettre la définition de traits non phonologiques. Ceux-ci peuvent par exemple être utilisés pour calculer des évolutions proclitiques ou enclitiques qui présentent souvent des phénomènes tels que aphérèse / apocope ou la non-diphtongaison de la voyelle tonique :



        UNUM    >       un                      apocope
        ILLAM   >       la                      aphérèse
        DOMINUM >       don                     apocope et non-diphtongaison


Il ne faut pas oublier, cependant, qu’il existe toute une série de contre-exemples :



        UNAM    >       una                     pas d'apocope
        ILLAM   >       ella                    pas d'aphérèse
        BENE    >       bien                    diphtongaison


C’est-à-dire que lorsqu’un mot est employé de manière proclitique ou enclitique chaque phénomène – aphérèse, apocope et diphtongaison – peut ou non avoir lieu. Pour tenir compte de cela, nous avons formulé des règles du style(25) :



  @[+procl,+encl]#.1V2.3&4| .5V6[-ton,-bas] .7&8#       condition  =  mot dissyllabique
              > 
{ @               .1V2.3&4!|&5&6            &7&8,       conséquence 1 = apocope
  @               .1V2.3&4  .5V6            .7&8,       conséquence 2 = pas d?évolution 
  @               &1&2&3&4!|&5V6[+ton,+ferm].7&8 }      conséquence 3 = aphérèse


et



  @[+procl,+encl]# * ?[-svoc] V1[+ton,+post,+moy,+ouv] condition = o ouvert tonique
              > 
{ @                * ?        V1[-ouv]                  conséq. 1 : non-diphtongaison
  @                * ?      j V1[+ant,-moy,+ferm] }     conséq. 2 : diphtongaison2


Vu que ces règles tiennent compte de tous les cas possibles, la production de formes fausses – désignées par * dans le schéma suivant – ne peut être évitée :


MOT

APHÉRÈSE(27)

FORME ENTIÈRE

APOCOPE

UNUM

*no

uno

un

ILLAM

la

ella

*el(28)

BONUM(29)

*no

bueno

buen

DOMINUM(30)

*no

dueño

don


et


MOT

DIPHTONGUE

PAS DE DIPHTONGUE

BONUM(31)

buen

*bon

DOMINUM

*duen

don


Pour plus de détails nous renvoyons le lecteur à l’appendice où au fichier STAT.LOG qui contient toutes les évolutions des étymologies discutées.

Aphérèses particulières

A part l’emploi proclitique / enclitique d’un mot, l’aphérèse peut être provoquée par d’autres facteurs. Dans notre corpus, nous trouvons par exemple le mot bodega (MIL, 463a) qui dérive de APOTHECA. L’aphérèse est ici due à une fusion vocalique entre le a de l’article féminin et le a initial du mot. Le critère de l’évolution dépasse, en quelque sorte, la frontière de mot :



        ILLA _ APOTHECA                 >       la  bodega


Ce phénomène peut être décrit grâce au traits grammaticaux [+subst] et [+f] qui désignent les substantifs féminins :



        @[+f,+subst]#A1[-ton]| C > @&1!|C           R44.8


Il est important que le a soit atone – [-ton] – puisque l’aphérèse ne se produit pas dans des mots comme AQUILA > aguila, ACQUA > agua, ANIMA > alma etc. où l’article féminin la a été remplacé par el (du moins en espagnol moderne).

Frontières de morphème

La frontière de morphème peut intervenir dans les phénomènes de sonorisation ou d’aspiration comme le montrent les exemples suivants :



       RE+TINERE    >       retener                 pas de sonorisation
       RE+FACERE    >       rehacer                 pas de sonorisation, mais 
                                                    aspiration du f comme s'il
                                                    était initial


Ces évolutions s’expliquent par le fait que les locuteurs étaient probablement conscients qu’il s’agissait de verbes composés de TENERE et FACERE (où t et f étaient initiaux et ont évolué de la façon correspondante). C’est la raison pour laquelle la règle de sonorisation



        V!+C[-vel,-son,-afr,-long]V > VC[+son]V         R17.7


doit être restreinte de sorte que la consonne sourde intervocalique ne doit pas être précédée par une frontière de morphème. La règle d’aspiration, par contre, doit être élargie dans la mesure où le passage de f > h se produit aussi après une frontière de morphème :



        ?|+f1V > ?h&1V                          R74"?


Notons qu’il existe des cas où des consonnes intervocaliques se sonorisent malgré la présence d’une frontière de morphème (par exemple PRO+FECTU > provecho). Nous supposons qu’il y a eu, à un moment donné, une perte de la frontière de morphème due au fait que le mot n’était plus perçu comme une forme composée, mais comme une unité lexicale monolithique :



        @#.&|+ > { @., @.&!+ }                  R17.4


Comme il s’agit d’une tendance, la règle contient deux conséquences qui conduisent – une fois de plus – à des évolutions superflues : à côté de la forme correcte provecho l’ordinateur calcule donc encore la forme pro(h)echo (forme avec aspiration)(32).

Confusion de préfixes

La confusion de préfixes est un phénomène relativement fréquent dans l’évolution des langues romanes. Dans notre corpus, nous trouvons les exemples suivants :



        PERFIDIA        >       *PORFIDIA       >       porfía          LBA, 1072c
        ABSCONDITA      >       *EX-(S)CONDITA  >       escondida       LBA, 1073b
        AUSCULTARE      >       *EX-SCULTARE    >       escuchar        MIL, 478b


Ces confusions peuvent être simulées par les règles suivantes :



        @#pE1[-ton]r > { @pE1r, @pO&1r }        per-/por-  R6.51 - 6.55
        @#a1s > { @a1s, @e&1s }                 ab(s)-/ex- R26.5(33)


Ces exemples montrent qu’ETYMO est essentiellement descriptif : les règles ne disent rien sur les mécanismes parfois assez complexes de ces changements (par exemple métathèse pro > por, ressemblance phonétique et affinité sémantique entre por et per), mais se contentent de décrire les conséquences que ces changements ont eu au niveau phonétique.

L’accent tonique

RULES.TXT contient des règles (R3) qui, à partir de la quantité des voyelles – [+long] vs [+bref] – et de la structure consonantique de la syllabe (fermée ou non fermée), calculent automatiquement la position de l’accent tonique. Avec les règles



        V[+ton].&|.V[-ton]C[+ocl]LV > V[-ton].&.V[+ton]CLV   R5i
        V[+haut, +ton]|V.&|.V.&# > V[-ton]V[+ton].&.V.&      R5ii


le programme est aussi capable de tenir compte de certains déplacements d’accent qui ont eu lieu dans les mots ÍNTEGRUM > INTÉGRUM > entéro (LBA, 1084c) et CÁTHEDRA > CATHÉDRA > cadéra.

Changements grammaticaux

ETYMO ne calcule pas seulement des évolutions phonétiques, mais il peut aussi simuler l’évolution des systèmes grammaticaux dans lesquels les mots s’inscrivent. Les mots CORPUS (MIL, 472c) et TEMPUS (LBA, 167a), par exemple, sont des neutres devenus masculins. La confusion de la terminaison –US, utilisée tant pour les substantifs du groupe consonantique [+grk] que pour ceux de la déclinaison en o [+gro], a certainement joué un rôle décisif dans cette évolution :



        @[+subst,+grk,+n]#*us1# > @[+gro,+m]*um&1     : R0.63(34)


La règle, quoique phonétique en ce qui concerne la terminaison, agit surtout sur les traits grammaticaux [+grk] / [+gro] et [+n] / [+m]. Des remarques analogues sont valables pour les évolutions CORNUA > *CORNUOS, PECCATA > *PECCATOS.

Désinences verbales

Dans les verbes, ce sont surtout les formes du parfait qui peuvent poser problème vu que de nombreuses désinences sont dues à un phénomène d’analogie :



        SAPUIT (MIL, 461d)      >       *sope           =>      sopo / supo
        POSUIT (LBA, 1067d)     >       *puse           =>      puso
        HABUIT (MIL, 462d)      >       *hobe           =>      hubo
        POTUIT (MIL, 476a)      >       *pude           =>      pudo
                * = évolution phonétique régulière


Les désinences phonétiques doivent donc être remplacées par la désinence analogique –o(t) :



        @[+verbe,-ser,+iii,+sg,+parf]#*V[+ton].&|.E1t# > @* V.&.o&1t    88.5

Comme on peut le voir, le parfait du verbe ESSERE doit être exclu de la règle puisque l’évolution est ici régulière : FUIT > fue(35). Une fois de plus, nous constatons qu’ETYMO est purement descriptif. La règle ne dit donc rien sur les raisons complexes qui sont à l’origine de cette analogie, c’est-à-dire l’évolution plus ou moins régulière(36) de –ÁVIT > –AUT > –OT > –O et l’extension de cette forme à d’autres paradigmes verbaux à cause de sa fréquence d’utilisation.

Métaphonies

Dans les formes du parfait des verbes, nous trouvons aussi des cas de métaphonie : le i long de FECI, par exemple, ferme la voyelle tonique qui passe à i.



        E1.&|.I2[+ferm].&#                  : R8.52
              > 
{       E1.&.I2.&,                          conséquence 1 : évolution zéro
        E1[+haut,+ferm].&.I2.&#  }          conséquence 2 : métaphonie


Comme cette transformation ne s’applique pas à tous les cas, nous sommes, de nouveau, obligés de formuler deux conséquences. Les résultats calculés sont donc hece aussi bien que hize (37).

Assimilations, dissimilations, épenthèses

Ces transformations, essentiellement phonétiques, sont assez faciles à simuler. Dans les exemples HOMINEM (MIL, 467c) et DOMINUM(38) (LBA, 1068a), elles sont effectuées par les règles suivantes :



        (1)  Vm1n2V> { V&1&2n[+long]V, Vm1r&2V }        R60.5) assimilation vs dissimilation

        (2a) C1[+nas,+bil,+dent,+bil]L>{C1C1[+ocl]!|L}  R98) épenthèse
        (2b) N[+long,+alv]>{N[-long,+pal]}              R60.7) palatalisation


Notons qu’entre les règles (1) et (2), il existe des phénomènes de feeding (mn =R1=> nn =R2=> ñ et mn =R1=> mr =R2=> mbr) et de bleeding (mn =R1=> nn empêche l’application de R2a et mn =R1=> mr empêche l’application de la règle R2b). Ces règles produisent, à nouveau, des évolutions superflues : à côté des formes correctes hombre et dueño, nous trouverons donc aussi des formes du type hoñe et duembro(39).

Phénomènes à distance

Dans le corpus, nous trouvons aussi des exemples où les phonèmes qui subissent la transformation ne se trouvent pas immédiatement les uns à côté des autres :



        NAVANCOS (1082c)        >       lavancos        dissimilation n-n > l-n
        MIRACULUM (461a)        >       milagro         métathèse r-l > l-r
        PARABOLAM (476a)        >       palabra         métathèse r-l > l-r


Ces transformations peuvent être décrites à l’aide de jokers :



        n1*V*n > { n1*V*n, l&1*V*n }                     : 97.3
        V|r1V|C[-nas,+vel,+bil]l2V > Vl&1VCr&2V          : 97.7


La première règle est aussi responsable de la transformation *DE+IN+ANTE > delante.

Formes amalgamées

Les formes amalgamées constituent sans doute un des problèmes principaux d’ETYMO. Par forme amalgamée, nous entendons par exemple la formation du conditionnel et du futur



(i)     *POTERE + (HAB)EBAT (MIL, 475c)    >       podr+ía
        IRE + (HAB)EMUS (LBA, 1072c)       >       ir+emos


mais aussi des pronoms enclitiques, notamment lorsque ceux-ci s’accumulent :



(ii)    SAPUIT + ILLI + ILLUM      (MIL, 461d)  >   sopó+ge+lo / súpo+se+lo
        INTENDEBANT + ILLI + ILLUM (MIL, 464d)  >   entendién+ge+lo / entendían+se+lo


Finalement, il existe toute une série d’amalgames formés par des prépositions, des pronoms, des adverbes etc. :



(iii)   AD + ILLUM (LBA, 1068d)         >       al
        HAC + ISTA (LBA, 1071a)         >       aquesta
        DE + UBI (LBA, 1078a)           >       do
        PER + HOC (LBA, 1080a)          >       pero
        DE + IN + ANTE (MIL, 466d)      >       delante


Ces formations sont difficiles à calculer parce que le catalogue de règles actuel a été conçu essentiellement pour des mots isolés. Dans le cas du futur et du conditionnel cependant, ETYMO arrive souvent à calculer la forme correcte en recourant à un « truc » : lorsqu’on a une forme du type



       <INFINITIF> + <FORME DE HABERE>

Par exemple



        @[+verbe,+iii,+sg,+cond]#po|te[+long]|re|+ha|be[+long]|bat#


ETYMO remplace le verbe HABERE par le trait grammatical [+rec] qui signifie pour lui que la déclinaison est à reconstruire :



        @[+verbe,+iii,+sg,+cond,+rec]#po|te[+long]|re#

La règle utilisée est donc



        @[+fut,+cond,+verbe]#*?|+hA|b*?# > @[+rec]#*?#!|!+ : R0


ETYMO peut maintenant calculer l’infinitif comme s’il s’agissait d’un mot isolé :



        #po|te[+long]|re# > #po|ðé[+ton]r#


Pour y rajouter ensuite la terminaison correcte pour le futur ou le conditionnel :



        @[+rec]#po|ðé[+ton]r# > #po|ðe|rí[+ton]|a#


Dans notre exemple, la règle responsable du changement est :



        @[+rec,+verbe,+cond,+iii,+sg]#*V[+ton]r#
             >
        @[-rec]#*V[-ton,-ouv]|r!#í[+ton]|a#             : R91.63


Notons qu’après la reconstruction, la règle efface le trait [+rec]. Enfin, il faut encore tenir compte des syncopes éventuelles :



        @[+verbe,+cond,+fut]#.V1|C[+dent]V2[-bas]|rV3[+ton] 
              >
        { @#.V1C&2!|rV3, @.V1CV2rV3 }                        : R91.71


Ce qui mène aux résultats finaux :


         poderíaarrow_up.gif
arrow_down.gif
podería



podría


Quant au deuxième type de formes amalgamées, il pourrait être calculé de façon analogue. Il serait ainsi possible de simuler la dissimilation entre les deux pronoms (entendían+le+lo > entendían+se+lo).

Le troisième type de formes amalgamées qui, dans la plupart des cas, se compose de formes courtes, peut, en règle générale, être calculé sans problèmes pourvu que les différentes parties soient séparées par une frontière de morphème (+).

Cultismes et sémi-cultismes

Les cultismes et les sémi-cultismes sont des mots qui – par définition, pour ainsi dire – ne peuvent pas être calculés par un programme informatique (voir aussi ch. , p. ). Néanmoins, ETYMO peut être utile dans le sens où il donne l’évolution hypothétique de ces mots :


Etymon

Evolution hypothétique

Evolution réelle

CLERICUS (LBA, 1069c)

llergo

clérigo

PERSONA (LBA 1072b)

pesona(40)

persona

FIGURAM (MIL 466a)

he(g)ura

figura

DICTATUM (LBA, 1077a)

dechado

di(c)tado


Voici quelques autres exemples de (sémi-)cultismes qui apparaissent dans notre corpus :


Etymon

Evolution réelle

Phénomène absent

FIRME (LBA, 1071b)

firme

pas d’aspiration du f

NOTA (LBA, 1074d)

nota

pas de diphtongaison pas de sonorisation

PLACITUM (LBA, 1081a)

plazo

pas de palatalisation de pl-

HABITUM (LBA, 461b)

hábito

pas de syncope

REGULAREM (MIL, 461b)

reglar

pas de fricativisation du groupe gl

FORNICIUM (MIL, 462c)

fornicio

pas d’aspiration du f

AD+MANSATUM (MIL, 468d)

amansado

pas d’assimilation de -ns-

FORMA (MIL, 473c)

forma

pas d’aspiration du f

FALSUM (MIL, 477a)

falso

pas d’aspiration du f, pas de vélarisation de l


Cette liste n’est évidemment pas exhaustive. Pour plus d’exemples, nous renvoyons le lecteur au fichier STAT.LOG où il trouvera facilement d’autres (sémi-)cultismes parmi les évolutions dont le calcul ne correspond pas au résultat attendu.

Formes médiévales vs formes modernes

Il existe des cas où la forme médiévale correspond mieux aux résultats calculés que la forme moderne :


Etymon

Forme calculée

Forme médiévale

Forme moderne

SUB (LBA, 1071b)

so

so

(so)

AMBAS (LBA, 1077a)

amas

amas

ambas


Dans le premier cas, la forme médiévale so a été remplacé par bajo (sauf dans quelques expressions comme dans so pena de). Dans le deuxième cas, la forme culte ambas a été réintroduite.

Croisements

Une autre série de mots dont le calcul s’avère difficile est celle des croisements. La difficulté réside ici dans l’irrégularité même des changements :



        PINNA x PENDER                          =>      pendones (LBA, 1086c)
        MALA+MENTE x DUM+INTERIM                =>      malamientre (MIL, 464b)
        SUPERBUS x SUPERBIA                     =>      soberbio (MIL, 464b)
        *FIGICARE x FINGERE                     =>      hincar (MIL, 469d)
        REGANNIRE x CANEM                       =>      regañar (MIL, 471a)


Dans ces cas, à l’encontre de toute règle phonétique, l’étymon de base a subi l’insertion d’une consonne par analogie à une autre forme sémantiquement et/ou phonétiquement proche.

Emprunts

Dans notre corpus, nous trouvons aussi des mots qui présentent des évolutions phonétiques qui ne peuvent être le résultat du phonétisme espagnol et qui doivent donc être des emprunts d’une autre langue :



        LEVIARIUM               >       ligero (LBA, 1068b)
        CAMBONES                >       jamones (LBA, 1084c)
        MONACUM                 >       monje (MIL, 461b)


D’après les règles phonétiques de l’espagnol, ces mots auraient dû évoluer à *livéro, *camónes et *mónago. La fricative vélaire /x/ qui est présente dans les trois cas, doit donc s’expliquer par une influence du français ou du catalan :



        LEVIARIUS               >       fr. léger, cat. lleuger
        CAMBONES                >       fr. jambon
        MONACUM                 >       cat. monjo


Nous trouvons aussi d’autres types d’emprunts, notamment des mots germaniques :



        *WARNITOS (< *warnjan)   >  guarnidos (LBA, 1081c)      cf. all. warnen
        *WARNITIONES (idem)      >  guarniciones (LBA, 1086d)
        *WARTAVIT (< *wardôn)    >  guardó (MIL, 462c)          cf. all. Wärter
        *WISA (< *wîsa)          >  guisa (MIL, 471a)           cf. all. Weise
        *WERRA (< *werra)        >  guerra (MIL, 477d)          cf. angl. war
        *WARIRE (< *warjan)      >  guarir (MIL, 480c)


Dans ces cas, il est intéressant de voir que le /w/ initial aboutit à /g/ et non pas à /ß/ comme le prévoit la règle 12 :



        @#w1V > @ß&1V              : 12') bilabialisation de wau


On peut donc supposer que ces emprunts sont postérieurs à cette règle. Pour le calcul, cela veut dire que ces mots doivent être pourvus d’une indication temporelle qui établit à partir de quel moment ils entrent dans la chaîne du calcul(41) :



        300:@#wé[+ton]|r[+long]a#(42)
        300:@#wa|rí[+ton]|re#


Il est évident que le chiffre 300 ne représente qu’une indication temporelle assez vague. Malgré cela, cet exemple peut illustrer les possibilités qui existent pour intégrer la variable du temps dans le calcul.

Dérivations

Dans quelques cas, il est impossible d’établir un étymon parce que le mot espagnol a été formé par dérivation :


RACINE

DERIVATION

SUFFIXE

Etymon

Evolution

Evolution

Etymon

DE+IN+ANTE arrow_right.gif

delante arrow_right.gif

delantera

arrow_left.gif -era

arrow_left.gif -ARIA

*POTERE arrow_right.gif

poder arrow_right.gif

poderoso

arrow_left.gif -oso

arrow_left.gif -OSUM


On pourrait évidemment tenter de reconstruire un étymon latin contenant à la fois la racine et le suffixe – par exemple *DEINANTARIA ou *POTEROSOS –, mais on peut être parfaitement sûr que de tels mots non jamais existé en latin(43). Une fois de plus, le problème réside ici dans le fait qu’ETYMO n’effectue que des calculs linéaires où chaque forme moderne doit avoir un antécédent direct.


1 Cf. la liste présentée dans Penny, op. cit., 1993, p. 106, qui contient 33 règles.

2 Cf. les listes du programme IBEROCHANGE de Eeastlack, p. 85 et de PHONO (pour ce dernier, voir le fichier READ.ME, section 1.2, qui accompagne le programme sur le CD-ROM).

3 Cf. Lleal, op. cit., 1992.

4 Cf. John Sinclair, « Korpustypologie. Ein Klassifikationsrahmen », p. 111, ds : Wolfgang Teubert, op. cit., 1998.

5 « Ein Korpus ist eine Sammlung von Sprachstücken, die nach expliziten linguistischen Kriterien ausgewählt und geordnet sind, um als Probe (sample) der Sprache verwendet zu werden ». John Sinclair, op. cit., 1998, p. 113.

6 John Sinclair, op. cit., 1998, p. 112.

7 John Sinclair, op. cit., 1998, p. 114.

8 Avec peut-être quelques petites exceptions, voir ch. , p. .

9 Non seulement, les étudiants nous aideraient à établir un corpus, mais encore ils pourraient tester le programme et nous renseigner sur son utilité pratique.

10 Dont les sources et l’exécutable ont également été inclus dans le CD-ROM joint à ce travail.

11 Il s’agit de formes comme vien / bien, empeço / empezo ou puso / pusso non reconnues comme identiques par le programme.

12 Voir tableau au paragraphe suivant.

13 Voir par exemple delantera (LBA, 1082a) où il n’existe pas d’étymon latin ou ca (LBA, 1068d) qui n’a pas de forme moderne correspondante.

14 LBA = « Libro de Buen Amor », MIL = « Los Milagros de Nuestra Sennora ».

15 Selon l’usage habituel, l’astérisque (*) désigne les formes hypothétiques / reconstruites.

16 A = arabe, G = germanique, H = hébreu, C = celte.

17 S’il y a différentes graphies, celles-ci sont séparées par une virgule.

18 Pour celles-ci, il faut consulter directement le fichier CORPUS.TXT sur le CD-ROM.

19 Aux résultats linguistiques à proprement parler s’ajoutent les résultats statistiques concernant le nombre d’applications par règle et les règles utilisées dans le calcul de chaque mot, informations qui sont contenues dans les fichiers WORDS.LOG et RULES.LOG.

20 Cela veut dire que les 72 règles restantes n’étaient pas nécessaires au calcul du corpus. Elle pourraient, pourtant, être impliquées dans le calcul d’autres corpus.

21 On pourrait donc dire que chaque règle est appliquée une fois sur environ 8 mots. Notons que ces résultats sont assez relatifs vu qu’il y a des règles qui s’appliquent énormément plus souvent que d’autres.

22 Notons qu’il s’agit d’une « règle technique » – qui n’a aucune importance linguistique – et qui élimine les informations grammaticales [+verbe,+subst,+adj,+prep,+pron,+conj,+adv,+reste].

23 Le nombre plus élevé des évolutions attendues est dû au fait que certains mots peuvent avoir plusieurs évolutions (p.ex : UNUM > uno, un, MEA > mía, mi, ALICUNUM > algún, alguno, ILLUM > él, ello etc.)

24 Ainsi, à partir de l’étymon FOEDU (laid), ETYMO calcule la forme heo qui est phonétiquement correcte, mais qui ne correspond pas à la forme réelle feo.

25 Pour des raisons d’espace, nous simplifions les règles. Quant aux versions réellement utilisés nous renvoyons le lecteur aux règles 65.51 – 65.55 pour les phénomènes d’aphérèse / apocope ainsi que les règles 48.51, 48.52 et 68’ pour la diphtongaison telles qu’elles apparaissent dans le fichiert RULES.TXT.

26 Comme nous l’avons déjà dit, la règle est ici extrêmement simplifiée : en réalité, le /ò/ tonique souvert ne passe pas directement à /wé/, mais se dédouble d’abord en /óò/ pour subir une dissimilation /óé/ ou /ué/ qui mène au résultat final /wé/.

27 Comme on peut le voir, seul une des quatre formes présentées ici est correcte. Mais dans les mots proclitiques / enclitiques, l’aphérèse semble être un phénomène peu fréquent. Voir aussi la note suivante.

28 La forme el entre probablement en conflit avec l’évolution ILLUM > el. En tenant compte de ce que nous avons dit dans la note précédente, nous pouvons conclure que l’aphérèse est une loi phonétique qui n’entre en jeu que lorsque pour des raisons « internes de la langue » (ici une « collision » homonymique), l’apocope n’est pas possible.

29 Quant au problème de la diphtongaison, nous ne tenons compte que de la forme correcte. La forme bon apparaît au schéma suivant.

30 Même remarque que pour BONUM, mis à part que nous supprimons ici la forme diphtonguée duen.

31 Nous ne tenons compte que des formes apocopées.

32 En réalité, le programme calcule encore d’autres formes notamment celles qui sont due à une confusion du préfixe pro-/per- > pro-.

33 ABS- et AUS- sont d’abord simplifiés en AS- dans les règles 20i et 26’.

34 La règle a été légèrement simplifiée.

35 Encore que la forme fo existe elle aussi. Celle-ci ne se doit pas, cependant, à une analogie, mais représente l’évolution régulière de FÚIT avec l’accent tonique sur le u.

36 Nous écrivons « plus ou moins régulière » parce que, du point de vue phonétique, l’évolution –AVIT > –AIT > –EIT > –ET > –ET aurait théoriquement été possible.

37 À côté de hez et hiz, deux formes qui ont subi une apocope.

38 Dans notre corpus, ce mot est utilisé de manière proclitique exclusivement. Nous présentons ici son évolution normal afin de pouvoir la comparer à celle de HOMINEM.

39 Une fois de plus, nous simplifions les résultats. En réalité, ETYMO calcule encore les formes hueñe / huembre et doño / dombro, vu que le o suivi par une nasale peut ou non se diphtonguer. Dans le cas de DOMINUM, le programme calcule, outre cela, les formes dombre / doñe / duembre / dueñe puisque les deux voyelles o-o sont susceptibles de subir une dissimilation à distance comme dans CUPRUM > cobre, DUPLUM > doble, COLAPUM > golpe etc. Pour plus de détails, voir le fichier STAT.LOG.

40 A côté de posona à cause d’une possible confusion entre les prefixes per-/por-. Voir ch. , p. .

41 Voir aussi ch. , p. et ch. , p. .

42 Les exemples ont été légèrement simplifiés dans la mesure où les informations grammaticales ont été supprimées.

43 La reconstruction de formes visiblement inexistantes s’offre, en effet, comme seule solution de secours et nous y avons eu recours dans notre corpus. Tandis que *DEINANTARIA aboutit au résultat désiré, *POTEROSU n’évolue pas à poderoso, mais à podroso (dû à un phénomène de la syncope), ce qui prouve que la racine et le suffixe ont évolué séparément et que le mot complet n’a été formé que plus tard par dérivation.


Retour à la page principale << Chapitre précédent Chapitre suivant >>