Afin de tester le programme et de donner un exemple concret de ce à quoi il peut servir, nous avons élaboré un catalogue de règles décrivant lévolution du latin (vulgaire) à lespagnol moderne ainsi quun corpus de mots auquel ces dernières ont été appliquées.
Tout calcul repose sur un « setting » : par setting nous entendons un cadre de données qui a été établi à laide dune certaine méthode ou en fonction de critères bien définis. Suivant la nature de cette méthode ou de ces critères, linterprétation des résultats obtenus par le calcul peut être différente. Il est donc important de se demander au préalable quelle est la meilleure façon de définir un catalogue de règles ou un corpus.
En partant de lidée quun catalogue de règles nest, dans le fond, rien dautre quune « grammaire historique sous forme abrégée », on pourrait croire que la meilleure méthode consiste à recourir à une ou plusieurs grammaires de ce type et à en « traduire » le contenu. Ce procédé, cependant, même sil peut sans doute mener à des résultats plus ou moins satisfaisants, est loin dêtre idéal. Car si ces grammaires sont extrêmement riches en informations dans certains domaines, elles restent beaucoup plus vagues dans dautres : ainsi, elles donnent certes beaucoup de renseignements sur lévolution globale de la langue et les phénomènes généraux qui y interviennent, mais elles sont souvent trop peu précises par rapport à la chronologie des changements linguistiques ou aux prémisses mathématiques exactes (cest-à-dire les critères dapplication ou de non-application) de ceux-ci.
Une méthode qui semble déjà plus appropriée est celle de recourir à des « listes » de lois phonétiques : dans celles-ci, les informations linguistiques sont réduites à un minimum (tout élément superflu a donc été enlevé) et la chronologie est clairement définie par lordre des différentes lois. Ces listes peuvent être de différents types : il y a, tout dabord, des listes qui apparaissent dans certaines grammaires historiques et qui en constituent un espèce de « résumé final »(1) ; il existe, ensuite, des listes qui ont déjà été utilisées pour des programmes informatiques et qui, basées sur des grammaires historiques à lorigine, ont été améliorées en fonction des calculs effectués(2) ; finalement, on trouve des listes qui sont le fruit de recherches linguistiques à la fois diverses et spécifiques et qui essaient de faire le point sur toutes les connaissances que lon a sur lévolution phonétique dune langue(3). À la différence des deux premiers types où la liste est un espèce de produit supplémentaire dun travail qui, en réalité, poursuit un autre but, elle est lobjectif principal dans le troisième cas. Cest la raison pour laquelle nous considérons ce type comme le plus approprié pour notre travail.
Bien quune telle liste constitue, comme nous venons de le dire, une source dinformation idéale, elle ne peut jamais quêtre un point de départ : vu le nombre immense de changements linguistiques auxquels une langue peut être soumise, aucune liste ne saura être exhaustive. Il sera donc à tout moment nécessaire de la compléter en recourrant à dautres sources (des grammaires historiques, évidemment, mais aussi des études sur des phénomènes plus spécifiques) ou en ladaptant en accord avec les résultats obtenus dans les calculs. Cest là dailleurs le but final dun programme comme ETYMO : démontrer la justesse ou la fausseté de certains ensembles de règles afin que le linguiste puisse ensuite les améliorer, soit en corrigeant une règle fausse, soit en ajoutant de nouvelles règles.
Le catalogue RULES.TXT est basé sur une liste de lois phonétiques établie par C. Lleal. Pour des questions précises concernant la chronologie nous avons ponctuellement consulté louvrage de C. Pensado Ruiz. Quant aux grammaires historiques, ce sont celles de Penny et de Lloyd qui ont été le plus utilisées. Lors de limpression de ce travail, le catalogue de règles se présente comme suit :
Il existe peu dunanimité parmi les linguistes quant à la définition du terme « corpus »(4). Malgré la variété des opinions, on peut établir comme terme commun quun corpus est « (1) une collection de pièces de textes qui (2) ont été choisies et arrangées selon des critères linguistiques explicites afin de (3) servir comme échantillon (sample) de la langue »(5). De ces trois points, il faut surtout retenir le dernier, cest-à-dire lidée de léchantillon : un corpus est donc un sous-ensemble de la langue qui est censé représenter celle-ci dans sa totalité. Ce postulat théorique a pour conséquence logique que tout calcul effectué sur le corpus devrait être généralisable. Autrement dit : tous les résultats valables pour le corpus devrait aussi être valable pour la langue entière.
Afin datteindre cette « généralisabilité » du corpus, celui-ci doit suffire à certains critères (cest donc le point 2 de notre définition) dont nous ne mentionnons que les trois principaux : (1) il doit être le plus large possible, (2) il doit être dune grande diversité et (3) cette diversité doit être équilibrée (ce qui veut dire que les différents échantillons de textes doivent avoir à peu près la même longueur)(6). Tout corpus qui ne respecte pas ces critères doit être considéré comme un corpus spécialisé qui nest représentatif que pour certains sous-ensembles de la langue.
Notons que la définition parle dune collection de « pièces de textes » et non pas dun ensemble de mots isolés. Cela sexplique par le fait quun corpus doit, en principe, être ouvert à un nombre non déterminé de recherches(7). Cela veut dire, par exemple, quil doit être utilisable pour des recherches syntaxiques (qui exigent des « phrases » entières) aussi bien que lexiques (qui, au contraire, peuvent seffectuer sur des mots simples). Dans le cas dETYMO, par contre, vu que chaque étymologie est traitée séparément(8), nous modifions la définition initialement donnée : tout en laissant intacts les critères de la largeur, de la diversité et de léquilibre, nous sommes moins exigeants par rapport au nombre de recherches potentielles et définissons un corpus comme une collection de « mots », tout simplement.
Étant donné quETYMO ne traite que des mots isolés, nous aurions pu recourir à un dictionnaire espagnol ou latin et en choisir, au hasard, un certain nombre de mots. Cette méthode, cependant, nous semblait aussi inefficace quennuyeuse. On sait bien que les dictionnaires ne répertorient quun nombre limité de mots et quil existe donc le danger que notamment les mots rares ny figurent pas. Outre cela, les mots dun dictionnaire sont toujours présentés sous une forme standard : les verbes, par exemple, apparaissent toujours à linfinitif, les substantif au nominatif etc. Nous aurions donc artificiellement dû « introduire » dautres formes afin datteindre une certaine diversité par rapport à ce critère. Finalement, il faut aussi tenir compte du fait quen prenant un dictionnaire latin, on risque de tomber sur des mots qui nexistent plus en espagnol (problème qui se pose évidemment à lenvers lorsquon choisit un dictionnaire espagnol).
Des réflexions théoriques de ce style, mais aussi des considérations pratiques nous ont finalement décidé de travailler sur des textes : nous avions, en effet, la possibilité de collaborer avec quelques étudiants qui suivaient un cours de grammaire historique en espagnol à luniversité de Fribourg et cette aide nous était bienvenue à plusieurs égards(9). Le corpus a donc été établi à partir des deux textes de base du cours, le Libro de Buen Amor de lArcipreste de Hita (coplas 1067 1087), dune part, et les Milagros de Nuestra Señora de Gonzalo de Berceo (coplas 461 481), dautre part.
La première tâche consistait à isoler les mots du texte, le but étant de ne répertorier chaque forme quune seule fois. Ce travail a été effectué de manière automatique à laide du programme informatique MKCOR(10). Néanmoins, certaines formes ont dû être regroupées manuellement(11). Ceci fait, nous avons établi pour chaque mot ces « projections » latine et espagnole, cest-à-dire que nous lui avons ajouté létymon latin ainsi que la forme correspondante de lespagnol moderne(12). A ce moment, nous nous sommes vus confrontés aux mêmes problèmes que nous avons déjà mentionnés, cest-à-dire quil y a des mots où lune ou lautre forme nexiste pas(13). Nous reviendrons sur ces cas lors de la discussion des résultats.
Notons que ce corpus ne peut pas être qualifié didéal vu quil ne respecte ni le critère de la diversité (puisquil ne tient compte que de deux textes médiévaux), ni celui de la quantité (le temps ainsi que le nombre de collaborateurs disponibles ne nous a pas permis détablir un corpus plus large). Malgré ces limites, nous sommes de lavis que les résultats que nous avons pu en tirer sont intéressants. Il sagit, à notre connaissance, de la première recherche de ce style qui ait été faite dans le domaine de la philologie romane.
Au chapitre (p. ), nous avons présenté le format informatique quil faut respecter afin quETYMO puisse lire les mots dun corpus directement à partir dun fichier. Il se trouve que ce format est peu lisible notamment lorsque le corpus contient beaucoup dinformations grammaticales. Nous avons donc décidé de le présenter sous la forme plus amène dun tableau : celui-ci contient pour chaque mot la référence exacte(14), létymon latin(15), lorigine du mot (O)(16), le mot tel quil apparaît dans le texte(17) et la forme moderne. Notons que le corpus contient aussi des informations grammaticales qui ne sont pas représentées dans le tableau(18).
A partir des 594 mots du corpus et des 444 règles, ETYMO produit un fichier de résultats (STAT.LOG) qui est long de 10303 lignes et qui contient plusieurs milliers dévolutions calculées(19). Vu le grand nombre détymologies, il est évident que la discussion des résultats ne pourra prendre en considération tous les cas et quelle ne saura donc être exhaustive. Par conséquent, nous aurons forcément à faire un choix et nous nous concentrerons sur « quelques cas » qui nous semblent particulièrement intéressants et qui montrent soit les réussites soit les échecs ou limites du programme tel quil se présente à lheure actuelle. Afin de donner une vision globale du succès du calcul, nous commencerons par un bref sommaire statistique.
Nous présentons séparément les résultats concernant le catalogue de règles (RULES.LOG) et le corpus (STAT.LOG).
Lors de limpression de ce travail, le catalogue contient 444 règles dont 372 seulement ont été utilisées pour le calcul du corpus(20). Ces 372 règles ont été appliquées 27694 fois qui correspondent à 74 applications par règle en moyenne(21). Avec 2309 applications, la règle 118.3 (ligne 806) est la plus utilisée : cette règle sapplique donc environs 3.9 fois par mot(22). Pour plus de détails nous renvoyons le lecteur au fichier RULES.LOG.
Le corpus CORPUS.TXT contient 594 étymons et 600 évolutions attendues(23). Quant aux catégories grammaticales, ces mots se répartissent comme suit :
Nombre | % | |
Substantifs | 202 | 34.01 |
Verbes | 218 | 36.70 |
Adjectifs | 82 | 13.80 |
Prépositions | 18 | 3.03 |
Pronoms | 19 | 3.20 |
Numéros | 7 | 1.18 |
Démonstratifs | 10 | 1.68 |
Conjonctions | 10 | 1.68 |
Amalgamés | 4 | 0.67 |
Adverbes | 20 | 3.37 |
Non classifiés | 4 | 0.67 |
Total: | 594 | 100.00 |
Le corpus contient 145 (24.41%) étymons hypothétiques face à 449 (75.59%) étymons documentés. Sur lensemble des étymologies, 29 (4.88%) sont incomplètes dans le sens où soit la forme latine, soit la forme moderne nexiste pas.
Quant aux résultats du calcul à proprement parler, nous avons distingué (au chapitre , p. ) entre les quatre types ideal, partial, sufficient et insufficient. Dans le cas de notre corpus, nous avons obtenus les résultats suivants :
Type | Nombre | Pourcentage |
ideal | 157 | 26% |
sufficient | 248 | 41% |
partial | 5 | 1% |
insufficient | 184 | 32% |
Le succès global du calcul peut donc être représenté dans un schéma :
Léchelle de succès est progressive et va des étymologies incomplètes (= aucun succès) jusquaux étymologies idéales (= plein succès) :
incomplètes : | létymologie na pas pu être calculée correctement parce que soit létymon latin, soit la forme moderne est absente. |
insufficient : | létymologie est fausse soit parce que le catalogue de règles est incomplet ou quil contient des règles incorrectes, soit parce que létymologie en tant que telle est irrégulière(24). |
partial : | au moins une des formes attendues a été calculée. |
sufficient : | toutes les formes attendues ont été calculées, mais il existe des formes superflues. |
ideal : | toutes les formes attendues ont été calculées et il ny a pas de formes superflues. |
Pour résumer, on peut donc dire que, sous réserve des étymologies superflues, ETYMO est capable de fournir des résultats corrects dans à peu près deux tiers des cas.
Comme nous lavons déjà dit, la liste des cas « intéressants » représente un choix assez arbitraire dévolutions et elle pourrait donc facilement être prolongée. Néanmoins, considérant quà laide de ces exemples le linguiste averti devrait être capable de développer des réflexions analogues sur le reste des étymologies (contenues dans le fichier STAT.LOG), nous avons décidé de nous limiter à un strict minimum.
Une des plus grandes innovations dETYMO (par rapport à PHONO, par exemple) est certainement celle de permettre la définition de traits non phonologiques. Ceux-ci peuvent par exemple être utilisés pour calculer des évolutions proclitiques ou enclitiques qui présentent souvent des phénomènes tels que aphérèse / apocope ou la non-diphtongaison de la voyelle tonique :
UNUM > un apocope ILLAM > la aphérèse DOMINUM > don apocope et non-diphtongaison
Il ne faut pas oublier, cependant, quil existe toute une série de contre-exemples :
UNAM > una pas d'apocope ILLAM > ella pas d'aphérèse BENE > bien diphtongaison
Cest-à-dire que lorsquun mot est employé de manière proclitique ou enclitique chaque phénomène aphérèse, apocope et diphtongaison peut ou non avoir lieu. Pour tenir compte de cela, nous avons formulé des règles du style(25) :
@[+procl,+encl]#.1V2.3&4| .5V6[-ton,-bas] .7&8# condition = mot dissyllabique > { @ .1V2.3&4!|&5&6 &7&8, conséquence 1 = apocope @ .1V2.3&4 .5V6 .7&8, conséquence 2 = pas d?évolution @ &1&2&3&4!|&5V6[+ton,+ferm].7&8 } conséquence 3 = aphérèse
et
@[+procl,+encl]# * ?[-svoc] V1[+ton,+post,+moy,+ouv] condition = o ouvert tonique > { @ * ? V1[-ouv] conséq. 1 : non-diphtongaison @ * ? j V1[+ant,-moy,+ferm] } conséq. 2 : diphtongaison2
Vu que ces règles tiennent compte de tous les cas possibles, la production de formes fausses désignées par * dans le schéma suivant ne peut être évitée :
MOT |
APHÉRÈSE(27) |
FORME ENTIÈRE |
APOCOPE |
UNUM |
*no |
uno |
un |
ILLAM |
la |
ella |
*el(28) |
BONUM(29) |
*no |
bueno |
buen |
DOMINUM(30) |
*no |
dueño |
don |
et
MOT |
DIPHTONGUE |
PAS DE DIPHTONGUE |
BONUM(31) |
buen |
*bon |
DOMINUM |
*duen |
don |
Pour plus de détails nous renvoyons le lecteur à lappendice où au fichier STAT.LOG qui contient toutes les évolutions des étymologies discutées.
A part lemploi proclitique / enclitique dun mot, laphérèse peut être provoquée par dautres facteurs. Dans notre corpus, nous trouvons par exemple le mot bodega (MIL, 463a) qui dérive de APOTHECA. Laphérèse est ici due à une fusion vocalique entre le a de larticle féminin et le a initial du mot. Le critère de lévolution dépasse, en quelque sorte, la frontière de mot :
ILLA _ APOTHECA > la bodega
Ce phénomène peut être décrit grâce au traits grammaticaux [+subst] et [+f] qui désignent les substantifs féminins :
@[+f,+subst]#A1[-ton]| C > @&1!|C R44.8
Il est important que le a soit atone [-ton] puisque laphérèse ne se produit pas dans des mots comme AQUILA > aguila, ACQUA > agua, ANIMA > alma etc. où larticle féminin la a été remplacé par el (du moins en espagnol moderne).
La frontière de morphème peut intervenir dans les phénomènes de sonorisation ou daspiration comme le montrent les exemples suivants :
RE+TINERE > retener pas de sonorisation RE+FACERE > rehacer pas de sonorisation, mais aspiration du f comme s'il était initial
Ces évolutions sexpliquent par le fait que les locuteurs étaient probablement conscients quil sagissait de verbes composés de TENERE et FACERE (où t et f étaient initiaux et ont évolué de la façon correspondante). Cest la raison pour laquelle la règle de sonorisation
V!+C[-vel,-son,-afr,-long]V > VC[+son]V R17.7
doit être restreinte de sorte que la consonne sourde intervocalique ne doit pas être précédée par une frontière de morphème. La règle daspiration, par contre, doit être élargie dans la mesure où le passage de f > h se produit aussi après une frontière de morphème :
?|+f1V > ?h&1V R74"?
Notons quil existe des cas où des consonnes intervocaliques se sonorisent malgré la présence dune frontière de morphème (par exemple PRO+FECTU > provecho). Nous supposons quil y a eu, à un moment donné, une perte de la frontière de morphème due au fait que le mot nétait plus perçu comme une forme composée, mais comme une unité lexicale monolithique :
@#.&|+ > { @., @.&!+ } R17.4
Comme il sagit dune tendance, la règle contient deux conséquences qui conduisent une fois de plus à des évolutions superflues : à côté de la forme correcte provecho lordinateur calcule donc encore la forme pro(h)echo (forme avec aspiration)(32).
La confusion de préfixes est un phénomène relativement fréquent dans lévolution des langues romanes. Dans notre corpus, nous trouvons les exemples suivants :
PERFIDIA > *PORFIDIA > porfía LBA, 1072c ABSCONDITA > *EX-(S)CONDITA > escondida LBA, 1073b AUSCULTARE > *EX-SCULTARE > escuchar MIL, 478b
Ces confusions peuvent être simulées par les règles suivantes :
@#pE1[-ton]r > { @pE1r, @pO&1r } per-/por- R6.51 - 6.55 @#a1s > { @a1s, @e&1s } ab(s)-/ex- R26.5(33)
Ces exemples montrent quETYMO est essentiellement descriptif : les règles ne disent rien sur les mécanismes parfois assez complexes de ces changements (par exemple métathèse pro > por, ressemblance phonétique et affinité sémantique entre por et per), mais se contentent de décrire les conséquences que ces changements ont eu au niveau phonétique.
RULES.TXT contient des règles (R3) qui, à partir de la quantité des voyelles [+long] vs [+bref] et de la structure consonantique de la syllabe (fermée ou non fermée), calculent automatiquement la position de laccent tonique. Avec les règles
V[+ton].&|.V[-ton]C[+ocl]LV > V[-ton].&.V[+ton]CLV R5i V[+haut, +ton]|V.&|.V. > V[-ton]V[+ton].&.V.& R5ii
le programme est aussi capable de tenir compte de certains déplacements daccent qui ont eu lieu dans les mots ÍNTEGRUM > INTÉGRUM > entéro (LBA, 1084c) et CÁTHEDRA > CATHÉDRA > cadéra.
ETYMO ne calcule pas seulement des évolutions phonétiques, mais il peut aussi simuler lévolution des systèmes grammaticaux dans lesquels les mots sinscrivent. Les mots CORPUS (MIL, 472c) et TEMPUS (LBA, 167a), par exemple, sont des neutres devenus masculins. La confusion de la terminaison US, utilisée tant pour les substantifs du groupe consonantique [+grk] que pour ceux de la déclinaison en o [+gro], a certainement joué un rôle décisif dans cette évolution :
@[+subst,+grk,+n]#*us1# > @[+gro,+m]*um&1 : R0.63(34)
La règle, quoique phonétique en ce qui concerne la terminaison, agit surtout sur les traits grammaticaux [+grk] / [+gro] et [+n] / [+m]. Des remarques analogues sont valables pour les évolutions CORNUA > *CORNUOS, PECCATA > *PECCATOS.
Dans les verbes, ce sont surtout les formes du parfait qui peuvent poser problème vu que de nombreuses désinences sont dues à un phénomène danalogie :
SAPUIT (MIL, 461d) > *sope => sopo / supo POSUIT (LBA, 1067d) > *puse => puso HABUIT (MIL, 462d) > *hobe => hubo POTUIT (MIL, 476a) > *pude => pudo * = évolution phonétique régulière
Les désinences phonétiques doivent donc être remplacées par la désinence analogique o(t) :
@[+verbe,-ser,+iii,+sg,+parf]#*V[+ton].&|.E1t# > @* V.&.o&1t 88.5
Comme on peut le voir, le parfait du verbe ESSERE doit être exclu de la règle puisque lévolution est ici régulière : FUIT > fue(35). Une fois de plus, nous constatons quETYMO est purement descriptif. La règle ne dit donc rien sur les raisons complexes qui sont à lorigine de cette analogie, cest-à-dire lévolution plus ou moins régulière(36) de ÁVIT > AUT > OT > O et lextension de cette forme à dautres paradigmes verbaux à cause de sa fréquence dutilisation.
Dans les formes du parfait des verbes, nous trouvons aussi des cas de métaphonie : le i long de FECI, par exemple, ferme la voyelle tonique qui passe à i.
E1.&|.I2[+ferm]. : R8.52 > { E1.&.I2.&, conséquence 1 : évolution zéro E1[+haut,+ferm].&.I2. } conséquence 2 : métaphonie
Comme cette transformation ne sapplique pas à tous les cas, nous sommes, de nouveau, obligés de formuler deux conséquences. Les résultats calculés sont donc hece aussi bien que hize (37).
Ces transformations, essentiellement phonétiques, sont assez faciles à simuler. Dans les exemples HOMINEM (MIL, 467c) et DOMINUM(38) (LBA, 1068a), elles sont effectuées par les règles suivantes :
(1) Vm1n2V> { V&1&2n[+long]V, Vm1r&2V } R60.5) assimilation vs dissimilation (2a) C1[+nas,+bil,+dent,+bil]L>{C1C1[+ocl]!|L} R98) épenthèse (2b) N[+long,+alv]>{N[-long,+pal]} R60.7) palatalisation
Notons quentre les règles (1) et (2), il existe des phénomènes de feeding (mn =R1=> nn =R2=> ñ et mn =R1=> mr =R2=> mbr) et de bleeding (mn =R1=> nn empêche lapplication de R2a et mn =R1=> mr empêche lapplication de la règle R2b). Ces règles produisent, à nouveau, des évolutions superflues : à côté des formes correctes hombre et dueño, nous trouverons donc aussi des formes du type hoñe et duembro(39).
Dans le corpus, nous trouvons aussi des exemples où les phonèmes qui subissent la transformation ne se trouvent pas immédiatement les uns à côté des autres :
NAVANCOS (1082c) > lavancos dissimilation n-n > l-n MIRACULUM (461a) > milagro métathèse r-l > l-r PARABOLAM (476a) > palabra métathèse r-l > l-r
Ces transformations peuvent être décrites à laide de jokers :
n1*V*n > { n1*V*n, l&1*V*n } : 97.3 V|r1V|C[-nas,+vel,+bil]l2V > Vl&1VCr&2V : 97.7
La première règle est aussi responsable de la transformation *DE+IN+ANTE > delante.
Les formes amalgamées constituent sans doute un des problèmes principaux dETYMO. Par forme amalgamée, nous entendons par exemple la formation du conditionnel et du futur
(i) *POTERE + (HAB)EBAT (MIL, 475c) > podr+ía IRE + (HAB)EMUS (LBA, 1072c) > ir+emos
mais aussi des pronoms enclitiques, notamment lorsque ceux-ci saccumulent :
(ii) SAPUIT + ILLI + ILLUM (MIL, 461d) > sopó+ge+lo / súpo+se+lo INTENDEBANT + ILLI + ILLUM (MIL, 464d) > entendién+ge+lo / entendían+se+lo
Finalement, il existe toute une série damalgames formés par des prépositions, des pronoms, des adverbes etc. :
(iii) AD + ILLUM (LBA, 1068d) > al HAC + ISTA (LBA, 1071a) > aquesta DE + UBI (LBA, 1078a) > do PER + HOC (LBA, 1080a) > pero DE + IN + ANTE (MIL, 466d) > delante
Ces formations sont difficiles à calculer parce que le catalogue de règles actuel a été conçu essentiellement pour des mots isolés. Dans le cas du futur et du conditionnel cependant, ETYMO arrive souvent à calculer la forme correcte en recourant à un « truc » : lorsquon a une forme du type
<INFINITIF> + <FORME DE HABERE>
Par exemple
@[+verbe,+iii,+sg,+cond]#po|te[+long]|re|+ha|be[+long]|bat#
ETYMO remplace le verbe HABERE par le trait grammatical [+rec] qui signifie pour lui que la déclinaison est à reconstruire :
@[+verbe,+iii,+sg,+cond,+rec]#po|te[+long]|re#
La règle utilisée est donc
@[+fut,+cond,+verbe]#*?|+hA|b*?# > @[+rec]#*?#!|!+ : R0
ETYMO peut maintenant calculer linfinitif comme sil sagissait dun mot isolé :
#po|te[+long]|re# > #po|ðé[+ton]r#
Pour y rajouter ensuite la terminaison correcte pour le futur ou le conditionnel :
@[+rec]#po|ðé[+ton]r# > #po|ðe|rí[+ton]|a#
Dans notre exemple, la règle responsable du changement est :
@[+rec,+verbe,+cond,+iii,+sg]#*V[+ton]r# > @[-rec]#*V[-ton,-ouv]|r!#í[+ton]|a# : R91.63
Notons quaprès la reconstruction, la règle efface le trait [+rec]. Enfin, il faut encore tenir compte des syncopes éventuelles :
@[+verbe,+cond,+fut]#.V1|C[+dent]V2[-bas]|rV3[+ton] > { @#.V1C&2!|rV3, @.V1CV2rV3 } : R91.71
Ce qui mène aux résultats finaux :
podería | ![]() ![]() | podería podría |
Quant au deuxième type de formes amalgamées, il pourrait être calculé de façon analogue. Il serait ainsi possible de simuler la dissimilation entre les deux pronoms (entendían+le+lo > entendían+se+lo).
Le troisième type de formes amalgamées qui, dans la plupart des cas, se compose de formes courtes, peut, en règle générale, être calculé sans problèmes pourvu que les différentes parties soient séparées par une frontière de morphème (+).
Les cultismes et les sémi-cultismes sont des mots qui par définition, pour ainsi dire ne peuvent pas être calculés par un programme informatique (voir aussi ch. , p. ). Néanmoins, ETYMO peut être utile dans le sens où il donne lévolution hypothétique de ces mots :
Etymon |
Evolution hypothétique |
Evolution réelle |
CLERICUS (LBA, 1069c) |
llergo |
clérigo |
PERSONA (LBA 1072b) |
pesona(40) |
persona |
FIGURAM (MIL 466a) |
he(g)ura |
figura |
DICTATUM (LBA, 1077a) |
dechado |
di(c)tado |
Voici quelques autres exemples de (sémi-)cultismes qui apparaissent dans notre corpus :
Etymon |
Evolution réelle |
Phénomène absent |
FIRME (LBA, 1071b) |
firme |
pas daspiration du f |
NOTA (LBA, 1074d) |
nota |
pas de diphtongaison pas de sonorisation |
PLACITUM (LBA, 1081a) |
plazo |
pas de palatalisation de pl- |
HABITUM (LBA, 461b) |
hábito |
pas de syncope |
REGULAREM (MIL, 461b) |
reglar |
pas de fricativisation du groupe gl |
FORNICIUM (MIL, 462c) |
fornicio |
pas daspiration du f |
AD+MANSATUM (MIL, 468d) |
amansado |
pas dassimilation de -ns- |
FORMA (MIL, 473c) |
forma |
pas daspiration du f |
FALSUM (MIL, 477a) |
falso |
pas daspiration du f, pas de vélarisation de l |
Cette liste nest évidemment pas exhaustive. Pour plus dexemples, nous renvoyons le lecteur au fichier STAT.LOG où il trouvera facilement dautres (sémi-)cultismes parmi les évolutions dont le calcul ne correspond pas au résultat attendu.
Il existe des cas où la forme médiévale correspond mieux aux résultats calculés que la forme moderne :
Etymon |
Forme calculée |
Forme médiévale |
Forme moderne |
SUB (LBA, 1071b) |
so |
so |
(so) |
AMBAS (LBA, 1077a) |
amas |
amas |
ambas |
Dans le premier cas, la forme médiévale so a été remplacé par bajo (sauf dans quelques expressions comme dans so pena de). Dans le deuxième cas, la forme culte ambas a été réintroduite.
Une autre série de mots dont le calcul savère difficile est celle des croisements. La difficulté réside ici dans lirrégularité même des changements :
PINNA x PENDER => pendones (LBA, 1086c) MALA+MENTE x DUM+INTERIM => malamientre (MIL, 464b) SUPERBUS x SUPERBIA => soberbio (MIL, 464b) *FIGICARE x FINGERE => hincar (MIL, 469d) REGANNIRE x CANEM => regañar (MIL, 471a)
Dans ces cas, à lencontre de toute règle phonétique, létymon de base a subi linsertion dune consonne par analogie à une autre forme sémantiquement et/ou phonétiquement proche.
Dans notre corpus, nous trouvons aussi des mots qui présentent des évolutions phonétiques qui ne peuvent être le résultat du phonétisme espagnol et qui doivent donc être des emprunts dune autre langue :
LEVIARIUM > ligero (LBA, 1068b) CAMBONES > jamones (LBA, 1084c) MONACUM > monje (MIL, 461b)
Daprès les règles phonétiques de lespagnol, ces mots auraient dû évoluer à *livéro, *camónes et *mónago. La fricative vélaire /x/ qui est présente dans les trois cas, doit donc sexpliquer par une influence du français ou du catalan :
LEVIARIUS > fr. léger, cat. lleuger CAMBONES > fr. jambon MONACUM > cat. monjo
Nous trouvons aussi dautres types demprunts, notamment des mots germaniques :
*WARNITOS (< *warnjan) > guarnidos (LBA, 1081c) cf. all. warnen *WARNITIONES (idem) > guarniciones (LBA, 1086d) *WARTAVIT (< *wardôn) > guardó (MIL, 462c) cf. all. Wärter *WISA (< *wîsa) > guisa (MIL, 471a) cf. all. Weise *WERRA (< *werra) > guerra (MIL, 477d) cf. angl. war *WARIRE (< *warjan) > guarir (MIL, 480c)
Dans ces cas, il est intéressant de voir que le /w/ initial aboutit à /g/ et non pas à /ß/ comme le prévoit la règle 12 :
@#w1V > @ß&1V : 12') bilabialisation de wau
On peut donc supposer que ces emprunts sont postérieurs à cette règle. Pour le calcul, cela veut dire que ces mots doivent être pourvus dune indication temporelle qui établit à partir de quel moment ils entrent dans la chaîne du calcul(41) :
300:@#wé[+ton]|r[+long]a#(42) 300:@#wa|rí[+ton]|re#
Il est évident que le chiffre 300 ne représente quune indication temporelle assez vague. Malgré cela, cet exemple peut illustrer les possibilités qui existent pour intégrer la variable du temps dans le calcul.
Dans quelques cas, il est impossible détablir un étymon parce que le mot espagnol a été formé par dérivation :
RACINE |
DERIVATION |
SUFFIXE |
||
Etymon |
Evolution |
Evolution |
Etymon |
|
DE+IN+ANTE |
delante |
delantera |
|
|
*POTERE |
poder |
poderoso |
|
|
On pourrait évidemment tenter de reconstruire un étymon latin contenant à la fois la racine et le suffixe par exemple *DEINANTARIA ou *POTEROSOS , mais on peut être parfaitement sûr que de tels mots non jamais existé en latin(43). Une fois de plus, le problème réside ici dans le fait quETYMO neffectue que des calculs linéaires où chaque forme moderne doit avoir un antécédent direct.
1 Cf. la liste présentée dans Penny, op. cit., 1993, p. 106, qui contient 33 règles.
2 Cf. les listes du programme IBEROCHANGE de Eeastlack, p. 85 et de PHONO (pour ce dernier, voir le fichier READ.ME, section 1.2, qui accompagne le programme sur le CD-ROM).
3 Cf. Lleal, op. cit., 1992.
4 Cf. John Sinclair, « Korpustypologie. Ein Klassifikationsrahmen », p. 111, ds : Wolfgang Teubert, op. cit., 1998.
5 « Ein Korpus ist eine Sammlung von Sprachstücken, die nach expliziten linguistischen Kriterien ausgewählt und geordnet sind, um als Probe (sample) der Sprache verwendet zu werden ». John Sinclair, op. cit., 1998, p. 113.
6 John Sinclair, op. cit., 1998, p. 112.
7 John Sinclair, op. cit., 1998, p. 114.
8 Avec peut-être quelques petites exceptions, voir ch. , p. .
9 Non seulement, les étudiants nous aideraient à établir un corpus, mais encore ils pourraient tester le programme et nous renseigner sur son utilité pratique.
10 Dont les sources et lexécutable ont également été inclus dans le CD-ROM joint à ce travail.
11 Il sagit de formes comme vien / bien, empeço / empezo ou puso / pusso non reconnues comme identiques par le programme.
12 Voir tableau au paragraphe suivant.
13 Voir par exemple delantera (LBA, 1082a) où il nexiste pas détymon latin ou ca (LBA, 1068d) qui na pas de forme moderne correspondante.
14 LBA = « Libro de Buen Amor », MIL = « Los Milagros de Nuestra Sennora ».
15 Selon lusage habituel, lastérisque (*) désigne les formes hypothétiques / reconstruites.
16 A = arabe, G = germanique, H = hébreu, C = celte.
17 Sil y a différentes graphies, celles-ci sont séparées par une virgule.
18 Pour celles-ci, il faut consulter directement le fichier CORPUS.TXT sur le CD-ROM.
19 Aux résultats linguistiques à proprement parler sajoutent les résultats statistiques concernant le nombre dapplications par règle et les règles utilisées dans le calcul de chaque mot, informations qui sont contenues dans les fichiers WORDS.LOG et RULES.LOG.
20 Cela veut dire que les 72 règles restantes nétaient pas nécessaires au calcul du corpus. Elle pourraient, pourtant, être impliquées dans le calcul dautres corpus.
21 On pourrait donc dire que chaque règle est appliquée une fois sur environ 8 mots. Notons que ces résultats sont assez relatifs vu quil y a des règles qui sappliquent énormément plus souvent que dautres.
22 Notons quil sagit dune « règle technique » qui na aucune importance linguistique et qui élimine les informations grammaticales [+verbe,+subst,+adj,+prep,+pron,+conj,+adv,+reste].
23 Le nombre plus élevé des évolutions attendues est dû au fait que certains mots peuvent avoir plusieurs évolutions (p.ex : UNUM > uno, un, MEA > mía, mi, ALICUNUM > algún, alguno, ILLUM > él, ello etc.)
24 Ainsi, à partir de létymon FOEDU (laid), ETYMO calcule la forme heo qui est phonétiquement correcte, mais qui ne correspond pas à la forme réelle feo.
25 Pour des raisons despace, nous simplifions les règles. Quant aux versions réellement utilisés nous renvoyons le lecteur aux règles 65.51 65.55 pour les phénomènes daphérèse / apocope ainsi que les règles 48.51, 48.52 et 68 pour la diphtongaison telles quelles apparaissent dans le fichiert RULES.TXT.
26 Comme nous lavons déjà dit, la règle est ici extrêmement simplifiée : en réalité, le /ò/ tonique souvert ne passe pas directement à /wé/, mais se dédouble dabord en /óò/ pour subir une dissimilation /óé/ ou /ué/ qui mène au résultat final /wé/.
27 Comme on peut le voir, seul une des quatre formes présentées ici est correcte. Mais dans les mots proclitiques / enclitiques, laphérèse semble être un phénomène peu fréquent. Voir aussi la note suivante.
28 La forme el entre probablement en conflit avec lévolution ILLUM > el. En tenant compte de ce que nous avons dit dans la note précédente, nous pouvons conclure que laphérèse est une loi phonétique qui nentre en jeu que lorsque pour des raisons « internes de la langue » (ici une « collision » homonymique), lapocope nest pas possible.
29 Quant au problème de la diphtongaison, nous ne tenons compte que de la forme correcte. La forme bon apparaît au schéma suivant.
30 Même remarque que pour BONUM, mis à part que nous supprimons ici la forme diphtonguée duen.
31 Nous ne tenons compte que des formes apocopées.
32 En réalité, le programme calcule encore dautres formes notamment celles qui sont due à une confusion du préfixe pro-/per- > pro-.
33 ABS- et AUS- sont dabord simplifiés en AS- dans les règles 20i et 26.
34 La règle a été légèrement simplifiée.
35 Encore que la forme fo existe elle aussi. Celle-ci ne se doit pas, cependant, à une analogie, mais représente lévolution régulière de FÚIT avec laccent tonique sur le u.
36 Nous écrivons « plus ou moins régulière » parce que, du point de vue phonétique, lévolution AVIT > AIT > EIT > ET > ET aurait théoriquement été possible.
37 À côté de hez et hiz, deux formes qui ont subi une apocope.
38 Dans notre corpus, ce mot est utilisé de manière proclitique exclusivement. Nous présentons ici son évolution normal afin de pouvoir la comparer à celle de HOMINEM.
39 Une fois de plus, nous simplifions les résultats. En réalité, ETYMO calcule encore les formes hueñe / huembre et doño / dombro, vu que le o suivi par une nasale peut ou non se diphtonguer. Dans le cas de DOMINUM, le programme calcule, outre cela, les formes dombre / doñe / duembre / dueñe puisque les deux voyelles o-o sont susceptibles de subir une dissimilation à distance comme dans CUPRUM > cobre, DUPLUM > doble, COLAPUM > golpe etc. Pour plus de détails, voir le fichier STAT.LOG.
40 A côté de posona à cause dune possible confusion entre les prefixes per-/por-. Voir ch. , p. .
41 Voir aussi ch. , p. et ch. , p. .
42 Les exemples ont été légèrement simplifiés dans la mesure où les informations grammaticales ont été supprimées.
43 La reconstruction de formes visiblement inexistantes soffre, en effet, comme seule solution de secours et nous y avons eu recours dans notre corpus. Tandis que *DEINANTARIA aboutit au résultat désiré, *POTEROSU névolue pas à poderoso, mais à podroso (dû à un phénomène de la syncope), ce qui prouve que la racine et le suffixe ont évolué séparément et que le mot complet na été formé que plus tard par dérivation.
Retour à la page principale | << Chapitre précédent | Chapitre suivant >> |