Dan Tufiş (ed.), Limbaj şi Tehnologie, pp. 93-100. Editura Academiei Române, Bucureşti, 1996. ISBN 973-27-0542-6
DICŢIONAR AL LIMBII ROMÂNE DESTINAT TRADUCERII AUTOMATE DAN TUFIŞ, LIDIA DIACONU, CĂLIN DIACONU, ANA MARIA BARBU
1. Introducere Realizarea unui dicţionar şi a unei gramatici pentru o limbă naturală (limba română în cazul nostru) este un proiect de anvergură, implicând resurse umane şi materiale foarte mari. Generalizarea abordărilor lexicalizate în modelarea gramaticilor limbajelor naturale atribuie dicţionarului un rol esenţial în orice arhitectură de sistem de prelucrare automată a limbajului natural. Tot mai multe informaţii ce tradiţional erau codificate prin regulile gramaticii (sintaxa) sunt transferate în dicţionar. În felul acesta se promovează încapsularea cunoştinţelor lingvistice specifice în structuri lexicale, sintaxei revenindu-i sarcina codificării unor aspecte generice, a unor restricţii conceptuale, instanţiabile prin elemente lexicale specifice. Teoriile lingvistice moderne cum ar fi gramaticile funcţional lexicale (LFG), gramaticile de constituenţi frazali regenţi (HPSG), gramaticile categoriale (CG) sau gramaticile lexicalizate cu adjuncţie de arbori (LTAG) evidenţiază contribuţia esenţială a specificaţiilor lexicale la definirea şi reprezentarea restricţiilor gramaticale. Întreaga activitate de cercetare/dezvoltare în domeniul prelucrării limbajului natural, desfăşurată în contextul formalismelor bazate pe unificare precum şi popularitatea din ce în ce mai mare a acestor abordări, au făcut din problematica lexicului un punct focal al anilor `90. În definitiv, nici nu este de mirare, întrucât, orice încercare de a construi ceva mai mult decât un sistem jucărie de prelucrare a limbajului natural, este confruntată imediat cu nevoia de a avea la dispoziţie un dicţionar de mare acoperire lingvistică şi implicit cu enormele resurse materiale şi umane care trebuie asigurate pentru construcţia unui astfel de dicţionar. Aceasta este o problemă pe care lingvistica teoretică nu o are atât timp cât o duzină de exemple de intrări lexicale sunt suficiente pentru argumentarea uneia sau alteia dintre teoriile propuse [1]. Cum lingvistica în general şi lingvistica computaţională în special, sunt departe de consensul metodologic care să permită alegerea unei teorii sau a unui formalism în contextul cărora să se formalizeze cunoştinţele lingvistice necesare unui sistem de prelucrare a limbajului natural, este esenţial ca în modelarea limbii să se aibă în vedere criteriul reutilizabilităţii descrierilor lingvistice. Cu alte cuvinte, "migrarea" facilă (ideal automată) a reprezentării cunoştinţelor lingvistice dintr-un formalism în altul este un obiectiv a cărui ignorare poate genera imobilism şi un conservatorism perdant faţă de avansurile conceptuale în teoria lingvistică. În cele ce urmează vom prezenta structura unui dicţionar al limbii române, construit în contextul unui mediu de programare lingvistică bazată pe unificare, numit Mac-ELU [2] mediu implementat în colaborare cu ISSCO-Geneva. Dicţionarul se bazează pe un model morfologic paradigmatic [3,4,5,6] şi acoperă (sub raport morfo-grafematic), la momentul elaborării acestei lucrări, circa 80% din fondul lexical al DEX. După cum se va vedea în continuare, datorită caracterului incremental al dezvoltării proiectului nostru, este posibil ca diferite componente ale dicţionarului să fie dezvoltate în paralel, cu o relativă independenţă una de alta. Filozofia modelării de tip "atribut-valoare", în contextul unui mediu bazat pe unificare, precum şi facilităţile de compilare separată existente în sistemul Mac-ELU, ne-au permis defalcarea şi distribuirea (parţială deocamdată) a sarcinilor de realizare a dicţionarului
limbii române în colective specializate pe segmente specifice (fonologie, morfologie, sintaxă, clasificare terminologică, semantică lexicală). Prezentarea ce urmează tratează doar componentul morfo-grafematic (şi parţial cel lexical) ce a fost asumat şi a fost implementat de colectivul nostru.
2. Structura dicţionarului în formalismul Mac-ELU Mac-ELU (MacIntosh Environment Linguistique d'Unification) este un sistem bazat pe unificare care implementează o extensie semnificativă a formalismul PATR-II, [7]. O descriere completă a funcţionalităţii acestui mediu de programare lingvistică poate fi găsită în [8], iar detalii despre implementarea specifică pe care se bazează dicţionarul nostru sunt prezentate în [3]. O importantă caracteristică a acestui sistem este reversibilitatea. Acelaşi dicţionar poate fi folosit atât în analiză cât şi în generare, caracteristica de reversibilitate fiind persistentă la toate nivelurile prelucrării lingvistice în care dicţionarul este consultat. Fizic, dicţionarul este descris prin intermediul unei colecţii de fişiere ce codifică fiecare în parte o anumită categorie de informaţie relevantă pentru descrierea morfo-lexicală a limbii române. Coreferenţialitatea informaţiei referitoare la un anumit articol de dicţionar, distribuită în diferite descrieri parţiale, se realizează prin intermediul operaţiei de unificare. În urma procesului de compilare a acestor descrieri furnizând informaţii congruente, dar din perspective diferite, ale aceluiaşi articol morfo-lexical, rezultă o structură agregată complexă cu funcţionalitate la toate nivelurile de prelucrare lingvistică. Prin unificare, se pot integra în descrierile unor articole lexicale individuale, proprietăţi generice, caracteristice unor clase cărora acestea aparţin. De pildă, macro-definiţiile de mai jos, reprezentând abstracţii relaţionale de natură morfo-lexicală, sunt aplicabile tuturor formelor verbale partajate în forme predicative şi respective nepredicative. # Define morph VUntensed(Verform) = Verform = no = no = active/reflexive VTensed(TENSE,Verform) = Verform = TENSE = yes = yes
= active/reflexive Abstracţia relaţională de mai jos, specifică elementele structurale relevante pentru verb în modelarea acordului gramatical. # Define morph VAgr(N,P,G) = N = P = G Prin intermediul abstracţiilor relaţionale se pot defini valori implicite pentru categorii gramaticale, valori care se moştenesc (dacă nu se specifică altfel) de către toţi reprezentanţii categoriei respective. În exemplul de mai jos este dată o astfel de descriere generică a clasei verbelor. # Define lexical Verb =