Tufis-ddb-lt1996

  • Uploaded by: Iurii Rusu
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Tufis-ddb-lt1996 as PDF for free.

More details

  • Words: 1,986
  • Pages: 7
Dan Tufiş (ed.), Limbaj şi Tehnologie, pp. 93-100. Editura Academiei Române, Bucureşti, 1996. ISBN 973-27-0542-6

DICŢIONAR AL LIMBII ROMÂNE DESTINAT TRADUCERII AUTOMATE DAN TUFIŞ, LIDIA DIACONU, CĂLIN DIACONU, ANA MARIA BARBU

1. Introducere Realizarea unui dicţionar şi a unei gramatici pentru o limbă naturală (limba română în cazul nostru) este un proiect de anvergură, implicând resurse umane şi materiale foarte mari. Generalizarea abordărilor lexicalizate în modelarea gramaticilor limbajelor naturale atribuie dicţionarului un rol esenţial în orice arhitectură de sistem de prelucrare automată a limbajului natural. Tot mai multe informaţii ce tradiţional erau codificate prin regulile gramaticii (sintaxa) sunt transferate în dicţionar. În felul acesta se promovează încapsularea cunoştinţelor lingvistice specifice în structuri lexicale, sintaxei revenindu-i sarcina codificării unor aspecte generice, a unor restricţii conceptuale, instanţiabile prin elemente lexicale specifice. Teoriile lingvistice moderne cum ar fi gramaticile funcţional lexicale (LFG), gramaticile de constituenţi frazali regenţi (HPSG), gramaticile categoriale (CG) sau gramaticile lexicalizate cu adjuncţie de arbori (LTAG) evidenţiază contribuţia esenţială a specificaţiilor lexicale la definirea şi reprezentarea restricţiilor gramaticale. Întreaga activitate de cercetare/dezvoltare în domeniul prelucrării limbajului natural, desfăşurată în contextul formalismelor bazate pe unificare precum şi popularitatea din ce în ce mai mare a acestor abordări, au făcut din problematica lexicului un punct focal al anilor `90. În definitiv, nici nu este de mirare, întrucât, orice încercare de a construi ceva mai mult decât un sistem jucărie de prelucrare a limbajului natural, este confruntată imediat cu nevoia de a avea la dispoziţie un dicţionar de mare acoperire lingvistică şi implicit cu enormele resurse materiale şi umane care trebuie asigurate pentru construcţia unui astfel de dicţionar. Aceasta este o problemă pe care lingvistica teoretică nu o are atât timp cât o duzină de exemple de intrări lexicale sunt suficiente pentru argumentarea uneia sau alteia dintre teoriile propuse [1]. Cum lingvistica în general şi lingvistica computaţională în special, sunt departe de consensul metodologic care să permită alegerea unei teorii sau a unui formalism în contextul cărora să se formalizeze cunoştinţele lingvistice necesare unui sistem de prelucrare a limbajului natural, este esenţial ca în modelarea limbii să se aibă în vedere criteriul reutilizabilităţii descrierilor lingvistice. Cu alte cuvinte, "migrarea" facilă (ideal automată) a reprezentării cunoştinţelor lingvistice dintr-un formalism în altul este un obiectiv a cărui ignorare poate genera imobilism şi un conservatorism perdant faţă de avansurile conceptuale în teoria lingvistică. În cele ce urmează vom prezenta structura unui dicţionar al limbii române, construit în contextul unui mediu de programare lingvistică bazată pe unificare, numit Mac-ELU [2] mediu implementat în colaborare cu ISSCO-Geneva. Dicţionarul se bazează pe un model morfologic paradigmatic [3,4,5,6] şi acoperă (sub raport morfo-grafematic), la momentul elaborării acestei lucrări, circa 80% din fondul lexical al DEX. După cum se va vedea în continuare, datorită caracterului incremental al dezvoltării proiectului nostru, este posibil ca diferite componente ale dicţionarului să fie dezvoltate în paralel, cu o relativă independenţă una de alta. Filozofia modelării de tip "atribut-valoare", în contextul unui mediu bazat pe unificare, precum şi facilităţile de compilare separată existente în sistemul Mac-ELU, ne-au permis defalcarea şi distribuirea (parţială deocamdată) a sarcinilor de realizare a dicţionarului

limbii române în colective specializate pe segmente specifice (fonologie, morfologie, sintaxă, clasificare terminologică, semantică lexicală). Prezentarea ce urmează tratează doar componentul morfo-grafematic (şi parţial cel lexical) ce a fost asumat şi a fost implementat de colectivul nostru.

2. Structura dicţionarului în formalismul Mac-ELU Mac-ELU (MacIntosh Environment Linguistique d'Unification) este un sistem bazat pe unificare care implementează o extensie semnificativă a formalismul PATR-II, [7]. O descriere completă a funcţionalităţii acestui mediu de programare lingvistică poate fi găsită în [8], iar detalii despre implementarea specifică pe care se bazează dicţionarul nostru sunt prezentate în [3]. O importantă caracteristică a acestui sistem este reversibilitatea. Acelaşi dicţionar poate fi folosit atât în analiză cât şi în generare, caracteristica de reversibilitate fiind persistentă la toate nivelurile prelucrării lingvistice în care dicţionarul este consultat. Fizic, dicţionarul este descris prin intermediul unei colecţii de fişiere ce codifică fiecare în parte o anumită categorie de informaţie relevantă pentru descrierea morfo-lexicală a limbii române. Coreferenţialitatea informaţiei referitoare la un anumit articol de dicţionar, distribuită în diferite descrieri parţiale, se realizează prin intermediul operaţiei de unificare. În urma procesului de compilare a acestor descrieri furnizând informaţii congruente, dar din perspective diferite, ale aceluiaşi articol morfo-lexical, rezultă o structură agregată complexă cu funcţionalitate la toate nivelurile de prelucrare lingvistică. Prin unificare, se pot integra în descrierile unor articole lexicale individuale, proprietăţi generice, caracteristice unor clase cărora acestea aparţin. De pildă, macro-definiţiile de mai jos, reprezentând abstracţii relaţionale de natură morfo-lexicală, sunt aplicabile tuturor formelor verbale partajate în forme predicative şi respective nepredicative. # Define morph VUntensed(Verform) = Verform = no = no = active/reflexive VTensed(TENSE,Verform) = Verform = TENSE = yes = yes

= active/reflexive Abstracţia relaţională de mai jos, specifică elementele structurale relevante pentru verb în modelarea acordului gramatical. # Define morph VAgr(N,P,G) = N = P = G Prin intermediul abstracţiilor relaţionale se pot defini valori implicite pentru categorii gramaticale, valori care se moştenesc (dacă nu se specifică altfel) de către toţi reprezentanţii categoriei respective. În exemplul de mai jos este dată o astfel de descriere generică a clasei verbelor. # Define lexical Verb =
=active/passive !prefixe ==VAgr =singular/plural =1/2/3 =masculine/feminine =no/yes =no/yes =aux/main =0 Cuvintele (în fapt, rădăcinile şi temele lexicale) aparţinând categoriilor gramaticale flexionare (substantiv, verb, adjectiv, pronume şi adjectiv nehotărât, pronume şi adjectiv demonstrativ, pronume relativ/interogativ, articol şi numeral) sunt descrise în câte două fişiere: unul conţine

informaţiile morfologice iar cel de-al doilea informaţiile lexicale asociate intrării de dicţionar în cauză. Analiza şi generarea cuvintelor presupun o strategie "stânga-dreapta" cu verificarea restricţiilor combinaţionale proprii fiecărui morfem din componenţa unui cuvânt. Pentru categoriile gramaticale neflexionare este necesară numai specificarea formelor leme şi a informaţiilor lexicale ataşate acestor forme. Categoriile gramaticale constituind clase închise (pronumele, numeralul, articolul, prepoziţiile şi conjuncţiile) au fost descrise în totalitate în cadrul unui singur fişier.

2.1. Structura de atribute şi valori Structura de atribute şi valori este reprezentată în cadrul formalismului Mac-ELU printr-o structură de graf orientat aciclic [7]. În practica teoriilor lingvistice moderne, se realizează o distincţie intre categorii majore (cele ce pot constitui regentul unui grup frazal) şi categorii minore. Categoriile majore au asignate atributul "bar" care desigur pentru nivelul lexical au fost iniţializate la valoarea 0. Alte atribute importante, prezente în dicţionarul nostru sunt: •

"cat" având ca valoare categoria gramaticală corespunzătoare cuvântului respectiv,



"form", atribut care specifică forma lemă a cuvântului de bază, şi



"head" care are ca valoare întotdeauna un subgraf în care sunt concentrate caracteristicile lexicale ale cuvântului. Atributul head conţine subarborele semantics, iar pentru categoriile gramaticale flexionare şi subarborele agreement (Figura 1.). Sunt definite două tipuri de acord: acordul nominal în gen, număr, caz şi persoană, corespunzător categoriilor nominale (substantiv, adjectiv, pronume şi numeral), şi acordul verbal în gen, număr şi persoană.

Figura 1. Structura generală de atribute corespunzătoare categoriilor majore

În afară de aceste atribute esenţiale, structura de atribute se completează cu atributele specifice fiecărei categorii gramaticale. Pentru fiecare cuvânt această structură este completată cu atributele şi valorile corespunzătoare. În virtutea reversibilităţii descrierilor din dicţionar precum şi a mediului de prelucrare lingvistică, aceleaşi structuri de atribute şi valori vor fi atribuite unei forme ocurenţă atât în procesul analizei cât şi al generării sale.

2.2. Exemple comentate de intrări în dicţionar Aşa cum am menţionat anterior, descrierea unei rădăcini pentru un cuvânt aparţinând unei categorii gramaticale flexionare se realizează prin intermediul a două subdescrieri [9]. Prima, furnizează rădăcina, tema implicită [3] (opţional) şi respectiv informaţiile lexicale ataşate acesteia. De exemplu pentru rădăcina "baron" (rezidentă în dicţionarul nounlex) vom avea: baron * n !common !pref(none) Această intrare conţine rădăcina ("baron") care este totodată şi tema implicită (acest lucru este semnalat prin prezenta caracterului de control "*"), categoria gramaticală (substantiv), specificarea că nu admite prefix şi în sfârşit că tema implicită este o rădăcină a unui substantiv comun. A doua parte a descrierii cuprinde descrierea restricţiilor de concatenare a sufixelor gramaticale şi lexicale la temele rădăcinii "baron": baron n @baronînounlex {+a}{+b} $nom_masc8, $nom_mob_fem6 baroan n @baronînounlex {+a}{+b} $nom_mob_fem1 Descrierea morfologică cuprinde două teme substantivale ale rădăcinii "baron". Prima intră în componenţa tuturor formelor flexionare ale substantivului masculin "baron" (paradigma nom_masc8), dar şi în toate formele flexionare ale substantivului feminin "baroneasă" (paradigma nom_mob_fem6) ce reprezintă moţiunea temei implicite. Cea de a doua temă substantivală intră în componenţa tuturor formelor flexionare ale substantivului "baroană", reprezentând de asemenea o moţiune a temei implicite (paradigma nom_mob_fem1). În descrierea de mai sus se mai observă modul de realizare a coreferenţialităţii informaţiilor distribuite în cele două descrieri parţiale: notaţia @baronnounlex specifică faptul că descrierea morfologică curentă este pertinentă pentru elementul lexical "baron" rezident în dicţionarul "nounlex". Variabilele "a" şi "b" reprezintă mijloace de control de tip "semafor" ce blochează combinaţii ilegale (faptul că cele două "semafoare", primul pentru formele de singular şi cel de al doilea pentru formele de plural sunt prefixate cu + semnifică invarianţa temei în raport cu numărul gramatical). Descrierea unui cuvânt aparţinând uneia din categoriile neflexionare se realizează pe un singur nivel specificându-se forma rădăcina, care de fapt reprezintă în acest caz forma lemă, şi informaţiile ataşate acesteia. Un exemplu de astfel de intrare (pentru adverbul locativ "acasă") este următorul: acasă * adv !Adv !pref(none) !type(place)

3. Rezultate În afară de clasele închise care au fost inventariate, introduse şi testate în totalitate, au fost descrise aproximativ 30.000 de intrări lexicale. Folosind descrierile sufixelor lexicale şi a unor prefixe cu semantică simplu descriptibilă, dicţionarul nostru acoperă în momentul de faţă aproximativ 50.000 cuvinte din fondul de cuvinte al limbii române. Fiind implicaţi în proiectul MULTEXT-EAST, pentru realizarea unui corpus pentru limba română, a trebuit să construim un lexicon exploatabil în contextul platformei de prelucrare a corpusurilor implementată în cadrul proiectului "mamă" MULTEXT, având următoarea structură de intrare lexicală: <cuvânt> , reprezintă o codificare liniară ("Ncmsoyn") a informaţiei morfo-lexicale asociată cuvântului (forma ocurenţă) iar reprezintă o marcă de adnotare a corpusului obţinut automat pe baza unor generalizări ale codurilor lexicale. Întrucât pe de o parte, informaţia codificată în acest dicţionar reprezintă un subset al informaţiei existente sau deductibile din dicţionarul implementat în formalismul Mac-ELU, iar pe de altă parte atributele şi valorile definite în cele două modelări au avut semantică identică sau foarte apropiată (alinierea la recomandările EAGLES fiind extrem de benefică), a fost posibilă generarea automată a noului dicţionar, conţinând aproximativ 500.000 de forme ocurenţă, economisindu-se un considerabil efort uman, financiar şi logistic.

4. Bibliografie [1] Alberto, P., Bennet, P. (eds) - "Lexical Issues in Machine Translation", in Studies in Machine Translation and Natural Language Processing, vol. 8, European Commission, Luxembourg, 1995. [2] Estival,D., Tufiş,D., Popescu,O. - "Développment d'outils et de donnés linguistiques pour le traîtement du langage naturel". Rapport Final - Projet EST, 1994. [3] Tufiş,D., Diaconu,L, Diaconu,C., Barbu,A.M. - "Morfologia limbii române, o resursă lingvistică reversibilă şi reutilizabilă " în acest volum. [4] Tufiş,D., Popescu,O. - "A Unified Management and Processing of Word-Forms, Idioms and Analytical Compounds" in J. Kunze and D. Reinmann (eds), Proceedings of ECACL'`91, Berlin, 1991. [5] Tufiş,D, -"It Would Be Much Easier if WENT Were GOED", In Somers, H., Woods, M. (eds) Proceedings of ECACL'89, Manchester, 1989. [6] Tufiş,D. - "A Learning Approach to Morphological Knowledge Acquisition", in I.Plander (ed), Artificial Intelligence and Information-Control Systems for Robots, North Holland, Strbske Pleso, 1989. [7] Shieber,S.M. - "An Introduction to Unification-Based Approaches to Grammar", Lecture Notes CSLI, No. 4, 1986.

[8] Estival,D. - "ELU User Manual", ISSCO, 1990. [9] *** "Gramatica limbii române". Editura Academiei, Bucureşti, 1966. [10] Diaconu,L. - "Construirea intrărilor lexicale în Mac-ELU." Manual de utilizare. Raport Tehnic ICI, iunie 1995.

More Documents from "Iurii Rusu"

Tufis-ddb-lt1996
June 2020 3
Gazele Naturale
July 2020 13
Gazele Naturale
July 2020 7
December 2019 11
October 2019 13