Corpusen adierazgarritasuna

Igone Zabala Unzalu

Nik ere hasiko dut, Jesus Maria Agirrek berea bezala, apirileko artikulu hau Egungo Testuen Corpusa (ETC) baliabide berriari erreferentzia eginez: ezinezkoa zait ezikusia egitea urte honen hasieran euskal corpusgintzak eman digun uzta oparoari.

Corpusek erabilera ugari izan ditzakete. Diseinatu direnean ezin aurreikus zitezkeen erabilerak ere izan ditzakete baina, nolanahi ere, xede jakin batzuetarako diseinatu behar dira corpusak, xede horiek baldintzatuko baitute neurri handian diseinua bera. Hizkuntzalaritza-ikerketak dira corpusgintzaren xede funtsezkoenetakoak: aztertu nahi diren hizkuntza-gertakarien ebidentzia enpirikoa eskuratzeko sortzen dira funtsean corpusak. Corpusean biltzen diren testuek karakterizatu nahi diren hizkuntza-gertakariak gauzatzen diren hizkuntza edo hizkuntza-aldaera ahal den eta hobekien islatu behar dute. Hortaz, adierazgarritasuna da corpusen ezaugarri garrantzitsuenetako bat. Corpus Hizkuntzalaritzaren alorreko ikertzaile aipatuenetakoa den John Sinclair-en hitzak ekarriko ditut hona ingelesez: mezua ez nuke horren zehatz adieraziko euskaratuz gero eta, gainera, zalantza-izpirik ez daukat foro honetako edozeinek nik baino egokiago emango lituzkeela hitzok euskaraz:

A corpus is a remarkable thing, not so much because it is a collection of language text, but because of the properties that it acquires if it is well-designed and carefully-constructed.

The guiding principles that relate corpus and text are concepts that are not strictly definable, but rely heavily on the good sense and clear thinking of the people involved, and feedback from a consensus of users. However unsteady is the notion of representativeness, it is an unavoidable one in corpus design, and others such as sample and balance need to be faced as well. It is probably time for linguists to be less squeamish about matters which most scientists take completely for granted.

Corpusek ezezagunak diren hizkuntzaren gertakariak edota ezaugarriak aurkitzeko balio dute, eta ebidentzia enpirikoa eskaini behar digute hizkuntzari buruz egiten ditugun hipotesiak egiaztatzeko edo gezurtatzeko. Nolanahi ere, erabiltzaileek corpusetik erauzten dituzten datuak egokiro interpretatu ahal izateko, ezinbestekoa da corpusa eraikitzeko oinarri modura hartu diren irizpideen berri izatea. Irizpide horiek, jakina, lotura zuzena izango dute corpusaren xedearekin. Argibideen bila jo dut, beraz, oraingoan hizpide dugun ETC corpusera.

Euskara Institutuaren web-atarian euskaraz sartuz gero, informazio gutxi aurkituko dugu corpusaren xedeaz: hitz kopurua, 2001-2011 urte-tarteko testuak biltzen direla eta izenburua. Izenburuak agerian uzten digu corpus sinkronikoa egitea izan dela xedea eta, bestelako xehetasunik ageri ez denez, corpus horretan gaurko euskara osoa islatu nahi dela pentsatu behar dugu. Izenburuaren azpian ageri den zehaztapena (21. mendeko ereduzko corpusa) zaila da interpretatzen, baina Ereduzko Prosa Gaur (EPG) dakarkigu burura. Harrigarria bada ere, beste hizkuntzetara jo behar dugu ereduzko horrek zer esan nahi duen jakiteko. EPG corpusak izenburu hauek ditu beste hizkuntza bazuetan: Prosa de Referencia (PR) / Contemporary Reference Prose (CRP) / Prose de Référence (PRC). Pentsa daiteke, beraz, ereduzko beste hizkuntza horien de referencia, reference, de reference mugatzaileen ordain modura erabili dela. ETC corpusera berriro ere etorrita, Corpus de Referencia del siglo XXI (ETC), Corpus of Contemporary Basque (ETC) eta Corpus du Basque Contemporain (ETC) ordainak aurkituko ditugu. Oraingoan euskarazko ereduzko horren argibide bakarra espainolezko de referencia dugu. Pentsa dezagun, beraz, ereduzko corpusa terminoa erreferentzia-corpusa terminoari dagokion kontzeptua adierazteko erabili dela.

Corpus Hizkuntzalaritzan reference corpus deritze xede jakin batekin diseinatzen diren corpusei. Erreferentzia-corpusen helburua da hizkuntzari buruzko informazio exhaustibo eta globala eskaintzea. Hortaz, corpus orokorrak edo orotarikoak izan behar dira eta hizkuntzaren erabileren estaldura handia izan behar dute. Alegia, nahiko zabalak izan behar dira hizkuntzaren aldaera garrantzitsu guztiak eta hizkuntzaren hiztegi bereizgarria islatzeko. Hortaz, erreferentzia-corpusa izateko xedea corpusaren beraren osaeran islatu beharko litzateke eta ETC corpusean bada osaerari buruzko informazioa. Testuen iturriari buruzko informazioa laburbildu dut beheko taulan, baina beste bi informazio mota ere ageri dira atal berean, alegia, itzulitako testuen proportzioa eta urtez urteko testuen proportzioa.

Prentsa     115,5
Berria 75,1
Egunkaria 17,0
Argia 10,2
Goienkaria 7,5
Herria 5,8
Literatura, saikaera 35,6
EPG-EPDko liburuak 16,5
Pentsamenduaren Klasikoak 5,6
Jakin 2,4
beste liburu batzuk 11,1
Zientzia, zuzenbidea 19,5
UEU 7,1
Zuzenbide Corpusa 5,8
UPV/EHU 5,6
ZT Corpusa 2,4
ZIO bilduma 1,0
Telebista (Goenkale) 7,4
Entziklopedia (Wikipedia) 24,5

Euskararen orotariko aldaerak daude islatuta ETC corpusean? eta era orekatuan islatuta al daude? Orekarena oso nozio zaila dela aitortzen dute Corpus Hizkuntzalaritzaren alorreko adituek. Geoffrey Leech-en hitzak hona ekarrita, corpus bat orekatua izan dadin, hizkuntza-aldaera desberdinen azpicorpusen tamaina hizkuntzan duten garrantziaren araberakoa izan behar da. Leech-ek berak aitortzen duen bezala, errazagoa da ados jartzea corpus bat desorekatua dagoela baieztatzeko, corpus bat orekatua dela esateko baino. Nolanahi ere, gutxi gorabeherako zenbait irizpideren arabera ebalua dezakegu ETC corpusaren oreka.

  • Lehen irizpidea idatzia vs ahozkoa izan ohi da eta, mundu zabaleko corpusetan ohikoa omen den bezala, begi-bistakoa da irizpide honen arabera ez dela inola ere orekatua ETC corpusa: idatzia % 96,35 / ahozkoa % 3,65. Kontuan hartu behar da hizkuntzetan ahozko ekoizpenek askoz ere proportzio handiagoa osatu ohi dutela idatzizko ekoizpenek baino.
  • Gutxiengo nabarmena diren ahozko testuak alde batera utzita, prentsa vs bestelakoak izan daiteke bigarren irizpidea. Hurrenez hurren, % 59,2 eta % 40,8 proportzioak aurkitzen ditugu irizpide honen arabera. Adierazgarritasunaren ikuspegitik oro har onartuta dago prentsak eragin handia duela hiztun-komunitate osoan eta, beraz, ondo islatuta egon behar dela erreferentzia-corpus batean. Ildo horretatik, irizpide honen arabera corpusa nahiko ondo orekatuta dagoela esan liteke.
  • Beste irizpide bat izan liteke testu-mota, eta irizpide horren hiru atal bereiziko genituzke: prentsako artikuluak vs Interneteko testuak vs bestelakoak. Irizpide honen arabera, proportzioak, %59,2, % 12,6 eta % 28,2 dira, hurrenez hurren. Oso zaila da jakitea proportzio horiek loturarik ba ote duten hizkuntzaren erabilera errealetan testu-mota horiek duten garrantziarekin.
  • Testuen espezializazio maila izan liteke beste ezaugarri bat. Zaila da irizpide hori aplikatzea, datu gutxiegi baititugu, baina demagun Zientzia, zuzenbidea izena daraman atala testu espezializatu(ago)ak biltzen dituelako bereizi dela besteetatik. Hortik testu espezializatuak vs testu ez-espezializatuak irizpidea ondoriozta genezake, eta berriro ere corpus osoa kontuan hartuta, % 9,6 vs % 90,4 proportzioak ditugu. Zaila da jakitea zer proportziotan egon beharko luketen islatuta erabilera espezializatuek era honetako corpus batean baina, lehen begi-kolpean behintzat, ez dirudi corpus hau oso egokia izan litekeenik, adibidez, hiztegi espezializatua aztertzeko.
  • Azkenik, Zientzia, zuzenbidea deritzon atalaren osaerari dagokionez, aipatu beharrekoa da, lehendabizi, atalez atal zehazten den hitz kopurua ez datorrela bat guztizko balioarekin. Izan ere, atalen hitz kopuruen batura 21,9 da eta ez 19,5, sarreran ageri den bezala. Bestalde, zuzenbideko testuak % 26,5 direla jakin dezakegu, baina gainerako % 73,5a ez dakigu zer espezialitate-alorretakoa den, ez eta zer proportziotan bilduta dauden alor desberdinetako testuak. Atal honetan, beraz, zaila da inolako ondoriorik ateratzea orekari buruz.

Egindako analisi azkarretik ateratako ondorioetan oinarrituta, ETC corpusari corpus oportunista esaten zaienaren itxura hartzen diot erreferentzia-corpus batena baino areago. Corpus oportunisten ezaugarria da lortzeko errazenak diren materialekin osatzen direla, eta ez aldez aurretik erabakitako irizpide batzuen arabera finkatutako xede jakin bat lortzeko. Nolanahi ere, ez dago zalantzarik corpus oportunista handi bat irizpide zehatzagoen arabera diseinatutako corpus orekatuago eta adierazgarriago baten ernamuina izan daitekeela.

Bukatzeko, ohar bat egin nahi nuke corpus honen kontsulta-interfazeak eskaintzen duen informazio ikusgarri bati dagokionez. Izan ere, urteetan zeharreko maiztasunak biltzen dituen grafikoa eskaintzen zaigu kontsultak egiten ditugunean. Adibidez, zelula lema bilatzen badugu, bestelako informazio esangarriez gain, era honetako grafikoa eskaintzen zaigu (ikus «Urtez urte»).

Informazio hori oso ikusgarria izanagatik ere, arreta handiz hartu behar dela uste dut. Izan ere, zalantzak izan ditzakegu corpusak oro har izan dezakeen orekari buruz, baina urtez urteko geruzak egiten baditugu, garbi dago nabariki galduko dela izan lezakeen oreka. Beste hitz batzuetan esanda, goiko grafiko horrek ez du esan nahi zelula hitzaren erabilerak igoera bat izan duenik 2007 urtearen inguruan eta ondoren erabilera mugatzen joan denik. Grafiko horrek esan nahi duena da 2007 urtean zelulei buruz ari diren testu gehiago daudela corpusean. Adibidez, maiztasun handi horren eragilea izan daiteke zelulen biologiarekin zerikusia du(t)en ikasliburu handi bat edo batzuk urte horretan argitaratu izana. Nire iritziz, datu diakronikoek zentzua hartzeko, urte-tarte zabalagoak hartu beharko lirateke kontuan eta zaindu beharko litzateke corpus osoan dagoen oreka gutxienez gordetzen dela urte-tarte bakoitzean. Osterantzean, hizkuntza-gertakarien arrazoi linguistiko edo soziolinguistikoekin zerikusirik ez duten elementuek erabat baldintzatuko dute datuen esangarritasuna.

Zalantzaz zalantza, zorionak ETC corpusaren egileei XXI. mendeko testu-bilduma handi hau biltzea lortzeagatik. Ezpairik gabe, euskararen gaineko ikerketak egiteko bide berriak zabalduko ditu eta egingo diren ikerketa berri horiek ere lagunduko dute etorkizuneko corpusgintzak are emaitza oparoagoak eta esangarriagoak eman ditzan.

4 Iruzkin

Igone Zabala atalean

4 responses to “Corpusen adierazgarritasuna

  1. Xabier Aristegieta

    Artikulu interesgarria iruditu zait, eta zorroztasunez idatzia.

    Argigarria oso, eta guztiz kontuan hartzekoa, corpusaren “ereduzko”tasunaren esanahiaz egiten duzun ohartarazpena: erreferentzia-izaera huts bat, euskaraz ereduzkotasun gisa aurkeztua.

    Tamalez, inpresioa daukat nahiago izan dela, berriro ere, mailegu baten bidez gauzei beren izenez deitu beharrean, euskal hitz “jator” bat erabiltzea.

    Baita horrela jokatuz euskal irakurleari okerreko zerbait ulerrarazten bazaio ere.

    • Igone Zabala

      Sarrera baten bitartez argituko litzateke “ereduzko” hitzari eman nahi izan dioten esanahia. Agian “eredugarri” edo horrelako zerbait esateko erabili dute. Izan ere, erdaraz egiten duten sarrera laburrean, kalitateko testuak aukeratu direla azpimarratzen dute. “Ereduzko Prosa Gaur” corpusaren kasuan, helburua eredugarri izatea dela pentsa daiteke.

      • Xabier Aristegieta

        Seguru nago zuk diozun bezala dela, eta testu horiek, erreferentzia-testuak izateaz gain, eredugarri ere badirela, hain zuzen elurra, zuria izateaz gain, hotza den bezalaxe. Alabaina, problema sortzen da euskarazko “zuri” esateko gaztelaniaz “frío” hautatzen denean. Edo gaztelaniazko “blanco” esateko, euskarazko “hotz”. Hortxe ikusten dut problema.

  2. Nere postekin loturak: 31 eskutik bloga | Hizkuntza-teknologiak

Utzi erantzun bat

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Aldatu )

Twitter picture

You are commenting using your Twitter account. Log Out / Aldatu )

Facebook photo

You are commenting using your Facebook account. Log Out / Aldatu )

Google+ photo

You are commenting using your Google+ account. Log Out / Aldatu )

Connecting to %s