Corpusak eta hiztegiak

Igone Zabala Unzalu

Duela aste pare bat aurkeztu zuen Elhuyar Fundazioaren I+G taldeak Web-corpusen ataria San Telmo museoan, eta aste honetan bertan eman du Igor Leturiak horren berri Erabili.com atarian. Pozteko modukoa deritzot corpus-atari honi hainbat arrazoirengatik. Batetik, tamaina handiko bi corpus biltzen ditu (125 milioi hitzeko euskarazko corpusa eta 18 milioi hitzeko euskara-gaztelania corpus paraleloa) eta, zalantzarik gabe, tamainak garrantzi handia du zenbait erabileratarako. Bestalde, corpusa biltzeko modua ere aipatzeko modukoa da. Corpusak, oso handiak izanagatik ere, beti dira hizkuntza batean gertatu diren ekoizpen guztien unibertso erraldoitik ateratako laginak, eta laginketak, karakterizatu nahi duen errealitaterako zenbat eta egokiagoa izan, orduan eta argazki hobea emango digu deskribatu edo azaldu nahi dugun errealitatearena. Ez dakit norbaitek kalkulurik egin duen, baina pentsatzekoa da egun Interneten aurki daitezkeen testuak direla irakurle gehien dituztenak, eta pentsatzekoa da testu horiek hiztun jakin batzuen erabilerak erakusteaz gain, beste hiztun askok jasotzen duten inputaren berri ere ematen digutela. Alegia, Internetetik bildutako testu horiek euskaldun asko eta askoren erabilera partekatu errealaren berri ematen digutela pentsa dezakegu. Testuak bilatzeko teknikak erabiltzaile arrunt batek erabiltzen dituenak baino askoz ere sofistikatuagoak dira baina, hala ere, neurri batean behintzat, bilatzaile batean informazioa bilatu eta testu batetik bestera nabigatzen duen erabiltzaileak egiten duena simulatzen dute. Hortaz, Internetetik corpusak osatzeko modu hau, Igor Leturiaren hitzak errepikatuz, «corpus handiak modu erraz, merke eta azkarrean osatzeko modurik onenena» ez ezik, hizkuntzaren erabilera errealak biltzeko oso modu egokia ere badela esan daiteke.

Corpusek askotariko erabilerak izan ditzakete. Nolanahi ere, hemen  azterketa linguistikoetarako erabilerez arituko naiz eta, bereziki, hiztegintzarako erabileraz. Hainbat faktorek baldintzatuko dituzte corpusetik azterketa linguistikoak egiteko lortu ahal izango ditugun datuak: corpusean biltzen diren testu-generoek eta horien arteko proportzioek, corpusaren etiketatze formal eta linguistikoaren mailak eta zehaztasunak eta corpuseko testu bakoitzeko jasotzen diren metadatuek. Metadatuei dagokienez, testuen inbentarioan parametro pragmatikoei buruz zenbat eta xehetasun gehiago jaso (testu-generoa, urtea, testu itzulia den ala ez, testu espontaneoa edo zuzendua den, alor jakin bateko testu espezializatua den ala ez, aldaera geografiko jakin batekoa den e.a,), orduan eta corpus modularragoa egin ahal izango dugu, eta modularitate horri esker egin ahal izango ditugu, hizkuntza-elementuen, konbinazio-patroien eta egituren inbentarioa ez ezik, inbentariatutako horiek testuinguruaren elementu ez-linguistikoekin lotzen dituzten ikerketak. Parametro pragmatikoak kontuan hartu gabe ere, ezinezkoa izango da corpus jakin bat erabiltzea hizkuntza-aldaerei buruzko ikerketak egiteko: erregistroen eta dialektoen ikerketek zein ikerketa diakronikoek ezinbestekoak dituzte corpus modularrak. Garbi dago askotan corpusgintza faktore ekonomikoek edota testuen eskuragarritasunak baldintzatzen dutela, eta testuen inbentario xehea egitea batzuetan ezinezkoa gerta daitekeela, baina oso kontziente izan behar gara esku artean dugun corpusaren ezaugarriez datuak aztertzeko eta interpretatzeko orduan.

Hiztegien eta corpusen arteko harremana gurpil zoro baten modukoa da, zeren eta corpusak beharrezkoak baitira lan lexikografikoetarako baina, bestalde, hiztegiek eskaintzen dituzten informazioek eragin handia baitute kontsultak egiten dituzten hiztunek egingo dituzten erabileretan eta, azken finean, etorkizunean corpusetan aurkituko ditugun hitz, adiera eta erabileretan. Erabileran eragiteko ahalmena nabariki aregotuta dago hiztegi arauemaileen kasuan, horien helburua erabilerari eragitea baita. Hortaz, hiztegi arauemaileetan hasierako deskripzio xehea behar da sarrera jakin bati buruz, ondoren erabilerari buruzko araua eman ahal izateko, dela deskribatutako erabilerei berme akademikoa emateko, dela erabilera horietako batzuk baztertzeko modukoak direla ondorioztatzeko. Deskripzioaren exhaustibotasunak eta sakontasunak, baita datuen interpretazioak ere, erabakiaren kalitatea erabat baldintzatuko dute. Ezaguna da Hiztegi Batua bukatu gabeko hiztegia dela, sarrerei dagokienez baina, are garrantzitsuagoa dena (zoritxarrez nahiko ezezaguna ere badela esango nuke), bukatu gabea da sarrera bakoitzari buruz biltzen duen informazioari dagokionez. Hori jakinda, arreta handia jarri behar dugu ematen dituen arauak interpretatzeko orduan.

Adibide bat emango dut. Har dezagun estimatu aditza. Orotariko Euskal Hiztegiak (OEH) sarrera horren hiru adiera jasotzen ditu: «1. Estimar, apreciar, valorar… 2. Estimar, considerar, juzgar, pensar; tener por… 3. (Usos prop. y fig.). Estimar, tasar Lcc. Estimer, donner une estimation’…». Estimazio sarreran ere, bi adiera jasotzen ditu: «1. Estima, aprecio; consideración, respeto… 2. Estimación, valoración. … Estimazio ematen giñon / zuluan zegon ontzari / lumak kenduta pisau ezkero / etzan izango ontza bi». Areago, paradigma bereko estimatzaile sarrera ere jasota dago OEHn. Hala ere, OEHn jasota dauden sarrera-adiera horietako batzuk, ez dira ageri ez Hiztegi Batuan (HB), ezta Euskaltzaindiaren Hiztegian (EH) ere. EHk estimatu aditzerako «Aintzakotzat hartu, eskertu» definizioa ematen du, eta, estimazio sarrerarako, «Estimua». Gure hiztegi arauemaileetan ez dago jasota ezta estimatzaile sarrera ere. Garbi dago sarrera hauetan biltzen den araua eman aurretik ez dela jaso sarrera horiei dagokien informazio guztia. Kontua harritzekoa da HB osatzeko erreferentzia modura erabiltzen diren corpusetan ageri baitira azken adiera horiek: OEHren corpusean ageri dira, hiztegian bildu baitira eta XX. Mendeko Euskararen Corpus Estatistikoan, 24na agerpen dituzte estimatu eta estimazio lemek, eta estimatzaile 2 aldiz ageri da.

Zer eratako komunikazio-egoeretarako balio digute, beraz, gure hiztegi arauemaileek sarrera hauetan ematen dituzten arauek? Lau corpus aztertu ditugu argibideen bila: Ereduzko Prosa Gaur (EPG) eta XX. Mendeko Euskararen Corpus Estatistikoa (XX. C.E.) corpus orokorrak, eta espezializatutzat har ditzakegun Zientzia eta Teknologiaren corpusa (ZT) eta Terminologia Sareak Ehunduz programan bildu ditugun UPV/EHUko irakasleen irakas-materialekin osatzen goazen corpus akademikoa (TSE). Taula batean bildu ditugu datuak, azalpena ulergarriago egitearren:

Corpus orokorrak

Corpus espezializatuak

EPG

25.1 M hitz

XX.C.E.

4.6 M hitz

ZT

8.5 M hitz

TSE

6.2 M hitz

estimatu

17

24

69

138

estimazio

25

24

32

172

estimatzaile

0

2

19

100

Agerraldi-tasa (1 M hitzeko)

1.7

10.9

14.1

66.1

Aztertzen ari garen adierek dituzten agerraldi kopuruek agerian uzten dute sobera ezaguna dena, alegia, corpusek biltzen dituzten testuen ezaugarriek, alegia, tratatzen dituzten gaiek, testu-generoek eta espezializazio mailek erabat baldintzatzen dutela adiera batzuen agerpena. Corpusen tamaina kontuan hartzen duen tasa bat aplikatzen badugu, are nabariagoa da aldea. Izan, ere, HBn ageri ez diren adierekin lotutako paradigmako hiru lemak hamar aldiz gehiago ageri dira denetariko generoen lagin estatistikoki orekatuak biltzen dituen XX. C.E.an, lanak osorik biltzen dituen baina askotariko genero eta erregistroak islatzeko irizpidea jarraitu ez duen EPG corpusean baino. Espezializatutzat har ditzakegun testuetan agerpen-tasa handiagoa dute aipatutako adierek baina, horietan ere, alde handia dago bi corpusen artean. Izan ere, TSE corpusean nahiko espezializatutzat har ditzakegun testuak biltzen dira, unibertsitateko aditu-irakasleek denetariko espezialitate-alorretako adituak izateko prestatzen ari diren ikasleei zuzendutako testu didaktikoak jasotzen baitira. ZT corpusean, aldiz, zientzia eta teknologiako gaiez ari diren askotariko espezializazio mailetako eta askotariko generotako testuak biltzen dira. Corpusen osaera hori dela eta, ia bost aldiz gehiago ageri dira aztertzen ari garen adierak TSE corpusean ZT corpusean baino.

Laburbilduz, hiztunek komunikazio-egoera desberdinetan egiten dituzten hizkuntzaren erabilerak dira hizkuntza erreala. Corpusek eta hiztegiek erabilera erreal horien argazkiak egiten saiatzen dira, baina argazkiaren ezaugarriak eta kalitatea lotuta egongo dira enfokatzen duten errealitatearen zatiarekin, objektiboa enfokatzeko zehaztasunarekin eta argazki-kameraren objektiboaren bereizmen-ahalmenarekin. Bereizmen-ahalmen handiko corpusek testuen oso inbentario xeheak dituzte, parametro pragmatikoen ahal den eta balio gehien biltzen dituztenak. Bestalde, testu mota desberdinen artean zenbat eta oreka estatistiko handiagoa lortu, orduan eta hobeto enfokatutako argazkiak eskainiko dituzte. Eta, jakina, argazkian ez dira agertuko kameraren objektiboaren irismenetik kanpo dauden erabilera errealen zatiak. Hiztegiek corpusek egiten dituzten argazkiak interpretatzen dituzte eta zenbat eta argazki gehiago eta enfokatuago eduki, orduan eta informazio hobea eskainiko diete erabiltzaileei. Argazki ugari falta zaizkio oraindik Hiztegi Batuari eta arreta handia jarri behar da momentuz ikusgai egin ez diren hizkuntzaren erabilerei ez eragiteko. Izan ere, erabilera horiek Hiztegi Batuak ematen digun argazki partzial horretara egokitu nahi izateak hizkuntzaren garapen eta finkapena oztopatzeko arriskua dakar. Areago, ikusi dugu Hiztegi Batuan ahaztuta edo behar den bezala interpretatu gabe geratu direla hainbat argazki zahar. Oraingoan, estimatu / estimazio / estimatzaile lemen adiera batzuk aipatu ditugu, eta Alfontso Mujikak anitz lemaren gramatika-kategoriaren auzia ekarri zigun foro honetara duela hamabost egun. Maizegi ditugun aurreiritziek eramaten gaituzte begien aurrean ditugun hainbat datu kontuan ez hartzera, esate baterako, duela hilabete batzuk foro honetan adierazi aditzaren erabilera iragangaitzen inguruan izan genuen eztabaidan, erabilera berriaz ari ginela sinetsita, ez zitzaigun bururatu OEHra jotzea eta, hara non, adierazi aditzaren seigarren azpisarreran, hau ageri den: «6. (Aux. intrans.). Manifestarse, pronunciarse. Jainkoa bereala adierazo zan. Lard 95». Konturatzen bagara, Lardizabalek Jaunkoaz ari zenean, subjektu horrek adierazteko berezko kausalitatea duelarik, aditzaren erabilera inakusatiboa egin zuen, genetikaz ari garenean geneen kasuan egiten dugun bezala. Erabilera hori espero izatekoa zela esaten nuen nik baldintza pragmatiko jakin batzuetan, baina aurreikustekoa ez ezik, lehenago ere gertatua bazen euskal testuetan.

Iruzkin 1

Igone Zabala atalean

One response to “Corpusak eta hiztegiak

  1. Nere postekin loturak: 31 eskutik bloga | Hizkuntza-teknologiak

Utzi erantzun bat

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Aldatu )

Twitter picture

You are commenting using your Twitter account. Log Out / Aldatu )

Facebook photo

You are commenting using your Facebook account. Log Out / Aldatu )

Google+ photo

You are commenting using your Google+ account. Log Out / Aldatu )

Connecting to %s