Babeslea:

Eusko Jaurlaritza

Web-corpusen Ataria

Hitz-konbinazioak - Aurkezpena

Euskarazko web-corpus elebakarretik hiru eratako hitz-konbinazioak erauzi dira, automatikoki: izen+aditz, izen+izen eta izen+izenondo. Fraseologia konputazionaleko lan honetan erabilitako metodologia Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldean diseinatu eta inplementatu da, Konbitz ikerkuntza-proiektuan lortutako emaitzak aplikatuz eta garatuz, eta Euskal Herriko Unibertsitateko IXA taldeko Iñaki Alegria lankide izanik. Eustagger bidez prozesatutako web-corpus elebakar etiketatutik abiatuta egin dugu lan, eta, hortik aurrerako urratsetako batzuetan, erabilera libreko bi tresna erabili ditugu: Ted Pedersenen Ngram Statistics Package (NSP), bigrama-sorkuntzarako; eta Stefan Everten UCS toolkit, elkartze-neurri estatistikoak kalkulatzeko.

Metodologiaren eta ebaluazioren informazio zehatza du eskura erabiltzaileak bibliografian erreferentziatzen den artikuluan.

Hona hemen aipatu hiru konbinazio-motetako adibide batzuk:

  • izen+aditz konbinazioak: gerrikoa estutu, adarretatik heldu, zubiak eraiki, loa galdu, atentzioa eman, adostasuna lortu, aktari erantsi, kalitateaz arduratu, egunkaria irakurri… Bigramaren forma kanonikoa formulatzeko, izenaren kasu-atzizkiak normalizatu egin dira, bigramaren agerraldietan duen maiztasun handieneko forma erabiliz, eta maiztasunak batuz; absolutiboaren kasuan, partitiboaren agerraldiak ere esleitu zaizkio. Aditzaren aspektu-formak eta forma jokatugabeak ere kontuan hartu dira. Esaterako, erabakia/erabakiak/erabaki/erabakiok/erabakirik + hartu/har/hartzen/hartuko/hartzea/hartzeko/hartutako… → erabakia hartu bigramaren aldaerak dira
  • izen+izen konbinazioak: arrain-sarda, mahai-jolas, elur-maluta, eguzki-haize, administrazio-kontseilu, energia-eraginkortasun, liburutegi-zerbitzu
  • izen+izenondo konbinazioak: ardi beltz, aita santu, zulo beltz, ardo ondu, haize fin, aldapa piko, lagun min, xedapen gehigarri, erregai fosil, nobela historiko, liburu interesgarri, partikula kargatu

Horiek aztertuta, argi ikus daiteke erauzitako konbinazioak edo bigramak ez direla denak idiomatikotasun-maila berekoak: batzuk esapide idiomatikoak (edo lokuzioak) dira, beste batzuk kolokazioak, eta, azkenik, konbinazio libreak ere badaude. Egiten ari garen lanaren helburua da erauzitako konbinazioak idiomatikotasunaren arabera ordenatzeko teknikak garatzea. Izan ere, erabiltzailearentzat esapide idiomatikoak (gerrikoa estutu, adarretatik heldu, zubiak eraiki, aita santu) eta kolokazioak (atentzioa eman, arrain-sarda, lagun min) izaten dira interes handienekoak. izen+izen eta izen+izenondo konbinazioen kasuan, termino teknikoak ere erauzten dira, horietako batzuk idiomatikotasun-maila nabaria dutenak (eguzki-haize, zulo beltz).

Bada, lehen urrats honetan, bigramaren osagaien agerkidetzaren neurketa izan da idiomatikotasuna karakterizatzeko bidea. izen+aditz konbinazioen kasuan, beste corpus batekin egin dugun ikerketan [1], independenteki eskuz landutako erreferentzia bat erabili da ebaluaziorako, eta doitasun onena t neurria (t-score) delakoak lortu ditu. Dena den, kontsulta-interfazean, erabiltzaileak, t neurriaz eta maiztasun absolutuaz gain, beste bost neurri estatistiko ditu aukeran, datuak bistaratzeko eta bigramak ordenatzeko.

Kontsulta-interfazeak eskaintzen dituen aukeren berri jakiteko, ikus Laguntza.

Zuzentasuna

Erauzketa-prozesua erabat automatikoa da, eta horrek berekin dakar emaitzetan ageri diren konbinazioetako batzuk zuzenak ez izatea. Batzuetan, gerta daiteke bigrama ez izatea emaitzetan sailkatuta agertzen den kategoria-konbinaziokoa (esaterako, berez izen+izen dena izen+izenondo motakoetan agertzea); horren arrazoi nagusia da, lema edo kategoria anbiguoa izaki, etiketatzaileak esleitutako analisia zuzena ez izatea. Beste batzuetan, etiketatzaileak ezagutzen ez dituen hitzen kasuan, testuko forma hartu da bigramaren osagaitzat, eta ondorioz, berez bigrama beraren agerraldi direnak konbinazio desberdinetan sakabanatuta ager daitezke, edo gerta daiteke bigramaren forma kanonikoa zuzena ez izatea. Azkenik, lehen urrats honetan bigramak soilik erauzi ditugunez, litekeena da batzuetan agertzen den konbinazioa osoa ez izatea, hau da, beste handiago baten parte izatea. Hurrengo garapenetan, okerreko konbinazioak zuzentzeko edo emaitzetatik kentzeko urratsak egitea dago aurreikusita, eta bigramak baino luzera handiagoko konbinazioak erauztea ere bai.

Bibliografia