Babeslea:

Eusko Jaurlaritza

Web-corpusen Ataria

Ongi etorri Web-corpusen Atarira

Web-corpusen ataria euskarazko web-corpusak kontsultagai dituen gunea da. Atari hau Elhuyar Fundazioaren ekimena da, eta Eusko Jaurlaritzak diruz lagundu du, 2011ko IKT deialdian.

Web-atari honetan dagoen informazio guztia Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak egindako ikerketen emaitza da. Bertan kontsultagai dauden corpusak Internetetik automatikoki eratuak dira, gure taldean garatutako tresnak erabiliz. Une honetan, 2 corpus ditugu, atariaren atal banatan kontsulta daitezkeenak:

  • Corpus elebakarra: euskarazko web-corpusa, 124.625.420 testu-hitz dituena. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta gaur arte eratu den euskarazko corpusik handiena da. Linguistikoki etiketatuta dago.

  • Corpus paraleloa: euskara-gaztelania web-corpusa, esaldi mailan parekatua, eta 18.753.613 testu-hitz dituena (7.891.104 euskaraz eta 10.862.509 gaztelaniaz). 659.630 segmentu elebidun ditu. Egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, hau ere linguistikoki etiketatua da. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.

Horiez gain, Hitz-konbinazioak atalean, euskarazko corpus elebakarretik automatikoki erauzitako bigramak kontsulta daitezke. Hiru kategoria-konbinaziotako bigramak erauzi ditugu: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, esaterako, erabiltzaileak ikus dezake izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.

Proiektu honen bidez, Elhuyar Fundazioak nabarmendu nahi du Internetek euskara aztertzeko datu-iturritzat duen garrantzia, Interneten euskara nola erabiltzen den jakitea denontzat baita interesgarria, eta, hori egiteko aukera izan dezagun, baliabide eraginkor bat eratu nahi izan dugu: Web-corpusen Ataria.