Babeslea:

Eusko Jaurlaritza

Web-corpusen Ataria

Corpus paraleloa - Aurkezpena

Atari honetan kontsultagai dagoen bigarren corpusa euskara-gaztelania corpus paraleloa da. Corpus hau automatikoki osatu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako PaCo2 [1] tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 1. taulak corpusaren tamainaren inguruko datuak azaltzen ditu.


euesguztira
Dokumentuak87.25387.253174.506
Corpus gordinak (dokumentu mailako parekatzea)34.902.45742.183.56377.086.020
Segmentuak (esaldi mailako parekatzea)--659.630
Hitzak (esaldi mailako parekatzea)7.891.10410.862.50918.753.613

1. taula. Corpus paraleloaren datu orokorrak

85 domeinutako testuak bildu dira corpusera. Eranskina (paraleloa) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Gerora, corpusa hazten joango dela aurreikusten dugu. Une honetan, guk dakigula, automatikoki sortutako euskara-gaztelania corpus paralelo elebidunik handiena da.

Bildutako dokumentu elebidunak esaldi mailan parekatzeko eta segmentuak sortzeko, Hunalign tresna erabili dugu. Ondoren, corpusa linguistikoki prozesatu da, eta etiketatuta dago. Corpus elebakarrean bezala, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger tresna erabili da euskarazko etiketatze linguistikoa egiteko. Gaztelaniazko testuak TreeTagger etiketatzailearen bidez prozesatu dira. Testuko hitz bakoitzari esleitutako informazio linguistikoari esker, corpusaren kontsulta-interfazean lema eta kategoariaren araberako hainbat bilaketa-mota egin daitezke (ikus Laguntza).

Zuzentasuna

Esan beharra dago bilketa automatikoa izateak abantaila argiak dituela, baina arazoak ere bai. Batetik, corpus hau eskuz biltzeak eskatuko lukeen denborak eta ahaleginak bideraezina egingo lukete proiektua. Bestetik, prozesu automatikoa izateak berekin dakar amaierako corpusaren kalitatea optimoa edo erabatekoa ez izatea. Izan ere, ezin dugu bermatu lortutako segmentu guztiak, hau da, esaldi guztien parekatzea, zuzen direnik. Hainbat arrazoi daude horretarako: dokumentu batzuek itzulpen partzialak besterik ez dituzte, zenbait dokumentu paralelo gisa aurkezten diren arren, hizkuntza batean eta bestean agertzen den edukia ez da berdina… Bestetik, parekatze automatikoa egiten duten tresnen doitasuna ez da % 100koa. Nolanahi ere, gure corpus paraleloak eskaintzen dituen segmentuetatik %90 zuzenak dira, hau da, elkarren itzulpen diren esaldiak dituzte [1]. Une honetan, bozka-sistema bat lantzen ari gara, erabiltzaileak segmentu bat zuzena ala okerra den adierazteko aukera izan dezan. Horretara, corpusaren kalitatea hobetuz joango da.

Bibliografia