Babeslea:

Eusko Jaurlaritza

Web-corpusen Ataria

Corpus elebakarra - Aurkezpena

Elhuyarren euskarazko web-corpusak 124.625.420 testu-hitz ditu, eta gaur egungo euskarazko corpusik handiena da. Web-corpus hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako teknologiak erabilita. Web-corpusa biltzeko tresnak ondoko gauzak egiten ditu:

  • Interneteko euskarazko orriak lokalizatu
  • Orri ez-egokiak iragazi
  • Orri errepikatuak edo ia berdinak ezabatu
  • Orritik edukizkoak ez diren atalak kendu (izenburuak, menuak, nabigazio-aukerak, oin-oharrak), testu nagusia baino ez corpuseratzeko
  • .

Corpusaren osaera dela eta, 6.202 domeinutako 82.542 dokumentu ditu. Eranskina (elebakarra) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Bilketa-metodoari buruz gehiago jakin nahi izanez gero, bibliografian aipatzen den artikulura jo dezakezu.

Webgune honetan kontsultagai jartzeko, testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira (Hitz-konbinazioak atalean eskaintzen den bigrama-erauzketa egiteko eta prozesatzeko, bi horiez gain, kasu- eta mugatasun-etiketak ere erabili dira). Informazio horren bidez, hitzak haien lema, forma edo kategoriaren arabera bila daitezke. Hori ez ezik, lema edo forma batetik halako distantziara forma, lema edo kategoria jakin bateko hitzak dauden ere kontsulta daiteke. Hainbat aukera daude emaitzak ordenatzeko, eta datu estatistikoak aukeratzeko (ikus Laguntza).

Bibliografia